正文內(nèi)容

基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)-智能文本篇章分析(編輯修改稿)

2025-07-24 21:33 本頁面

　

【文章內(nèi)容簡(jiǎn)介】 ode。//搜索結(jié)果的網(wǎng)頁HTML代碼 ArrayList arrayList。//存放有效的網(wǎng)頁地址的動(dòng)態(tài)數(shù)組 String strRegex = @://([\w]+\.)+[\w]+(/[\w ./?%amp。=]*)?。 //匹配有效網(wǎng)頁地址特征的正則表達(dá)式 Regex regex = new Regex(strRegex, )。 MatchCollection matchCollection = (htmlCode)。 for (int i = 0。 i = 1。 i++) { bool rep = false。 string strNew = matchCollection[i].ToString()。 foreach (string str in arrayList) { if (strNew == str) { rep = true。 break。 } } if (!rep amp。amp。 strNew != amp。amp。 strNew != ) { if ((.htm) || (.html) || (.shtml)) (strNew)。 } } return arrayList。網(wǎng)頁文本提取思路及算法網(wǎng)頁文本提取的主要思路：后臺(tái)分析程序自動(dòng)訪問上一節(jié)中提取出來的有效的網(wǎng)頁地址，抓取網(wǎng)頁HTML源碼，這里要實(shí)現(xiàn)自動(dòng)判斷網(wǎng)頁編碼的問題，否則有可能發(fā)生亂碼現(xiàn)象。一般應(yīng)答的頭的charset都有聲明網(wǎng)頁的編碼，常見的編碼有“GB2312”、“GBK”、“UTF8”和“ISO88591”，為方便處理和存儲(chǔ)，本系統(tǒng)將編碼統(tǒng)一轉(zhuǎn)為“GB2312”。但由于Internet上的網(wǎng)頁數(shù)以億記，網(wǎng)頁的格式未嚴(yán)格達(dá)到統(tǒng)一的標(biāo)準(zhǔn)，比如有些應(yīng)答的頭里的charset和網(wǎng)頁的meta里聲明的 charset就不一致，這就導(dǎo)致程序無法識(shí)別而產(chǎn)生亂碼現(xiàn)象。由于此類不符合標(biāo)準(zhǔn)的網(wǎng)也只占少數(shù)，故處理過程中會(huì)當(dāng)作無意義的網(wǎng)頁而剔除掉。編碼問題解決后，首先，從HTML文件中提取文章的標(biāo)題，此處利用正則表達(dá)式41[8]實(shí)現(xiàn)精確匹配。strReg = @title(?title[^]*)/title （式41）文章標(biāo)題提取完后，把網(wǎng)頁分割成幾大塊，取出網(wǎng)頁里的div塊，td塊文字塊兒，對(duì)取出的文字塊排序之前把超鏈接文字?jǐn)?shù)量和漢字?jǐn)?shù)量比例超過百分之50的div去掉，因?yàn)檫@些都是相關(guān)鏈接或者文字廣告，再把漢字少于200的文本塊去除，因?yàn)橐话闵儆?00字的文本塊不會(huì)是正文，而且即便是正文，一般來說也不會(huì)有太多的價(jià)值。由于div支持嵌套，所以剩下的文本塊，有可能是重復(fù)的，一個(gè)是另一個(gè)的父節(jié)點(diǎn)，所以要把最里層的文本塊找出來，最里層的文本塊是漢字最多的，而其它文本較少的，所以要計(jì)算出剩余文本塊中漢字占所有字符比例最高的文本塊，基本上它就是正文的文本塊。當(dāng)然有的網(wǎng)頁正文里也可能還有div的文本塊，這時(shí)候可能會(huì)判斷錯(cuò)誤，但只要正文嵌套的div文本塊的漢字少于200字，本系統(tǒng)的算法還是能準(zhǔn)確提取正文文本塊的。緊接著是細(xì)節(jié)問題的處理，把pbr等標(biāo)簽替換成特殊占位符[p][br]等，因?yàn)樽罱K的正文需要保留段落和回車換行等格式，這一步用正則表達(dá)式實(shí)現(xiàn)。把最后剩下的文本塊的html標(biāo)簽去掉，用正則表達(dá)式過濾[9]。至此，正文提取完畢。具體的實(shí)現(xiàn)算法見算法42：算法42 網(wǎng)頁文本提取string input。//網(wǎng)頁HTML源文件string reg1 = @(p|br)[^]*。string reg2 = @(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?lj(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。])a\s+[^]*[^]{2,}/a(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。]))|(?Stylestyle[\s\S]+?/style)|(?selectselect[\s\S]+?/select)|(?Scriptscript[\s\S]*?/script)|(?Explein\!\\[\s\S]*?\\)|(?lili(\s+[^]+)?[\s\S]*?/li)|(?Html/?\s*[^ ]+(\s*[^=]+?=[39。]?[^39。]+?[39。]?)*?[^\[]*)|(?Otheramp。[azAZ]+。)|(?Other2\[az09]{6})|(?Space\s+)|(\amp。\\d+\。)。//獲取網(wǎng)頁的所有div標(biāo)簽Liststring list = GetTags(input, div)。//去除漢字少于200字的divListstring needToRemove = new Liststring()。foreach (string s in list) { Regex r = new Regex([\u4e00\u9fa5])。 if ((s).Count 200) { (s)。 } }foreach (string s in needToRemove) { (s)。 }//把剩下的div按漢字比例多少倒序排列,(CompareDinosByChineseLength)。if ( 1) {return 。}input = list[ 1]。//把p和br替換成特殊的占位符[p][br]input = new Regex(reg1, | ).Replace(input, [$1])。//去掉HTML標(biāo)簽，保留漢字input = new Regex(reg2, | ).Replace(input, )。//把特殊占維護(hù)替換成回車和換行input = new Regex(\\[p], | ).Replace(input, \r\n )。input = new Regex(\\[br], | ).Replace(input, \r\n)。return input。文章自動(dòng)分詞技術(shù)對(duì)提取出來的文章進(jìn)行高效地分詞是文本篇章分析很重要的一塊功能，它的基本思想是采最大匹配分詞[4]，也稱作貪心算法。分詞過程需要去掉無意詞和噪聲詞。鑒于漢字分詞技術(shù)已經(jīng)相當(dāng)完善，本系統(tǒng)直接調(diào)用了一個(gè)ShootSeg的C分詞組件[5]，本系統(tǒng)對(duì)該組件的改進(jìn)之處就在于更新了其基本的分詞詞典，比原來的分詞詞典增加了幾萬條新的網(wǎng)絡(luò)詞匯，以便于更好的對(duì)現(xiàn)代文章進(jìn)行分詞。計(jì)算子概念對(duì)某關(guān)鍵詞貢獻(xiàn)度算法，知識(shí)庫中的某關(guān)鍵詞下包含了許許多多的子概念[10]，文章分詞完畢后，后臺(tái)分析程序自動(dòng)遍歷某關(guān)鍵詞下所有的子概念，此處稱被搜索的關(guān)鍵詞為主概念，尋找子概念和主概念之間的一條路徑，計(jì)算每個(gè)子概念對(duì)主概念的貢獻(xiàn)度，也可形象地理解為通過某一算法計(jì)算出子概念和主概念之間直接的包含關(guān)系值。數(shù)據(jù)庫詞條包含關(guān)系存儲(chǔ)形式（如表41所示）。表41 數(shù)據(jù)庫中概念間的存儲(chǔ)形式wID2wID1puID主概念子概念關(guān)聯(lián)值用戶編號(hào)由于知識(shí)庫不是簡(jiǎn)單的二叉樹，而是n叉樹，所以沒有現(xiàn)成的算法來實(shí)現(xiàn)知識(shí)樹節(jié)點(diǎn)的遍歷。但是，受到數(shù)據(jù)結(jié)構(gòu)中二叉樹遍歷算法[6]的啟發(fā)，本系統(tǒng)設(shè)計(jì)了一個(gè)類似于二叉樹前序遍歷的算法，見算法43：算法43 主概念下所有子概念的遍歷ArrayList wID。//wID是一個(gè)動(dòng)態(tài)數(shù)組，并且支持索引，可以隨時(shí)添加、修改和刪除數(shù)組元素for (int i = 0。 i 。 i++) { sqlConn(wID[i].ToString())。//查找相鄰一層的所有子概念( 查詢到的所有子概念)。 }上述算法的遍歷過程可用以下例子來形象說明，假設(shè)圖43是某用戶的一個(gè)興趣樹的一部分，1表示主概念，那么遍歷算法依次訪問的順序?yàn)椋?23456798101112131415圖43 假想興趣樹子概念查找的過程也是路徑的選擇過程，這里我們稱之為子概念對(duì)主概念的貢獻(xiàn)度。文章評(píng)分和信息推薦至此，給文章評(píng)分前的準(zhǔn)備工作還缺少的環(huán)節(jié)就是統(tǒng)計(jì)每個(gè)子概念是否出現(xiàn)在文章中，如果出則統(tǒng)計(jì)該子概念出現(xiàn)的次數(shù)，最后在結(jié)合子概念對(duì)主概念的貢獻(xiàn)度[11]按照式42進(jìn)行計(jì)算，從而的出文章的最終評(píng)分。當(dāng)文章評(píng)分大于零時(shí)，則該文章對(duì)用戶來說是有意義的，應(yīng)該向用戶進(jìn)行推薦。文章最終得分=子概念的貢獻(xiàn)度*子概念出現(xiàn)的次數(shù) （式 42）后臺(tái)分析程序中具體算法設(shè)計(jì)如算法44所示：算法44 文章評(píng)分算法ArrayList TList。//存放每個(gè)子概念出現(xiàn)的次數(shù)的動(dòng)態(tài)數(shù)組ArrayList PList。//存放每個(gè)子概念的貢獻(xiàn)度的動(dòng)態(tài)數(shù)組for (int i = 0。 i 。 i++){(TList[i])。score += (TList[i]) * (PList[i])。} 推薦信息的動(dòng)態(tài)更新推薦信息產(chǎn)生后，系統(tǒng)將記錄下推薦信息產(chǎn)生的時(shí)間，當(dāng)該信息超過3天后，默認(rèn)為此文章已經(jīng)失去時(shí)效性，故予以刪除，從而達(dá)到減少冗余數(shù)據(jù)的效果。后臺(tái)分析程序?qū)崿F(xiàn)推薦信息的動(dòng)態(tài)更新的算法見算法45所示：算法45 推薦信息的動(dòng)態(tài)更新ArrayList introdIDList；//存放所有推薦信息的編號(hào)ArrayList TimeList；//存放所有推薦信息的產(chǎn)生時(shí)間foreach (string xx in introdIDList){DeleteOldTexts(xx)。//刪除記錄} 用戶個(gè)人知識(shí)點(diǎn)興趣度變化的勒夏特列原理勒夏特列原理是法國化學(xué)家勒夏特列提出的一個(gè)關(guān)于化學(xué)反應(yīng)平衡移動(dòng)問題的原理。主要內(nèi)容為：如果改變影響平衡的一個(gè)條件（如濃度、壓

點(diǎn)擊復(fù)制文檔內(nèi)容

外語相關(guān)推薦

整合申報(bào)項(xiàng)目問答知識(shí)庫-資料下載頁

【總結(jié)】整合申報(bào)項(xiàng)目問答知識(shí)庫、請(qǐng)問申報(bào)地海關(guān)如何填報(bào)？根據(jù)報(bào)關(guān)人員在貨物進(jìn)出口時(shí)的自主選擇，填報(bào)海關(guān)規(guī)定的《關(guān)區(qū)代碼表》中相應(yīng)海關(guān)的名稱及代碼。例如：選擇“廣州機(jī)場(chǎng)”為申報(bào)地海關(guān)時(shí)，應(yīng)錄入“”。提醒注意：申報(bào)地海關(guān)的關(guān)別代碼后兩位不能為“”。、請(qǐng)問進(jìn)出境關(guān)別如何填報(bào)？根據(jù)貨物實(shí)際進(jìn)出境的口岸海關(guān)，填報(bào)海關(guān)規(guī)定的《關(guān)區(qū)代碼表》中相應(yīng)口岸海關(guān)的名稱及代碼。例如：貨物實(shí)際進(jìn)出境的口岸

2025-06-23 15:25

天下雜志知識(shí)庫-資料下載頁

【總結(jié)】天下雜誌知識(shí)庫製作人：漢珍數(shù)位圖書公司『天下雜誌知識(shí)庫』3天下雜誌知識(shí)庫介紹?2020年8月正式成立線上資料庫查詢服務(wù)，提供自1981年創(chuàng)刊至今，共23年303期之?dāng)?shù)位內(nèi)容。?相較於紙本，天下知識(shí)庫以方便、快速的檢索方式，決不遺漏任何消息；主題式的統(tǒng)整，讓您在管理知識(shí)上更得心應(yīng)手。?相較於網(wǎng)站，天下知識(shí)庫給您最完整、

2025-09-20 10:12

上海聲通呼叫中心知識(shí)庫管理系統(tǒng)-資料下載頁

【總結(jié)】

2024-11-12 23:01

房地產(chǎn)行業(yè)知識(shí)庫-資料下載頁

【總結(jié)】房地產(chǎn)知識(shí)庫土地及綜合類知識(shí)規(guī)劃與設(shè)計(jì)類知識(shí)房產(chǎn)開發(fā)與建設(shè)類知識(shí)房產(chǎn)測(cè)繪類知識(shí)產(chǎn)權(quán)登記類知識(shí)土地及綜合類知識(shí)1、土地用途包括哪些種類？答：土地分為農(nóng)用地、建設(shè)用地和未利用地。農(nóng)用地是指直接用于農(nóng)業(yè)生產(chǎn)的土地，包括耕地、林地、草地、農(nóng)田水利用地、養(yǎng)殖水面等；建設(shè)用地是指建造建筑物、構(gòu)筑物的土地，包括城鄉(xiāng)住宅和公共設(shè)施用地、工礦用地

2025-06-27 15:10

知識(shí)庫收集示例辦事指南-資料下載頁

【總結(jié)】知識(shí)庫收集示例辦事指南序號(hào)地區(qū)所屬行業(yè)上報(bào)單位一級(jí)關(guān)鍵詞二級(jí)關(guān)鍵詞三級(jí)關(guān)鍵詞業(yè)務(wù)名稱政策依據(jù)申請(qǐng)條件辦理材料辦理流程辦理時(shí)限辦理地點(diǎn)辦理時(shí)間其他說明網(wǎng)上辦理鏈接備注本溪人社本溪市人社局工傷認(rèn)定工傷認(rèn)定國務(wù)院《工傷保險(xiǎn)條例》

2025-06-22 07:26

技術(shù)體系知識(shí)庫管理規(guī)范-資料下載頁

【總結(jié)】技術(shù)體系知識(shí)庫管理規(guī)范吉林省山水瑞通網(wǎng)絡(luò)科技有限責(zé)任公司（版權(quán)所有，翻版必究）文檔編號(hào)F0008-GF版本號(hào)密級(jí)秘密山水瑞

2024-11-12 21:46

知識(shí)庫體系建設(shè)方案-資料下載頁

【總結(jié)】關(guān)于規(guī)范標(biāo)準(zhǔn)化體系的建設(shè)方案目前存在的問題問題點(diǎn)問題示例1、各種資料無規(guī)范性格式和編號(hào)體系會(huì)辦單、簽呈編號(hào)隨意2、審批、發(fā)送權(quán)限范圍不清晰領(lǐng)導(dǎo)郵箱“垃圾郵件”較多，群組功能濫用3、歸檔管理部門和方式不明確無統(tǒng)一歸口，沒有檔案庫，業(yè)務(wù)文件管理分散4、資料調(diào)取手段不科學(xué)人工電腦主題詞檢索和紙板文件檢索，效率很低5

2025-05-28 01:15

聯(lián)合知識(shí)庫操作說明-資料下載頁

【總結(jié)】聯(lián)合知識(shí)庫操作說明2大綱?使用產(chǎn)品?內(nèi)容範(fàn)圍?功能示範(fàn)3使用產(chǎn)品?名稱：聯(lián)合報(bào)系知識(shí)庫定址會(huì)員?規(guī)格：鎖ip於校園(機(jī)構(gòu))內(nèi)不限人次不限用量?網(wǎng)址：?使用產(chǎn)品?內(nèi)容範(fàn)圍?功能示範(fàn)內(nèi)容範(fàn)圍?使用產(chǎn)品?內(nèi)容範(fàn)圍?功能示範(fàn)涵蓋刊物收錄年份

2025-08-01 13:52

知識(shí)庫條目提交管理規(guī)程-資料下載頁

【總結(jié)】上海XXXX股份有限公司系統(tǒng)服務(wù)事業(yè)本部管理文件文件編號(hào)：保密級(jí)別：簽發(fā)：知識(shí)庫條目遞交管理規(guī)程一.目的：規(guī)范知識(shí)庫管理流程、明確運(yùn)維人員在知識(shí)庫流程中的職責(zé)。二.職責(zé)：1.運(yùn)維人員（含技術(shù)支持人員）均有義務(wù)提交知識(shí)條目。2.運(yùn)維人員在提交知識(shí)條目前，需在運(yùn)維平臺(tái)知識(shí)庫內(nèi)進(jìn)行搜索，在確認(rèn)無重復(fù)知識(shí)條目或重復(fù)內(nèi)容的情況下，填寫、提交《知識(shí)

2025-06-19 04:58

賽門鐵克產(chǎn)品中文知識(shí)庫文檔列表-資料下載頁

【總結(jié)】1. 賽門鐵克產(chǎn)品中文知識(shí)庫文檔列表 12. SymantecEndpointProtection(SEP)簡(jiǎn)體中文文檔匯總（持續(xù)更新） 23. SymantecEndpointProtection主要文章 94. NetBackup(NBU)簡(jiǎn)體中文文檔匯總（持續(xù)更新） 135. BackupExecforWindowsServers(BEWS

2025-06-28 16:57

港口碼頭調(diào)度業(yè)務(wù)知識(shí)庫-資料下載頁

【總結(jié)】范文范例參考港口碼頭調(diào)度業(yè)務(wù)知識(shí)庫如何申報(bào)船舶進(jìn)出港計(jì)劃？（1）由船公司或其代理部門向港務(wù)局業(yè)務(wù)處報(bào)送（外貿(mào)船必須由其代理申報(bào)，內(nèi)貿(mào)船由天津港貨運(yùn)公司或中海船代公司申報(bào)）船舶72小時(shí)、48小時(shí)、24小時(shí)抵港預(yù)確報(bào)，并注明船名、船舶性質(zhì)、船舶規(guī)范（船長(zhǎng)、船寬、吃水等）、進(jìn)出口貨類、數(shù)量、是否申請(qǐng)引水等。從事內(nèi)貿(mào)計(jì)劃外運(yùn)輸?shù)拇稗k妥各項(xiàng)手續(xù)后，貨運(yùn)公司還應(yīng)向業(yè)務(wù)處遞交

2025-06-27 16:31

b工藝數(shù)據(jù)庫與知識(shí)庫-資料下載頁

【總結(jié)】計(jì)算機(jī)輔助工藝設(shè)計(jì)1第五講工藝數(shù)據(jù)庫與知識(shí)庫計(jì)算機(jī)輔助工藝設(shè)計(jì)21)數(shù)據(jù)：是一種物理符號(hào)序列，用來記錄事物的情況。?數(shù)據(jù)用類型和值來表示。不同的數(shù)據(jù)類型記錄的事物性質(zhì)不一樣。2)數(shù)據(jù)處理：是對(duì)數(shù)據(jù)進(jìn)行收集

2025-05-11 16:30

圖學(xué)多媒體技術(shù)知識(shí)庫系統(tǒng)畢業(yè)論文-資料下載頁

【總結(jié)】江蘇技術(shù)師范學(xué)院畢業(yè)設(shè)計(jì)說明書（論文）圖學(xué)多媒體技術(shù)知識(shí)庫系統(tǒng)畢業(yè)論文第1章緒論多媒體技術(shù)簡(jiǎn)介多媒體是指能夠同時(shí)獲取、處理、編輯、存儲(chǔ)和展示兩個(gè)以上不同類型信息媒體的技術(shù)。也就是就是多重媒體的意思，可以理解為直接作用于人感官的文字、圖形、圖像、動(dòng)畫、聲音和視頻等各種媒體的統(tǒng)稱，即多種信息載體的表現(xiàn)形式和傳遞方式。多媒體技術(shù)就是對(duì)多種媒體上的信息和多種存儲(chǔ)媒

2025-06-23 07:22

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)-智能文本篇章分析(編輯修改稿)

整合申報(bào)項(xiàng)目問答知識(shí)庫-資料下載頁

天下雜志知識(shí)庫-資料下載頁

上海聲通呼叫中心知識(shí)庫管理系統(tǒng)-資料下載頁

房地產(chǎn)行業(yè)知識(shí)庫-資料下載頁

知識(shí)庫收集示例辦事指南-資料下載頁

技術(shù)體系知識(shí)庫管理規(guī)范-資料下載頁

知識(shí)庫體系建設(shè)方案-資料下載頁

聯(lián)合知識(shí)庫操作說明-資料下載頁

知識(shí)庫條目提交管理規(guī)程-資料下載頁

賽門鐵克產(chǎn)品中文知識(shí)庫文檔列表-資料下載頁

港口碼頭調(diào)度業(yè)務(wù)知識(shí)庫-資料下載頁

b工藝數(shù)據(jù)庫與知識(shí)庫-資料下載頁

圖學(xué)多媒體技術(shù)知識(shí)庫系統(tǒng)畢業(yè)論文-資料下載頁

電網(wǎng)公司設(shè)備標(biāo)準(zhǔn)缺陷知識(shí)庫-資料下載頁

在線英語自學(xué)系統(tǒng)—知識(shí)庫管理系統(tǒng)—計(jì)算機(jī)(論文)-資料下載頁

基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)-智能文本篇章分析(存儲(chǔ)版)

基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)-智能文本篇章分析-文庫吧在線文庫

基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)-智能文本篇章分析(完整版)

基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)-智能文本篇章分析(更新版)

基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)-智能文本篇章分析(專業(yè)版)