正文內(nèi)容

基于領(lǐng)域知識庫的信息推薦系統(tǒng)-智能文本篇章分析(編輯修改稿)

2025-10-04 10:58 本頁面

　

【文章內(nèi)容簡介】 { foreach (string a1 in Class)//遍歷所有關(guān)鍵詞 { p = 1。 if (a1 != 頂層關(guān)鍵詞編號 ) { child = a1。 Temp_child =a1。 do{ 以 Temp_child為孩子節(jié)點查找公共知識庫中它的父節(jié)點； p = p * 上條關(guān)鍵詞之間的 p值 Temp_child = Temp_father。 }while(father!=頂層關(guān)鍵詞編號 amp。amp。 father不包含在個人關(guān)鍵詞中 )。 InsertPersonalWord_Relation(father,child,p)。//插入新的詞條之間的關(guān)系 } } } father child p 11 此算法能夠很好地建立用戶個人每個詞之間的包含關(guān)系，用戶個人知識點之間的包含關(guān)系雖然是動態(tài)生成的，但其依然是基于靜態(tài)的公共知識庫知識點之間的關(guān)系生成的。在此，我們默認公共知識庫是具有專家級別的涉及所有知識點的根本來源，它收集包含了目前所有詞能產(chǎn)生的包含相似關(guān)系。 12 第四章智能文本篇章分析和信息推薦領(lǐng)域知識庫本系統(tǒng)所涉及體育、讀書、游戲、娛樂和汽車五個基本領(lǐng)域。領(lǐng)域知識庫的建立是一項非常重要而艱巨的任務(wù)，我們需要把所有現(xiàn)實世界中隸屬于上述領(lǐng)域的事物具體化為一個詞條，由于每個領(lǐng)域包羅萬象，因此工作量相當大，對建立者的知識面也有非常高的要求，而且建立的結(jié)果難免有些疏漏，需要長時間地更新維護，最終走向全面化。系統(tǒng)領(lǐng)域知識庫的建立方案在江偉華同學(xué)的畢業(yè)論文中有詳細的介紹，此處只作簡要公共知識庫和個人知識庫的一些實例，方便本文論述的需要。公共知識庫實例本文簡單地以體育領(lǐng)域作為研究對象，并列舉出如圖 41所示的樹形結(jié)構(gòu)層次關(guān)系，其中箭頭的方向表示主概念包含子概念，箭頭上的數(shù)值表示人為設(shè)定的詞條之間具體的包含度，橢圓框圖表示該詞沒有子概念。圖 41 公共知識庫實例體育籃球網(wǎng)球 NBA專題中國足球德甲足球 CBA專題國際足球法甲西甲意甲英超巴塞羅那梅西 13 個人知識庫實例正如第三章中講，公共知識庫是靜態(tài)的，個人知識庫是動態(tài)的，個人知識庫是建立在公共知識庫之上的。形象地說，個人知識庫可以看成公共知識庫樹形結(jié)構(gòu)中抽取出來的一棵子樹。在此，如圖 42 所示，列舉一個簡單地用戶知識庫實例。圖 42 個人知識庫實例將圖 42與圖 41作比較，我們可以看出用戶知識庫是公共知識庫的一棵子樹。而且個人知識庫中體育和 NBA 專題產(chǎn)生了直接的聯(lián)系，其關(guān)系值的計算方法為：*=。同理，國際足球和梅西產(chǎn)生直接關(guān)系值得計算方法為： **=。這就是第三章節(jié) 用戶興趣知識庫的建立及算法實現(xiàn)的核心思路。自動搜索關(guān)鍵詞提取有效網(wǎng)頁地址算法自動搜索關(guān)鍵詞產(chǎn)生推薦信息要解決的首要問題就是如何從搜索引擎提供的搜索結(jié)果中提取有效的網(wǎng)頁鏈接。常規(guī)的思路是首先獲取搜索結(jié)果頁面的網(wǎng)頁源文件即 HTML代碼，然后對一些無效的網(wǎng)頁標簽，如 head、 div、 link、 script、 table等，最后提取出 herf=” ******” 格式的網(wǎng)頁地址。該方法雖然簡單易行，但是提取出來的效果很不好，得到的網(wǎng)頁地址比較粗糙，無法識別那些圖片、論壇、視頻等網(wǎng)頁的地址特征。在此，本系統(tǒng)的后臺分析程序采用的方法是正則表達式匹配算法。體育 NBA專題網(wǎng)球足球國際足球英超梅西 14 正則表達式的概念正則表達式 [3]是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個 “規(guī)則字符串”，這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯。給定一個正則表達式和另一個字符串，我們可以達到如下的目的： 1）給定的字符串是否符合正則表達式的過濾邏輯（稱作“匹配”）； 2）可以通過正則表達式，從字符串中獲取我們想要的特定部分。正則表達式的特點是： 1）靈活性、邏輯性和功能性非常的強； 2）可以迅速地用極簡單的方式達到字符串的復(fù)雜控制； 3）對于剛接觸的人來說，比較晦澀難懂。提取有效網(wǎng)頁地址算法后臺分析程序獲取網(wǎng)頁 HTML 源文件后，通過給定的正則表達式來匹配獲取有效網(wǎng)頁地址的算法 [7]如算法 41 所示：算法 41 提取有效網(wǎng)頁地址算法 string htmlCode。//搜索結(jié)果的網(wǎng)頁 HTML代碼 ArrayList arrayList。//存放有效的網(wǎng)頁地址的動態(tài)數(shù)組 String strRegex = @ ./?%amp。=]*)?。 //匹配有效網(wǎng)頁地址特征的正則表達式 Regex regex = new Regex(strRegex, )。 MatchCollection matchCollection = (htmlCode)。 for (int i = 0。 i = 1。 i++) { bool rep = false。 string strNew = matchCollection[i].ToString()。 foreach (string str in arrayList) { if (strNew == str) { rep = true。 break。 } } if (!rep amp。amp。 strNew != amp。amp。 strNew != 15 { if ((.htm) || (.html) || (.shtml)) (strNew)。 } } return arrayList。網(wǎng)頁文本提取思路及算法網(wǎng)頁文本提取的主要思路：后臺分析程序自動訪問上一節(jié)中提取出來的有效的網(wǎng)頁地址，抓取網(wǎng)頁 HTML 源碼，這里要實現(xiàn)自動判斷網(wǎng)頁編碼的問題，否則有可能發(fā)生亂碼現(xiàn)象。一般應(yīng)答的頭的 charset 都有聲明網(wǎng)頁的編碼，常見的編碼有“ GB2312”、“ GBK”、“ UTF8”和“ ISO88591”，為方便處理和存儲，本系統(tǒng)將編碼統(tǒng)一轉(zhuǎn)為“ GB2312”。但由于 Inter 上的網(wǎng)頁數(shù)以億記，網(wǎng)頁的格式未嚴格達到統(tǒng)一的標準，比如有些應(yīng)答的頭里的 charset 和網(wǎng)頁的 meta 里聲明的 charset 就不一致，這就導(dǎo)致程序無法識別而產(chǎn)生亂碼現(xiàn)象。由于此類不符合標準的網(wǎng)也只占少數(shù)，故處理過程中會當作無意義的網(wǎng)頁而剔除掉。編碼問題解決后，首先，從 HTML 文件中提取文章的標題，此處利用正則表達式41[8]實現(xiàn)精確匹配。 strReg = @title(?title[^]*)/title （式 41）文章標題提取完后，把網(wǎng)頁分割成幾大塊，取出網(wǎng)頁里的 div 塊， td 塊文字塊兒，對取出的文字塊排序之前把超鏈接文字數(shù)量和漢字數(shù)量比例超過百分之 50 的 div 去掉，因為這些都是相關(guān)鏈接或者文字廣告，再把漢字少于 200 的文本塊去除，因為一般少于200 字的文本塊不會是正文，而且即便是正文，一般來說也不會有太多的價值。由于 div支持嵌套，所以剩下的文本塊，有可能是重復(fù)的，一個是另一個的父節(jié)點，所以要把最里層的文本塊找出來，最里層的文本塊是漢字最多的，而其它文本較少的，所以要計算出剩余文本塊中漢字占所有字符比例最高的文本塊，基本上它就是正文的文本塊。當然有的網(wǎng)頁正文里也可能還有 div 的文本塊，這時候可能會判斷錯誤，但只要正文嵌套的 16 div 文本塊的漢字少于 200 字，本系統(tǒng) 的算法還是能準確提取正文文本塊的。緊接著是細節(jié)問題的處理，把 pbr等標簽替換成特殊占位符 [p][br]等，因為最終的正文需要保留段落和回車換行等格式，這一步用正則表達式實現(xiàn)。把最后剩下的文本塊的 html 標簽去掉，用正則表達式過濾 [9]。至此，正文提取完畢。具體的實現(xiàn)算法見算法 42：算法 42 網(wǎng)頁文本提取 string input。//網(wǎng)頁 HTML源文件 string reg1 = @(p|br)[^]*。 string reg2 = @(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?lj(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。])a\s+[^]*[^]{2,}/a(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。]))|(?Stylestyle[\s\S]+?/style)|(?selectselect[\s\S]+?/select)|(?Scriptscript[\s\S]*?/script)|(?Explein\!\\[\s\S]*?\\)|(?lili(\s+[^]+)?[\s\S]*?/li)|(?Html/?\s*[^ ]+(\s*[^=]+?=[39。]?[^39。]+?[39。]?)*?[^\[]*)|(?Otheramp。[azAZ]+。)|(?Other2\[az09]{6})|(?Space\s+)|(\amp。\\d+\。)。 //獲取網(wǎng)頁的所有 div標簽 Liststring list = GetTags(input, div)。 //去除漢字少于 200字的 div Liststring needToRemove = new Liststring()。 foreach (string s in list) { Regex r = new Regex([\u4e00\u9fa5])。 if ((s).Count 200) { (s)。 } } foreach (string s in needToRemove) { (s)。 } //把剩下的 div按漢字比例多少倒序排列 , (CompareDinosByChineseLength)。 if ( 1) {return 。} input = list[ 1]。 //把 p和 br替換成特殊的占位符 [p][br] input = new Regex(reg1, | ).Replace(input, [$1])。 //去掉 HTML標簽，保留漢字 input = new Regex(reg2, | ).Replace(input, )。 //把特殊占維護替換成回車和換行 17 input = new Regex(\\[p], | ).Replace(input, \r\n )。 input = new Regex(\\[br], | ).Replace(input, \r\n)。 return input。文章自動分詞技術(shù)

點擊復(fù)制文檔內(nèi)容

研究報告相關(guān)推薦

整合申報項目問答知識庫-資料下載頁

【總結(jié)】整合申報項目問答知識庫、請問申報地海關(guān)如何填報？根據(jù)報關(guān)人員在貨物進出口時的自主選擇，填報海關(guān)規(guī)定的《關(guān)區(qū)代碼表》中相應(yīng)海關(guān)的名稱及代碼。例如：選擇“廣州機場”為申報地海關(guān)時，應(yīng)錄入“”。提醒注意：申報地海關(guān)的關(guān)別代碼后兩位不能為“”。、請問進出境關(guān)別如何填報？根據(jù)貨物實際進出境的口岸海關(guān)，填報海關(guān)規(guī)定的《關(guān)區(qū)代碼表》中相應(yīng)口岸海關(guān)的名稱及代碼。例如：貨物實際進出境的口岸

2025-06-23 15:25

天下雜志知識庫-資料下載頁

【總結(jié)】天下雜誌知識庫製作人：漢珍數(shù)位圖書公司『天下雜誌知識庫』3天下雜誌知識庫介紹?2020年8月正式成立線上資料庫查詢服務(wù)，提供自1981年創(chuàng)刊至今，共23年303期之數(shù)位內(nèi)容。?相較於紙本，天下知識庫以方便、快速的檢索方式，決不遺漏任何消息；主題式的統(tǒng)整，讓您在管理知識上更得心應(yīng)手。?相較於網(wǎng)站，天下知識庫給您最完整、

2025-09-20 10:12

上海聲通呼叫中心知識庫管理系統(tǒng)-資料下載頁

【總結(jié)】

2025-11-03 23:01

房地產(chǎn)行業(yè)知識庫-資料下載頁

【總結(jié)】房地產(chǎn)知識庫土地及綜合類知識規(guī)劃與設(shè)計類知識房產(chǎn)開發(fā)與建設(shè)類知識房產(chǎn)測繪類知識產(chǎn)權(quán)登記類知識土地及綜合類知識1、土地用途包括哪些種類？答：土地分為農(nóng)用地、建設(shè)用地和未利用地。農(nóng)用地是指直接用于農(nóng)業(yè)生產(chǎn)的土地，包括耕地、林地、草地、農(nóng)田水利用地、養(yǎng)殖水面等；建設(shè)用地是指建造建筑物、構(gòu)筑物的土地，包括城鄉(xiāng)住宅和公共設(shè)施用地、工礦用地

2025-06-27 15:10

知識庫收集示例辦事指南-資料下載頁

【總結(jié)】知識庫收集示例辦事指南序號地區(qū)所屬行業(yè)上報單位一級關(guān)鍵詞二級關(guān)鍵詞三級關(guān)鍵詞業(yè)務(wù)名稱政策依據(jù)申請條件辦理材料辦理流程辦理時限辦理地點辦理時間其他說明網(wǎng)上辦理鏈接備注本溪人社本溪市人社局工傷認定工傷認定國務(wù)院《工傷保險條例》

2025-06-22 07:26

技術(shù)體系知識庫管理規(guī)范-資料下載頁

【總結(jié)】技術(shù)體系知識庫管理規(guī)范吉林省山水瑞通網(wǎng)絡(luò)科技有限責(zé)任公司（版權(quán)所有，翻版必究）文檔編號F0008-GF版本號密級秘密山水瑞

2025-11-03 21:46

知識庫體系建設(shè)方案-資料下載頁

【總結(jié)】關(guān)于規(guī)范標準化體系的建設(shè)方案目前存在的問題問題點問題示例1、各種資料無規(guī)范性格式和編號體系會辦單、簽呈編號隨意2、審批、發(fā)送權(quán)限范圍不清晰領(lǐng)導(dǎo)郵箱“垃圾郵件”較多，群組功能濫用3、歸檔管理部門和方式不明確無統(tǒng)一歸口，沒有檔案庫，業(yè)務(wù)文件管理分散4、資料調(diào)取手段不科學(xué)人工電腦主題詞檢索和紙板文件檢索，效率很低5

2025-05-28 01:15

聯(lián)合知識庫操作說明-資料下載頁

【總結(jié)】聯(lián)合知識庫操作說明2大綱?使用產(chǎn)品?內(nèi)容範圍?功能示範3使用產(chǎn)品?名稱：聯(lián)合報系知識庫定址會員?規(guī)格：鎖ip於校園(機構(gòu))內(nèi)不限人次不限用量?網(wǎng)址：?使用產(chǎn)品?內(nèi)容範圍?功能示範內(nèi)容範圍?使用產(chǎn)品?內(nèi)容範圍?功能示範涵蓋刊物收錄年份

2025-08-01 13:52

知識庫條目提交管理規(guī)程-資料下載頁

【總結(jié)】上海XXXX股份有限公司系統(tǒng)服務(wù)事業(yè)本部管理文件文件編號：保密級別：簽發(fā)：知識庫條目遞交管理規(guī)程一.目的：規(guī)范知識庫管理流程、明確運維人員在知識庫流程中的職責(zé)。二.職責(zé)：1.運維人員（含技術(shù)支持人員）均有義務(wù)提交知識條目。2.運維人員在提交知識條目前，需在運維平臺知識庫內(nèi)進行搜索，在確認無重復(fù)知識條目或重復(fù)內(nèi)容的情況下，填寫、提交《知識

2025-06-19 04:58

賽門鐵克產(chǎn)品中文知識庫文檔列表-資料下載頁

【總結(jié)】1. 賽門鐵克產(chǎn)品中文知識庫文檔列表 12. SymantecEndpointProtection(SEP)簡體中文文檔匯總（持續(xù)更新） 23. SymantecEndpointProtection主要文章 94. NetBackup(NBU)簡體中文文檔匯總（持續(xù)更新） 135. BackupExecforWindowsServers(BEWS

2025-06-28 16:57

港口碼頭調(diào)度業(yè)務(wù)知識庫-資料下載頁

【總結(jié)】范文范例參考港口碼頭調(diào)度業(yè)務(wù)知識庫如何申報船舶進出港計劃？（1）由船公司或其代理部門向港務(wù)局業(yè)務(wù)處報送（外貿(mào)船必須由其代理申報，內(nèi)貿(mào)船由天津港貨運公司或中海船代公司申報）船舶72小時、48小時、24小時抵港預(yù)確報，并注明船名、船舶性質(zhì)、船舶規(guī)范（船長、船寬、吃水等）、進出口貨類、數(shù)量、是否申請引水等。從事內(nèi)貿(mào)計劃外運輸?shù)拇稗k妥各項手續(xù)后，貨運公司還應(yīng)向業(yè)務(wù)處遞交

2025-06-27 16:31

b工藝數(shù)據(jù)庫與知識庫-資料下載頁

【總結(jié)】計算機輔助工藝設(shè)計1第五講工藝數(shù)據(jù)庫與知識庫計算機輔助工藝設(shè)計21)數(shù)據(jù)：是一種物理符號序列，用來記錄事物的情況。?數(shù)據(jù)用類型和值來表示。不同的數(shù)據(jù)類型記錄的事物性質(zhì)不一樣。2)數(shù)據(jù)處理：是對數(shù)據(jù)進行收集

2025-05-11 16:30

圖學(xué)多媒體技術(shù)知識庫系統(tǒng)畢業(yè)論文-資料下載頁

【總結(jié)】江蘇技術(shù)師范學(xué)院畢業(yè)設(shè)計說明書（論文）圖學(xué)多媒體技術(shù)知識庫系統(tǒng)畢業(yè)論文第1章緒論多媒體技術(shù)簡介多媒體是指能夠同時獲取、處理、編輯、存儲和展示兩個以上不同類型信息媒體的技術(shù)。也就是就是多重媒體的意思，可以理解為直接作用于人感官的文字、圖形、圖像、動畫、聲音和視頻等各種媒體的統(tǒng)稱，即多種信息載體的表現(xiàn)形式和傳遞方式。多媒體技術(shù)就是對多種媒體上的信息和多種存儲媒

2025-06-23 07:22

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片