freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于領(lǐng)域知識庫的信息推薦系統(tǒng)-智能文本篇章分析(編輯修改稿)

2025-07-24 21:33 本頁面
 

【文章內(nèi)容簡介】 ode。//搜索結(jié)果的網(wǎng)頁HTML代碼 ArrayList arrayList。//存放有效的網(wǎng)頁地址的動態(tài)數(shù)組 String strRegex = @://([\w]+\.)+[\w]+(/[\w ./?%amp。=]*)?。 //匹配有效網(wǎng)頁地址特征的正則表達式 Regex regex = new Regex(strRegex, )。 MatchCollection matchCollection = (htmlCode)。 for (int i = 0。 i = 1。 i++) { bool rep = false。 string strNew = matchCollection[i].ToString()。 foreach (string str in arrayList) { if (strNew == str) { rep = true。 break。 } } if (!rep amp。amp。 strNew != amp。amp。 strNew != ) { if ((.htm) || (.html) || (.shtml)) (strNew)。 } } return arrayList。 網(wǎng)頁文本提取思路及算法網(wǎng)頁文本提取的主要思路:后臺分析程序自動訪問上一節(jié)中提取出來的有效的網(wǎng)頁地址,抓取網(wǎng)頁HTML源碼,這里要實現(xiàn)自動判斷網(wǎng)頁編碼的問題,否則有可能發(fā)生亂碼現(xiàn)象。一般應(yīng)答的 頭的charset都有聲明網(wǎng)頁的編碼,常見的編碼有“GB2312”、“GBK”、“UTF8”和“ISO88591”,為方便處理和存儲,本系統(tǒng)將編碼統(tǒng)一轉(zhuǎn)為“GB2312”。但由于Internet上的網(wǎng)頁數(shù)以億記,網(wǎng)頁的格式未嚴格達到統(tǒng)一的標準,比如有些應(yīng)答的頭里的charset和網(wǎng)頁的meta里聲明的 charset就不一致,這就導(dǎo)致程序無法識別而產(chǎn)生亂碼現(xiàn)象。由于此類不符合標準的網(wǎng)也只占少數(shù),故處理過程中會當作無意義的網(wǎng)頁而剔除掉。編碼問題解決后,首先,從HTML文件中提取文章的標題,此處利用正則表達式41[8]實現(xiàn)精確匹配。strReg = @title(?title[^]*)/title (式41)文章標題提取完后,把網(wǎng)頁分割成幾大塊,取出網(wǎng)頁里的div塊,td塊文字塊兒,對取出的文字塊排序之前把超鏈接文字數(shù)量和漢字數(shù)量比例超過百分之50的div去掉,因為這些都是相關(guān)鏈接或者文字廣告,再把漢字少于200的文本塊去除,因為一般少于200字的文本塊不會是正文,而且即便是正文,一般來說也不會有太多的價值。由于div支持嵌套,所以剩下的文本塊,有可能是重復(fù)的,一個是另一個的父節(jié)點,所以要把最里層的文本塊找出來,最里層的文本塊是漢字最多的,而其它文本較少的,所以要計算出剩余文本塊中漢字占所有字符比例最高的文本塊,基本上它就是正文的文本塊。當然有的網(wǎng)頁正文里也可能還有div的文本塊,這時候可能會判斷錯誤,但只要正文嵌套的div文本塊的漢字少于200字,本系統(tǒng)的算法還是能準確提取正文文本塊的。緊接著是細節(jié)問題的處理,把pbr等標簽替換成特殊占位符[p][br]等,因為最終的正文需要保留段落和回車換行等格式,這一步用正則表達式實現(xiàn)。把最后剩下的文本塊的html標簽去掉,用正則表達式過濾[9]。至此,正文提取完畢。具體的實現(xiàn)算法見算法42:算法42 網(wǎng)頁文本提取string input。//網(wǎng)頁HTML源文件string reg1 = @(p|br)[^]*。string reg2 = @(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?lj(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。])a\s+[^]*[^]{2,}/a(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。]))|(?Stylestyle[\s\S]+?/style)|(?selectselect[\s\S]+?/select)|(?Scriptscript[\s\S]*?/script)|(?Explein\!\\[\s\S]*?\\)|(?lili(\s+[^]+)?[\s\S]*?/li)|(?Html/?\s*[^ ]+(\s*[^=]+?=[39。]?[^39。]+?[39。]?)*?[^\[]*)|(?Otheramp。[azAZ]+。)|(?Other2\[az09]{6})|(?Space\s+)|(\amp。\\d+\。)。//獲取網(wǎng)頁的所有div標簽Liststring list = GetTags(input, div)。//去除漢字少于200字的divListstring needToRemove = new Liststring()。foreach (string s in list) { Regex r = new Regex([\u4e00\u9fa5])。 if ((s).Count 200) { (s)。 } }foreach (string s in needToRemove) { (s)。 }//把剩下的div按漢字比例多少倒序排列,(CompareDinosByChineseLength)。if ( 1) {return 。}input = list[ 1]。//把p和br替換成特殊的占位符[p][br]input = new Regex(reg1, | ).Replace(input, [$1])。//去掉HTML標簽,保留漢字input = new Regex(reg2, | ).Replace(input, )。//把特殊占維護替換成回車和換行input = new Regex(\\[p], | ).Replace(input, \r\n )。input = new Regex(\\[br], | ).Replace(input, \r\n)。return input。 文章自動分詞技術(shù)對提取出來的文章進行高效地分詞是文本篇章分析很重要的一塊功能,它的基本思想是采最大匹配分詞[4],也稱作貪心算法。分詞過程需要去掉無意詞和噪聲詞。鑒于漢字分詞技術(shù)已經(jīng)相當完善,本系統(tǒng)直接調(diào)用了一個ShootSeg的C分詞組件[5],本系統(tǒng)對該組件的改進之處就在于更新了其基本的分詞詞典,比原來的分詞詞典增加了幾萬條新的網(wǎng)絡(luò)詞匯,以便于更好的對現(xiàn)代文章進行分詞。 計算子概念對某關(guān)鍵詞貢獻度算法,知識庫中的某關(guān)鍵詞下包含了許許多多的子概念[10],文章分詞完畢后,后臺分析程序自動遍歷某關(guān)鍵詞下所有的子概念,此處稱被搜索的關(guān)鍵詞為主概念,尋找子概念和主概念之間的一條路徑,計算每個子概念對主概念的貢獻度,也可形象地理解為通過某一算法計算出子概念和主概念之間直接的包含關(guān)系值。數(shù)據(jù)庫詞條包含關(guān)系存儲形式(如表41所示)。表41 數(shù)據(jù)庫中概念間的存儲形式wID2wID1puID主概念子概念關(guān)聯(lián)值用戶編號由于知識庫不是簡單的二叉樹,而是n叉樹,所以沒有現(xiàn)成的算法來實現(xiàn)知識樹節(jié)點的遍歷。但是,受到數(shù)據(jù)結(jié)構(gòu)中二叉樹遍歷算法[6]的啟發(fā),本系統(tǒng)設(shè)計了一個類似于二叉樹前序遍歷的算法,見算法43:算法43 主概念下所有子概念的遍歷ArrayList wID。//wID是一個動態(tài)數(shù)組,并且支持索引,可以隨時添加、修改和刪除數(shù)組元素for (int i = 0。 i 。 i++) { sqlConn(wID[i].ToString())。//查找相鄰一層的所有子概念( 查詢到的所有子概念)。 }上述算法的遍歷過程可用以下例子來形象說明,假設(shè)圖43是某用戶的一個興趣樹的一部分,1表示主概念,那么遍歷算法依次訪問的順序為:123456798101112131415圖43 假想興趣樹子概念查找的過程也是路徑的選擇過程,這里我們稱之為子概念對主概念的貢獻度。 文章評分和信息推薦至此,給文章評分前的準備工作還缺少的環(huán)節(jié)就是統(tǒng)計每個子概念是否出現(xiàn)在文章中,如果出則統(tǒng)計該子概念出現(xiàn)的次數(shù),最后在結(jié)合子概念對主概念的貢獻度[11]按照式42進行計算,從而的出文章的最終評分。當文章評分大于零時,則該文章對用戶來說是有意義的,應(yīng)該向用戶進行推薦。文章最終得分=子概念的貢獻度*子概念出現(xiàn)的次數(shù) (式 42)后臺分析程序中具體算法設(shè)計如算法44所示:算法44 文章評分算法ArrayList TList。//存放每個子概念出現(xiàn)的次數(shù)的動態(tài)數(shù)組ArrayList PList。//存放每個子概念的貢獻度的動態(tài)數(shù)組for (int i = 0。 i 。 i++){(TList[i])。score += (TList[i]) * (PList[i])。} 推薦信息的動態(tài)更新推薦信息產(chǎn)生后,系統(tǒng)將記錄下推薦信息產(chǎn)生的時間,當該信息超過3天后,默認為此文章已經(jīng)失去時效性,故予以刪除,從而達到減少冗余數(shù)據(jù)的效果。后臺分析程序?qū)崿F(xiàn)推薦信息的動態(tài)更新的算法見算法45所示:算法45 推薦信息的動態(tài)更新ArrayList introdIDList;//存放所有推薦信息的編號ArrayList TimeList;//存放所有推薦信息的產(chǎn)生時間foreach (string xx in introdIDList){DeleteOldTexts(xx)。//刪除記錄} 用戶個人知識點興趣度變化的勒夏特列原理勒夏特列原理是法國化學家勒夏特列提出的一個關(guān)于化學反應(yīng)平衡移動問題的原理。主要內(nèi)容為:如果改變影響平衡的一個條件(如濃度、壓
點擊復(fù)制文檔內(nèi)容
外語相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1