freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于領(lǐng)域知識庫的信息推薦系統(tǒng)-智能文本篇章分析(編輯修改稿)

2025-10-04 10:58 本頁面
 

【文章內(nèi)容簡介】 { foreach (string a1 in Class)//遍歷 所有關(guān)鍵詞 { p = 1。 if (a1 != 頂層關(guān)鍵詞編號 ) { child = a1。 Temp_child =a1。 do{ 以 Temp_child為孩子節(jié)點查找公共知識庫中它的父節(jié)點; p = p * 上條關(guān)鍵詞之間的 p值 Temp_child = Temp_father。 }while(father!=頂層關(guān)鍵詞編號 amp。amp。 father不包含在個人關(guān)鍵詞中 )。 InsertPersonalWord_Relation(father,child,p)。//插入新的詞條之間的關(guān)系 } } } father child p 11 此算法能夠很好地建立用戶個人每個詞之間的包含關(guān)系, 用戶個人知識點之間的包含關(guān)系雖然是動態(tài)生成的,但其依然是基于靜態(tài)的公共知識庫知識點之間的關(guān)系生成的。在此,我們默認公共知識庫是具有專家級別的涉及所有知識點的根本來源,它收集包含了目前所有詞能產(chǎn)生的包含相似關(guān)系。 12 第 四 章 智能 文本篇章 分析和信息推薦 領(lǐng)域知識庫 本系統(tǒng)所涉及體育、讀書、游戲、娛樂和汽車五個基本領(lǐng)域。領(lǐng)域知識庫的建立是一項非常重要而艱巨的任務(wù),我們需要把所有現(xiàn)實世界中隸屬于上述領(lǐng)域的事物具體化為一個詞條 , 由于每個領(lǐng)域包羅萬象,因此 工作量相當大,對建立者的 知識面 也有 非常高的要求,而且建立的結(jié)果難免有些疏漏,需要長時間地更新維護,最終走向全面化。系統(tǒng)領(lǐng)域知識庫的建立方案在江偉華同學(xué)的畢業(yè)論文中有詳細的介紹,此處只作簡要公共知識庫和個人知識庫的一些實例,方便本文論述的需要。 公共知識庫 實例 本文 簡單地 以體 育領(lǐng)域 作為研究對象,并列舉出如圖 41所示的 樹形 結(jié)構(gòu)層次關(guān)系,其中箭頭的方向表示主概念包含子概念, 箭頭上的數(shù)值表示人為設(shè)定的詞條之間具體的包含度,橢圓框圖表示該詞沒有子概念。 圖 41 公共知識庫實例 體育 籃球 網(wǎng)球 NBA專題 中國足球 德甲 足球 CBA專題 國際足球 法甲 西甲 意甲 英超 巴塞羅那 梅西 13 個人知識庫 實例 正 如第三 章 中講,公共知識庫是靜態(tài)的,個人知識庫是動態(tài)的,個人知識庫是建立在公共知識庫之上的。形象地說, 個人知識庫可以看 成 公共知識庫樹形結(jié)構(gòu)中抽取出來的一棵 子樹 。在此,如圖 42 所示,列舉一個簡單地用戶知識庫實例。 圖 42 個人知識庫實例 將圖 42與圖 41作比較,我們可以看出用戶知識庫 是公共知識庫的一棵子樹 。而且個人知識庫中體育和 NBA 專題產(chǎn)生了直接的聯(lián)系,其關(guān)系值的計算方法為:*=。同理,國際足球和梅西產(chǎn)生直接關(guān)系值得計算方法為: **=。這就是第三章 節(jié) 用戶興趣知識庫的建立及算法實現(xiàn)的核心思路。 自動搜索關(guān)鍵詞提取有效網(wǎng)頁地址算法 自動搜索關(guān)鍵詞 產(chǎn)生推薦信息要 解決的首要問題就是 如何從搜索引擎提供的搜索結(jié)果中提取有效的網(wǎng)頁鏈接。 常規(guī)的思路是 首先獲取 搜索結(jié)果頁面的網(wǎng)頁 源文件即 HTML代碼, 然后對一些無效的網(wǎng)頁標簽,如 head、 div、 link、 script、 table等,最后提取出 herf=” ******” 格式的網(wǎng)頁地址。 該方法雖然簡單易行,但是提取出來的效果很不好,得到的網(wǎng)頁地址比較粗糙,無法識別那些圖片、論壇、視頻等網(wǎng)頁的地址特征。 在此, 本系統(tǒng)的 后 臺分析程序采 用的方法是 正則表達式匹配算法 。 體育 NBA專題 網(wǎng)球 足球 國際足球 英超 梅西 14 正則表達式 的概念 正則表 達式 [3]是 對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個 “規(guī)則字符串”,這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯。給定一個正則表達式和另一個字符串,我們可以達到如下的目的: 1) 給定的字符串是否符合正則表達式的過濾邏輯(稱作“匹配”); 2) 可以通過正則表達式,從字符串中獲取我們想要的特定部分。 正則表達式的特點是: 1) 靈活性、邏輯性和功能性非常的強; 2) 可以迅速地用極簡單的方式達到字符串的復(fù)雜控制; 3) 對于剛接觸的人來說,比較晦澀難懂。 提取有效網(wǎng)頁地址算法 后 臺分析程序獲取網(wǎng)頁 HTML 源文件后,通過給定的正則表達式來匹配 獲取有效網(wǎng)頁地址的算法 [7]如算法 41 所示: 算法 41 提取有效網(wǎng)頁地址算法 string htmlCode。//搜索結(jié)果的網(wǎng)頁 HTML代碼 ArrayList arrayList。//存放有效的網(wǎng)頁地址的動態(tài)數(shù)組 String strRegex = @ ./?%amp。=]*)?。 //匹配有效網(wǎng)頁地址特征的正則表達式 Regex regex = new Regex(strRegex, )。 MatchCollection matchCollection = (htmlCode)。 for (int i = 0。 i = 1。 i++) { bool rep = false。 string strNew = matchCollection[i].ToString()。 foreach (string str in arrayList) { if (strNew == str) { rep = true。 break。 } } if (!rep amp。amp。 strNew != amp。amp。 strNew != 15 { if ((.htm) || (.html) || (.shtml)) (strNew)。 } } return arrayList。 網(wǎng)頁文本提取 思路及 算法 網(wǎng)頁文本 提取 的主要 思路: 后 臺分析程序 自動 訪問 上一節(jié)中提取出來的 有效的 網(wǎng)頁地址 , 抓取 網(wǎng)頁 HTML 源碼,這里要實現(xiàn)自動判斷網(wǎng)頁編碼 的問題 ,否則有可能 發(fā)生亂碼 現(xiàn)象 。一般 應(yīng)答的 頭的 charset 都有聲明網(wǎng)頁的編碼 , 常見的編碼有“ GB2312”、“ GBK”、“ UTF8”和“ ISO88591”,為方便處理和存儲,本系統(tǒng)將編碼統(tǒng)一轉(zhuǎn)為“ GB2312”。 但 由于 Inter 上的網(wǎng)頁數(shù)以億記,網(wǎng)頁的格式未嚴格達到統(tǒng)一的標準,比如有些 應(yīng)答的頭里的 charset 和網(wǎng)頁的 meta 里聲明的 charset 就 不一致, 這就導(dǎo)致 程序無法識別而產(chǎn)生亂碼現(xiàn)象。由于此類 不符合標準的網(wǎng)也 只占少數(shù),故處理過程中會當作無意義的網(wǎng)頁而剔除掉。 編碼問題解決后, 首先,從 HTML 文件中提取文章的標題,此處利用正則表達 式41[8]實現(xiàn)精確匹配。 strReg = @title(?title[^]*)/title (式 41) 文章標題提取完后, 把網(wǎng)頁分割成幾大塊 ,取出 網(wǎng)頁里的 div 塊, td 塊文字塊兒 ,對取出 的文字塊 排序之前把超鏈接文字數(shù)量和漢字數(shù)量比例超過百分之 50 的 div 去掉,因為這些都是相關(guān)鏈接或者文字廣告 , 再 把漢字少于 200 的文本塊去除 , 因為 一般少于200 字的文本塊不會是正文, 而且 即便是正文,一般來說也不會有太多的價值。 由于 div支持嵌套,所以剩下的文本塊,有可能是重復(fù)的,一個是另一個的父節(jié)點,所以要把最里層的文本塊找出來,最里層的文本塊是漢字最多的,而其它 文本較 少的,所以要計算出剩余文 本塊中漢字占所有字符比例最高的文本塊,基本上它就是正文的文本塊 。當然有的網(wǎng)頁正文里也可能還有 div 的文本塊,這時候可能會判斷錯誤,但只要正文嵌套的 16 div 文本塊的漢字少于 200 字, 本系統(tǒng) 的 算法還是能準確提取正文文本塊的。 緊接著是細節(jié)問題的處理, 把 pbr等標簽替換成特殊占位符 [p][br]等,因為最終的正文需要保留段落和回車換行等格式, 這一步用正則 表達式 實現(xiàn)。把最后剩下的文本塊的 html 標簽去掉, 用正則 表達式 過 濾 [9]。 至 此,正文提取完畢 。 具體的實現(xiàn)算法見算法 42: 算法 42 網(wǎng)頁文本提取 string input。//網(wǎng)頁 HTML源文件 string reg1 = @(p|br)[^]*。 string reg2 = @(\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?lj(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。])a\s+[^]*[^]{2,}/a(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。]))|(?Stylestyle[\s\S]+?/style)|(?selectselect[\s\S]+?/select)|(?Scriptscript[\s\S]*?/script)|(?Explein\!\\[\s\S]*?\\)|(?lili(\s+[^]+)?[\s\S]*?/li)|(?Html/?\s*[^ ]+(\s*[^=]+?=[39。]?[^39。]+?[39。]?)*?[^\[]*)|(?Otheramp。[azAZ]+。)|(?Other2\[az09]{6})|(?Space\s+)|(\amp。\\d+\。)。 //獲取網(wǎng)頁的所有 div標簽 Liststring list = GetTags(input, div)。 //去除漢字少于 200字的 div Liststring needToRemove = new Liststring()。 foreach (string s in list) { Regex r = new Regex([\u4e00\u9fa5])。 if ((s).Count 200) { (s)。 } } foreach (string s in needToRemove) { (s)。 } //把剩下的 div按漢字比例多少倒序排列 , (CompareDinosByChineseLength)。 if ( 1) {return 。} input = list[ 1]。 //把 p和 br替換成特殊的占位符 [p][br] input = new Regex(reg1, | ).Replace(input, [$1])。 //去掉 HTML標簽,保留漢字 input = new Regex(reg2, | ).Replace(input, )。 //把特殊占維護替換成回車和換行 17 input = new Regex(\\[p], | ).Replace(input, \r\n )。 input = new Regex(\\[br], | ).Replace(input, \r\n)。 return input。 文章 自動 分詞 技術(shù)
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1