freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)-智能文本篇章分析(完整版)

2024-10-16 10:58上一頁面

下一頁面
  

【正文】 ............................................................................................. 33 6 第 一 章 概述 網(wǎng)絡(luò)信息高度發(fā)達(dá)的今天,推薦系統(tǒng)在網(wǎng)絡(luò)購物、電影、音樂和新聞等方面得到越來越廣泛的研究與應(yīng)用。 本項(xiàng)目 采用人工智能常用的專家系統(tǒng)的思維方式來分析、識(shí)別和建立用戶興趣模型。第二,通過搜索引擎搜索用戶個(gè)人興趣所有的關(guān)鍵詞,并對搜索結(jié)果進(jìn)行 合理的 評分 ,然后存儲(chǔ)起來。這一過程為用戶模型的建立提供了必要的數(shù)據(jù)源,可采用顯性和隱性兩種方式實(shí)現(xiàn)。 基于向量空間 用戶興趣 模型的表示 向量空 間模型 [2]是將用戶興趣 模型表示成一個(gè) n維特征向量 {( T1,W1) ,( T2,W2) ?( Tn,Wn) }。//父節(jié)點(diǎn)關(guān)鍵詞編號(hào) string child。 father不包含在個(gè)人關(guān)鍵詞中 )。 圖 41 公共知識(shí)庫實(shí)例 體育 籃球 網(wǎng)球 NBA專題 中國足球 德甲 足球 CBA專題 國際足球 法甲 西甲 意甲 英超 巴塞羅那 梅西 13 個(gè)人知識(shí)庫 實(shí)例 正 如第三 章 中講,公共知識(shí)庫是靜態(tài)的,個(gè)人知識(shí)庫是動(dòng)態(tài)的,個(gè)人知識(shí)庫是建立在公共知識(shí)庫之上的。 常規(guī)的思路是 首先獲取 搜索結(jié)果頁面的網(wǎng)頁 源文件即 HTML代碼, 然后對一些無效的網(wǎng)頁標(biāo)簽,如 head、 div、 link、 script、 table等,最后提取出 herf=” ******” 格式的網(wǎng)頁地址。//存放有效的網(wǎng)頁地址的動(dòng)態(tài)數(shù)組 String strRegex = ./?%amp。 foreach (string str in arrayList) { if (strNew == str) { rep = true。 網(wǎng)頁文本提取 思路及 算法 網(wǎng)頁文本 提取 的主要 思路: 后 臺(tái)分析程序 自動(dòng) 訪問 上一節(jié)中提取出來的 有效的 網(wǎng)頁地址 , 抓取 網(wǎng)頁 HTML 源碼,這里要實(shí)現(xiàn)自動(dòng)判斷網(wǎng)頁編碼 的問題 ,否則有可能 發(fā)生亂碼 現(xiàn)象 。 緊接著是細(xì)節(jié)問題的處理, 把 pbr等標(biāo)簽替換成特殊占位符 [p][br]等,因?yàn)樽罱K的正文需要保留段落和回車換行等格式, 這一步用正則 表達(dá)式 實(shí)現(xiàn)。]?[^39。 //去除漢字少于 200字的 div Liststring needToRemove = new Liststring()。 //去掉 HTML標(biāo)簽,保留漢字 input = new Regex(reg2, | ).Replace(input, )。 數(shù)據(jù)庫詞條包含關(guān)系存儲(chǔ)形式 ( 如表 41 所示) 在一定程度上實(shí)現(xiàn)了 節(jié)公共知識(shí)的樹形結(jié)構(gòu) 的 表達(dá) 。 文章評分 和信息推薦 至此, 給 文章 評分前的準(zhǔn)備工作還缺少的環(huán)節(jié)就是統(tǒng)計(jì)每個(gè)子概念是否出現(xiàn)在文章中,如果出 則統(tǒng) 計(jì)該子概念出現(xiàn)的次數(shù),最后在結(jié)合子概念對主概念的貢獻(xiàn)度 [11]按照式42 進(jìn)行計(jì)算,從而的出文章的最終評分。 } 推薦信息的動(dòng)態(tài)更新 推薦信息產(chǎn)生后,系統(tǒng)將記錄下推薦信息產(chǎn)生的時(shí)間,當(dāng)該信息超過 3 天后,默認(rèn)為此文章已經(jīng)失去時(shí)效性,故予以刪除,從而達(dá)到減少冗余數(shù)據(jù)的效果。 圖 44 “ 快開始, 慢 減少 ” 示例圖 觀察數(shù)據(jù)的時(shí)間為一個(gè)月,默認(rèn)知識(shí)點(diǎn)的興趣度范圍為 01,數(shù)值越大表明興趣度越高。馬拉加認(rèn)為遭到了歐足聯(lián)的迫害,在歐冠爭議出局之后,馬拉加甚至抱怨歐足聯(lián)有意要打壓他們??椎僮81咎丶{早日康復(fù),“真 為本特納感到遺憾,因?yàn)樗恢辈惶哌\(yùn);他剛剛傷愈復(fù)出,結(jié)果又弄傷了自己,他是個(gè)很 好的小伙子, 是名出色的足球運(yùn)動(dòng)員,我希望他能一切順利?!? 馬羅塔已經(jīng)證實(shí)尤文在接觸特維斯的經(jīng)紀(jì)人,這名曼城前鋒很有可能成為斑馬軍團(tuán)的一員 ;在被問到是否滿意俱樂部的引援目標(biāo)時(shí),孔蒂說:“特維斯或是伊瓜因,我都喜歡他們, 此外我還很喜歡梅西、羅納爾 多還有內(nèi)馬爾,我可以報(bào)出很多名字,但重要的是資金,經(jīng)濟(jì) 危機(jī)影響了一切,包括我們在內(nèi),我們必須弄清楚如何才能把錢花在刀刃上。 測試結(jié)果表明,本項(xiàng)目已經(jīng)能夠很好地依據(jù)用戶的個(gè)人興趣實(shí)現(xiàn)個(gè)性化的文章信息的推薦,并且通過處理用戶瀏覽過推薦網(wǎng)頁來挖掘用戶潛在的興趣,從而實(shí)現(xiàn)用戶興趣知識(shí)庫的動(dòng)態(tài)更新。 31 ( 3)用戶長期和短期興趣的集成研究。 本文認(rèn)為,將來有如下幾個(gè)方面值得個(gè)性化 推薦系統(tǒng) 及 用戶興趣模型 相關(guān) 研究 者關(guān)注 : ( 1)面向用戶多興趣的模型研究。 用戶興趣模型的建立需要經(jīng)過收集用戶行為數(shù)據(jù)、 VSM 模型表示的過程。另外我要說的是,合同并沒有被延長,也沒有 任何修改,我看到報(bào)紙上提到新合同的年薪(《米蘭體育報(bào)》稱,尤文將提供給孔蒂一份稅 后年薪為 500 萬歐元的新合同),那都是毫無根據(jù) 幻想出來的,錢對我來說并不重要。 對于歐足聯(lián)的決定,馬拉加非常不滿。歐足聯(lián)的官方通告中用詞并不明確,馬拉加俱樂部一度以為兩年禁賽都被取消。引述到這里是 為了表述隨著用戶使用本 系統(tǒng)時(shí)間的變化 , 用戶個(gè)人的知識(shí)點(diǎn)興趣度是變化的 。//存放每個(gè)子概念的貢獻(xiàn)度的動(dòng)態(tài)數(shù)組 for (int i = 0。 i 。 文章 自動(dòng) 分詞 技術(shù) 對提取出來的文章進(jìn)行高效地分詞是文本篇章分析很重要的一塊功能, 它的 基本思想是 采最 大匹配分詞 [4],也稱作貪心算法 。 } //把剩下的 div按漢字比例多少倒序排列 , (CompareDinosByChineseLength)。)|(?Other2\[az09]{6})|(?Space\s+)|(\amp。//網(wǎng)頁 HTML源文件 string reg1 = (p|br)[^]*。 編碼問題解決后, 首先,從 HTML 文件中提取文章的標(biāo)題,此處利用正則表達(dá) 式41[8]實(shí)現(xiàn)精確匹配。 strNew != amp。 for (int i = 0。給定一個(gè)正則表達(dá)式和另一個(gè)字符串,我們可以達(dá)到如下的目的: 1) 給定的字符串是否符合正則表達(dá)式的過濾邏輯(稱作“匹配”); 2) 可以通過正則表達(dá)式,從字符串中獲取我們想要的特定部分。而且個(gè)人知識(shí)庫中體育和 NBA 專題產(chǎn)生了直接的聯(lián)系,其關(guān)系值的計(jì)算方法為:*=。 12 第 四 章 智能 文本篇章 分析和信息推薦 領(lǐng)域知識(shí)庫 本系統(tǒng)所涉及體育、讀書、游戲、娛樂和汽車五個(gè)基本領(lǐng)域。 Temp_child =a1。第二種是通過對用戶瀏覽記錄的分析,對用戶感興趣的文章進(jìn)行 分詞分析,提取該文章中出現(xiàn)在相關(guān)領(lǐng)域知識(shí)庫的敏感詞,反饋到用戶個(gè)人的興趣知識(shí)庫,如果用戶提取到某些關(guān)鍵詞還未出現(xiàn)在個(gè)人興趣知識(shí)庫中,即認(rèn)為該關(guān) 鍵詞也是用戶隱性的興趣,就把該關(guān)鍵詞增加到用戶的知識(shí)庫中,并動(dòng)態(tài)更新用戶個(gè)人知識(shí)點(diǎn)之間的包含關(guān)系。 但是由于隱性的收集方式涉及到用戶的個(gè)人隱私,用戶在使用時(shí)會(huì)有所顧慮,系統(tǒng)的推廣使用也不是很全面。 本系統(tǒng)的數(shù)據(jù)庫、數(shù)據(jù)表的設(shè)計(jì) 本 以及表之間的邏輯關(guān)系在江偉華同學(xué)的畢業(yè)論文中已有詳細(xì)說明,此處不再贅述。個(gè)性化信息是基于已建立的用戶興趣庫由系統(tǒng)自動(dòng)搜索互聯(lián)網(wǎng),通過一系列處理評分產(chǎn)生的。本文將以目前最受歡迎的體育、讀書、游戲、娛樂和汽車五個(gè)基本領(lǐng)域?yàn)檠芯繉ο螅?設(shè)計(jì)基于上述五個(gè)領(lǐng)域知識(shí)庫的文章推薦系統(tǒng) ,以此為注冊用戶提供個(gè)性化的信息推薦服務(wù) 。s personal interests. Finally, by exploring the browsing history and searching keywords of user’s interests and backtracking all the keywords of user by generating algorithm Knowledgebase of user39。建 立用戶興趣模型,首先,要收集用戶的行為數(shù)據(jù),其方式主要有顯式和隱式兩種;其次,用基于向量空間模型( VSM)來表示用戶的個(gè)人興趣;最后,處理用戶瀏覽記錄挖掘用戶感興趣的知識(shí)點(diǎn)的關(guān)鍵詞,通過回溯用戶所有關(guān)鍵詞的生成算法動(dòng)態(tài)建 立用戶興趣知識(shí)庫。 第二、 對 文本篇章 進(jìn)行 智能分析。s interests are dynamically setup. Text intelligent analysis. Firstly, building domain knowledge base, and setting up the relationship between two points artificially. Secondly, the title and text should be extracted from HTML code by using regular expressions, and removing pictures, post bar and advertisements. Lastly, segmenting and scoring the text. Providing remendation information according to Knowledgebase of user39。為敘述 的方便,以下將基于領(lǐng)域知識(shí)庫的信息推薦系統(tǒng)簡稱為推薦系統(tǒng)。公共熱點(diǎn)信息是將所用用戶的推薦信息匯總篩選出評分靠前的文章進(jìn)行推薦。 本 文研究的重點(diǎn)在 后臺(tái)分析 程序和數(shù)據(jù)庫之間的數(shù)據(jù)處理流程 :首先, 后臺(tái)分析 程序讀取所有用戶的瀏覽記錄,分析后反饋給數(shù)據(jù)庫動(dòng)態(tài)更新每個(gè)用戶的興 趣。 因此,為避免上述兩種數(shù)據(jù)收集方式各自的缺點(diǎn),吸收兩種方式的有點(diǎn),本系統(tǒng)所使用的數(shù)據(jù)收集方式是顯性和隱性兩種方式的混合方式。 具體的算法實(shí)現(xiàn)將如下偽代碼 算法 31: 算法 31 用戶所有關(guān)鍵詞包含關(guān)系的 回溯 生成算法 String Uid。 do{ 以 Temp_child為孩子節(jié)點(diǎn)查找公共知識(shí)庫中它的父節(jié)點(diǎn); p = p * 上條關(guān)鍵詞之間的 p值 Temp_child = Temp_father。領(lǐng)域知識(shí)庫的建立是一項(xiàng)非常重要而艱巨的任務(wù),我們需要把所有現(xiàn)實(shí)世界中隸屬于上述領(lǐng)域的事物具體化為一個(gè)詞條 , 由于每個(gè)領(lǐng)域包羅萬象,因此 工作量相當(dāng)大,對建立者的 知識(shí)面 也有 非常高的要求,而且建立的結(jié)果難免有些疏漏,需要長時(shí)間地更新維護(hù),最終走向全面化。同理,國際足球和梅西產(chǎn)生直接關(guān)系值得計(jì)算方法為: **=。 正則表達(dá)式的特點(diǎn)是: 1) 靈活性、邏輯性和功能性非常的強(qiáng); 2) 可以迅速地用極簡單的方式達(dá)到字符串的復(fù)雜控制; 3) 對于剛接觸的人來說,比較晦澀難懂。 i = 1。amp。 strReg = title(?title[^]*)/title (式 41) 文章標(biāo)題提取完后, 把網(wǎng)頁分割成幾大塊 ,取出 網(wǎng)頁里的 div 塊, td 塊文字塊兒 ,對取出 的文字塊 排序之前把超鏈接文字?jǐn)?shù)量和漢字?jǐn)?shù)量比例超過百分之 50 的 div 去掉,因?yàn)檫@些都是相關(guān)鏈接或者文字廣告 , 再 把漢字少于 200 的文本塊去除 , 因?yàn)?一般少于200 字的文本塊不會(huì)是正文, 而且 即便是正文,一般來說也不會(huì)有太多的價(jià)值。 string reg2 = (\[([^=]*)(=[^\]]*)?\][\s\S]*?\[/\1\])|(?lj(?=[^\u4E00\u9FA5\uFE30\uFFA0,.)。\\d+\。 if ( 1) {return 。分詞過程需要去掉無意詞和噪聲詞。 i++) { sqlConn(wID[i].ToString())。 i 。例如,用戶 A從 某天開始 對“梅西”和“ NBA”開始產(chǎn)生興趣,一段時(shí)間后, 該用戶突然對 “梅西 ”不怎么感興趣了,而對 “NBA”依然 有很濃的興趣 。但據(jù)《馬卡報(bào)》透露,馬拉加只是第二年的歐戰(zhàn)禁賽被取消,歐足聯(lián)仍維持取消其下次歐戰(zhàn)資格的處罰。據(jù)《馬卡報(bào)》透露,馬拉加已經(jīng)把歐足聯(lián)告上了體育仲裁法庭,體育仲裁法庭將在 6 月 4 日公開審理此案,以便確定馬拉加下次是否有資格踢歐戰(zhàn)?!? 孔蒂表示下賽季尤文有更宏大的目標(biāo)去爭取實(shí)現(xiàn),“我們是冠軍,承受的壓力自然更大; 下賽季的聯(lián)賽將會(huì)非常艱難,因?yàn)槲覀兊哪繕?biāo)是聯(lián)賽三個(gè)賽季蟬聯(lián)聯(lián)賽冠軍,我們要?jiǎng)?chuàng)造更 多的紀(jì)錄。 智能文本篇章分析需要建立領(lǐng)域知識(shí)庫,收集錄入知識(shí)點(diǎn)的關(guān)系值,然后通知自動(dòng)分詞技術(shù)對文章進(jìn)行分
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1