freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于用戶行為與本體的查詢?cè)~擴(kuò)展研究陳少明碩士畢業(yè)論文-資料下載頁

2024-11-06 02:23本頁面

【導(dǎo)讀】工作所取得的成果。盡我所知,除文中已經(jīng)注明引用內(nèi)容和致謝的地方外,學(xué)位或其他用途使用過的成果。與我一同工作的同志對(duì)本研究所做的貢獻(xiàn)。均已在論文中做了明確的說明并表示了謝意。若有不實(shí)之處,本人愿意承擔(dān)相關(guān)法律責(zé)任。用影印、縮印或掃描等復(fù)印手段保存和匯編本學(xué)位論文。(保密的論文在解。充分發(fā)揮查詢?cè)~擴(kuò)展技術(shù)的優(yōu)越性可以大大提高搜索引擎在搜索精確度方面的效率。地描述用戶的信息需求,去除用戶查詢?cè)~的多義性,從而更精確地查詢用戶所需信息。問題,結(jié)合形式概念分析與用戶行為、本體進(jìn)行查詢?cè)~擴(kuò)展,從WordNet中抽取出查詢?cè)~與查詢擴(kuò)展源的相。利用本體的相似、相等、上義、下義和。PartOf語義關(guān)系,提出一個(gè)基于本體的查詢?cè)~與概念相似度計(jì)算的新方法。實(shí)驗(yàn)通過把本文方法的查詢?cè)~擴(kuò)展結(jié)果與目前其它方法的查詢?cè)~。擴(kuò)展結(jié)果對(duì)比,表明了本文提出的方法是具有可行性的。

  

【正文】 (2 aaw ?? )1( 23 aaw ?? … )1( 1aw nn a ? ?? 參數(shù)α屬于區(qū)間 [0,1], 該 系數(shù)特點(diǎn)是 第一 個(gè)權(quán)重遠(yuǎn)遠(yuǎn)大于第二個(gè)權(quán)重,第二個(gè)權(quán)重遠(yuǎn)遠(yuǎn)大于第三個(gè)權(quán)重,以此類推。我們將初始重要度 的權(quán)重賦為 W1 ,認(rèn)同度賦為 W2 ,推薦度和支持度賦為 W3 ,一個(gè)詞項(xiàng)的總權(quán)重為公式 (): w iiiii tSWtRWtIWtFWtW 3321 *)(*)(*)(*)()( ???? ( ) 本文提取查詢擴(kuò)展詞的流程如下: (1) 從搜索引擎后臺(tái)或者是公開的日志集中,獲取某一個(gè)或者某一類共同愛好、有相似搜索意圖的用戶的搜索日志。搜索日志是記錄用戶跟搜索引擎交互的情況,不同搜索引擎的搜索日志格式不一致,但一般格式都包含如下幾個(gè)要素:用戶 ID(或 IP) \t [查詢?cè)~ ] \t 該 URL 在返回結(jié)果中的排名 \t 用戶點(diǎn)擊的順序號(hào) \t 用戶點(diǎn)擊的URL。 (2) 記錄查詢?cè)~、該 URL 在返回結(jié)果中的排名、用戶點(diǎn)擊的順序號(hào)和用戶點(diǎn)擊的URL,因?yàn)檫@些都是本文方法所用的要素。根據(jù)查詢?nèi)罩咎峁┑挠脩酎c(diǎn)擊的 URL,從網(wǎng)絡(luò)上下載網(wǎng)頁,進(jìn)而獲得網(wǎng)頁內(nèi)容。 (3) 網(wǎng)頁內(nèi)容中經(jīng)常包含一些使用十分廣泛,在文本中出現(xiàn)頻率很高的停用詞,但實(shí)際意義又不大,對(duì)識(shí)別用戶搜索意圖沒有任何幫助,比如英語的“ is”、“ the”,中文的“和”、“嗎”、“的”等。因此利用一個(gè)停用詞表,對(duì)網(wǎng)頁內(nèi)容進(jìn)行去停用詞處理。 (4) 獲得去掉停用詞后網(wǎng)頁的詞項(xiàng)集 T,根據(jù)公式 、 、 、 計(jì)算 T 每個(gè)詞項(xiàng)的初始重要度、推薦度、認(rèn)同度、支持度,根據(jù)公式 計(jì)算每個(gè)詞項(xiàng)的總權(quán)重。如圖 所示,將用戶點(diǎn)擊的第一個(gè)網(wǎng)頁作為 d1,在 d1 中出現(xiàn)的詞項(xiàng)是比其它網(wǎng)頁出現(xiàn)的詞項(xiàng)重要,其返回排名、點(diǎn)擊順序是第一個(gè)網(wǎng)頁的返回排名、點(diǎn)擊順序。如果詞項(xiàng)在西華大學(xué)碩士學(xué)位論文 15 第一個(gè)點(diǎn)擊網(wǎng)頁中沒出現(xiàn),而在第二個(gè)網(wǎng)頁出現(xiàn),其返回排名、點(diǎn)擊順序是第二個(gè)網(wǎng)頁的返回排名、點(diǎn)擊順序。以些類推。 圖 例子 Fig. Example d1, d2, d3, d4 是點(diǎn)擊文檔,四個(gè)文檔的詞項(xiàng)個(gè)數(shù)之和為 498 個(gè)。括號(hào)中是點(diǎn)擊網(wǎng)頁返回排名及點(diǎn)擊順序。返回文檔數(shù)以第一頁結(jié)果的 10 文檔計(jì)數(shù),點(diǎn)擊文檔是 4 個(gè)。權(quán)衡因子α =,計(jì)算“ puter”的相關(guān)值: 初始重要度: FW(puter)=(10+5+6+0)/498= 推薦度: RW(puter)=(101+1)/10=1 認(rèn)同度: IW(puter)=(41+1)/4=1 支持度: SW(puter)=3/4= (4 個(gè)文檔中,有 3 個(gè)包含 puter) 總權(quán)重: W(puter)=w1*FW+w2*IW+w3*RW+w3*SW =α*FW+α(1α)*IW+α(1α)(1α)*RW+α(1α)(1α)*SW = *+**1+***1+*** = 計(jì)算“ code”相關(guān)值: 初始重要度: FW(code)=(5+4+8)/498= 推薦度: RW(code)=(103+1)/10= 認(rèn)同度: IW(code)=(42+1)/4= 支持度: SW(puter)=3/4= 總權(quán)重: W(code)=w1*FW+w2*IW+w3*RW+w3*SW 基于用戶行為與本體的查詢?cè)~擴(kuò)展研究 16 =α*FW+α(1α)*IW+α(1α)(1α)*RW+α(1α)(1α)*SW = *+**+***+*** = (5) 將詞項(xiàng)按總權(quán)重進(jìn)行降序排序,挑選前 N 個(gè)詞項(xiàng)作為查詢擴(kuò)展源。 流程如圖 所示: 圖 查詢擴(kuò)展源提取流程圖 Fig. Extracting diagram 提取算法 算法 是本章提出方法的算法實(shí)現(xiàn),具體如下: —————————————————————————————————— 算法 :提取查詢擴(kuò)展源: Extracting query expansion terms: ExtractQET(α, N, D) //輸入:權(quán)衡因子α;提取詞項(xiàng)作為擴(kuò)展源的個(gè)數(shù)N;點(diǎn)擊網(wǎng)頁集D ={P1,P2,? ,Pn} //輸出:擴(kuò)展源:權(quán)重最大的前N個(gè)詞項(xiàng)。 [1] For(i=0。in。i++) [2] 從 Pi中提詞項(xiàng) ti [3] 將 ti 加到詞項(xiàng)數(shù)組 Tcontain 中 [4] End For 西華大學(xué)碩士學(xué)位論文 17 [5] While(Tcontain) [6] While(StopWordList) [7] If((詞項(xiàng) in Tcontain)= =(詞項(xiàng) in StopWordList) [8] Delete 詞項(xiàng) in Tcontain [9] Break。 [10] End If [11] End While [12] While(Tcontain) [13] 計(jì)算 ti 的初始重要度、推薦度、認(rèn)同度、支持度 [14] 計(jì)算 ti 的最終權(quán)重 W(ti) [15] End While [16] Return 權(quán)重大的前 N 個(gè) ti 基于用戶行為與本體的查詢?cè)~擴(kuò)展研究 18 3 基于 WordNet 的用 戶本體構(gòu)建方法 本體在信息系統(tǒng)領(lǐng)域主要用于知識(shí)的表示、組織、管理,提供了知識(shí)共享方式,因此本體理論不僅在人工智能和知識(shí)工程領(lǐng)域引起研究人員的興趣,而且在信息系統(tǒng)的很多領(lǐng) 域 都得到廣泛的應(yīng)用。本體論在互聯(lián)網(wǎng)的應(yīng)用導(dǎo)致語義網(wǎng)的誕生,主要目的是解決Web 信息共享中的語義問題,這將 Web 的發(fā)展推向一個(gè)新的高度。本章介紹從 WordNet中抽取出查詢?cè)~與查詢擴(kuò)展源的相等、相似、 ISA、 partof 等語義關(guān)系,利用本體的構(gòu)建方法,把查詢?cè)~、查詢?cè)~擴(kuò)展源以及它們之間的語義構(gòu)建成用戶本體。 本體的介紹 本體的定義 本體 (ontology)是關(guān)于一些主題的清晰規(guī)范的說明 [49]。在基于本體的 Web 注釋( Ontologybased Web Annotation, OWA)的框架中,本體充當(dāng)組織 Web 語義相關(guān)數(shù)據(jù)的領(lǐng)域知識(shí),本體由于自身更豐富的語義結(jié)構(gòu),使之能夠描述更復(fù)雜的對(duì)象。 Gruber 于1993 年采用概念化的形式給本體進(jìn)行 OWA 形式化定義 D, R,即本體是共享概念化的明確的 形式化規(guī)范,其中 D 是領(lǐng)域, R 是 D 中相關(guān)的關(guān)系集合 [50]。下面引用文獻(xiàn) [51]中的方法介紹本體的定義。 定義 本體包含六個(gè)元 素 },,{ XHARAC Rc 。其中 C 表示概念集; cA 表示每個(gè)概念的屬性集; R 表示關(guān)系集; RA 表示每個(gè)關(guān)系的屬性集; H 表示概念層次; X 表示公理集。 定義 概念屬性集 )(iccA ,概念集 C 中的每個(gè)概念 ic 用來表示相同種類的一組對(duì)象,并能用相同的屬性集進(jìn)行描述。 定義 關(guān)系 ( , )i p qr c c , 關(guān)系集 R 中的每個(gè)關(guān)系 ir 表示概念 pc 和 qc 之間的二元關(guān)聯(lián),并且此關(guān)系的實(shí)例是一對(duì)概念對(duì)象 ( , )pqcc 。 定義 關(guān)系屬性集 )(iRrA ,用于表示關(guān)系 ir 的屬性。 定義 概念層次 H , H 是概念集 C 的概念層次,并是 C 中概念之間的一組父 子(或父類 — 子類)關(guān)系。例如,如果 qc 是 pc 的子類或子概念,則 ( , )pqcc 屬于 H 。 定義 公理 X , X 中的每個(gè)公理是對(duì)概念的屬性值和關(guān)系的屬性值的約束,或是對(duì)概念對(duì)象之間關(guān)系的約束。 西華大學(xué)碩士學(xué)位論文 19 概念之間有四種最基本的關(guān)系 [52]。 partof、 kindof、 attributeof 和 instanceof,其中partof 表達(dá)概念之間整體與局部的關(guān)系; kindof 表達(dá)概念之間的繼承關(guān)系; attributeof表達(dá)某個(gè)概念是另外某個(gè)概念的屬性; instanceof 表達(dá)概念和概念的實(shí)例之間的關(guān)系。 領(lǐng)域本體與用戶本體 領(lǐng)域本體 (Domain Ontology)提供了某個(gè)專業(yè)學(xué)科領(lǐng)域中概念的詞表以及概念間的關(guān)系,或在該領(lǐng)域里占主導(dǎo)地位的理論;描述該領(lǐng)域的基本原理、主要實(shí)體和活動(dòng) 關(guān)系,提供領(lǐng)域內(nèi)部知識(shí)共享和知識(shí)重用的公共理解基礎(chǔ) [53]。目前本體模型的研究已經(jīng)進(jìn)入實(shí)際應(yīng)用階段,許多研究領(lǐng)域都建立了自己的標(biāo)準(zhǔn)本體。醫(yī)學(xué)領(lǐng)域已經(jīng)產(chǎn)生了標(biāo)準(zhǔn)且結(jié)構(gòu)化的大型詞匯表 SNOMED 和統(tǒng)一醫(yī)學(xué)語言系統(tǒng)( Unified Medical Language System, UMLS) [54]。最大和最全面的領(lǐng)域本體是美國德州奧斯汀的 MCC 和 Cycorp 共同開發(fā)的大型常識(shí)知識(shí)庫系統(tǒng) CYC 本體 [55]。在國內(nèi),中科院陸汝鈐院士主持并由清華大學(xué)、中山大學(xué)、中科院計(jì)算機(jī)所等單位參加的 “常識(shí)知識(shí)的實(shí)用研究”,主要目 的是采用主體和本體來表達(dá)知識(shí),經(jīng)過 建立大規(guī)模的常識(shí)知識(shí)庫 PANGU,并探討利用常識(shí)知識(shí)來解決機(jī)器翻譯和自然語言理解等實(shí)際問題 [56]。 隨著本體應(yīng)用的深入以及知識(shí)時(shí)代知識(shí)信息的快速膨脹,人們面對(duì)的本體也會(huì)變得越來越大、越來越復(fù)雜。使用這樣龐大的本體,對(duì)很多用戶來說,將會(huì)有比較多的困難。事實(shí)上,在大部分的時(shí)候,用戶關(guān)心的只是大型本體中的一小部分本體概念,因此,需要為每個(gè)用戶建立屬于他們自己的用戶興趣主題模型,而且這個(gè)模型應(yīng)該形象描述出在用戶興趣主題領(lǐng)域中的概念以及概念之間的關(guān)系。如果可以得到一個(gè)更小的、包含了 用戶所需要信息的本體,就可以更好地幫助用戶來使用本體。 文獻(xiàn) [57]中提出用戶本體是把“用戶”看作是一個(gè)領(lǐng)域本體的實(shí)例,由于個(gè)體之間的區(qū)別,導(dǎo)致他們具有不同的興趣主題。如果能夠把這一個(gè)實(shí)例化的本體運(yùn)用到搜索引擎中,那么就可以從語義的角度來理解概念。這樣一個(gè)實(shí)例化的本體,把它稱為“用戶本體”。 WordNet 20 世紀(jì)以來,語言學(xué)家和心理學(xué)家們開始從一個(gè)嶄新的角度來探索現(xiàn)代語言學(xué)知識(shí)結(jié)構(gòu)以及特定的詞典結(jié)構(gòu),由 Princeton 大學(xué)研制成功了一個(gè)聯(lián)機(jī)英語詞匯檢索系統(tǒng) —WordNet,它作為語言學(xué)本體庫 ,同時(shí)又是一部語義詞典,在自然語言處理研究方面應(yīng)用非常廣泛。 WordNet 與其它標(biāo)準(zhǔn)詞典最顯著的不同在于它將詞匯分成 四 個(gè)大類:名詞、動(dòng)詞、形容詞、副詞;詞匯概念的語義關(guān)系主要包括:同義關(guān)系,反義關(guān)系、上下位關(guān)系和部分關(guān)系;最具特色之處是根據(jù)詞義而不是詞形來組織詞匯信息??梢哉f WordNet基于用戶行為與本體的查詢?cè)~擴(kuò)展研究 20 是一部語義詞典 [58]。目前 Windows下可用的 WordNet最高版本為 ,其中名詞有 117097個(gè),動(dòng)詞有 11488 個(gè),形容詞有 22141 個(gè),副詞有 4601 個(gè)。 名詞: WordNet 將 117097 個(gè)名詞分成 25 個(gè) 基本類別,這 25 類進(jìn)一步概括為 11 個(gè)基本類,如圖 和 所示 : 圖 WordNet 中名 詞 的 25 個(gè) 基本 類 Fig. 25 Basic Class 圖 將 25 個(gè) 基本 類 概括成 11 個(gè) 基本 類 11 Basic Class 西華大學(xué)碩士學(xué)位論文 21 WordNet 中名詞具有:同義關(guān)系,如 ―beach‖和 ―seaside‖;反義關(guān)系,如“ victory‖和 ―defeat‖; 整體部分關(guān)系,如“ tree”和“ forest”;上下位關(guān)系,如“ animal‖和“ bird‖。 動(dòng)詞: WordNet 將 11488 個(gè)動(dòng)詞分成 15 類,如身體動(dòng)作動(dòng)詞( Verbs of Bodily Functions and Care)、變化動(dòng)詞( Verbs of Change)、通信動(dòng)詞( Verbs of Communication)、競爭動(dòng)詞( Competition Verbs)、消費(fèi)動(dòng)詞( Consumption Verbs)、接觸動(dòng)詞( Contact Verbs)、認(rèn)知心理動(dòng)詞( Cognition Verbs)、創(chuàng)造動(dòng)詞( Creation Verbs)、運(yùn)動(dòng)動(dòng)詞( Motion Verbs)、情感心理動(dòng)詞、狀態(tài)動(dòng)詞( Stative Verbs)、感知?jiǎng)釉~( Perception Verbs)、領(lǐng)屬動(dòng)詞( Verbs of Possession)、社會(huì)交互( Verbs of Social Interaction)和氣象動(dòng)詞( Weather Verbs)。 WordNet 中動(dòng)詞具有:同義關(guān)系,如“ rise‖和“ ascend”;蘊(yùn)涵關(guān)系,如 snore(打鼾)蘊(yùn)涵了 sleep(睡覺);上下位關(guān)系,如“ march”和“ walk”;相反關(guān)系,如“ buy”和“ sell”。 形容詞: WordNet 把形容詞區(qū)分為兩類:描寫性形容詞( descriptive adjectives)和關(guān)系性形容詞( relational adjectives)。前者如 big、 beautiful、 interesting、 possible、 married、 …… ;后者因其跟名詞的關(guān)系而得名,如 electrical engineer 中的 electrical。反義關(guān)系是描寫性形容詞之間的基本語義關(guān)系,這種反義關(guān)系并不是直接的,而是間接反義,如圖 所示, moist 不直接跟
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1