freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于用戶行為與本體的查詢?cè)~擴(kuò)展研究陳少明碩士畢業(yè)論文(編輯修改稿)

2024-12-12 02:23 本頁面
 

【文章內(nèi)容簡介】 共現(xiàn)的單詞, ai 表示ti與 C 共同出現(xiàn)的頻率,元組集稱為概念 C 的偽文檔。給定一個(gè)查詢 Q,計(jì)算偽文檔與西華大學(xué)碩士學(xué)位論文 3 查詢 Q 之間的相關(guān)度,并對(duì)結(jié)果進(jìn)行排序,取得到最高分?jǐn)?shù)的概念來進(jìn)行查詢 詞 擴(kuò)展。該方法的缺點(diǎn)是要計(jì)算出每一對(duì)詞的共現(xiàn)率來產(chǎn)生概念,生成偽文 檔 ,計(jì)算的要求比較高,導(dǎo)致查詢效率也會(huì)有所下降。 文獻(xiàn) [7]提出的統(tǒng)計(jì)詞典是通過對(duì)整個(gè)文 檔 集中的文 檔 上下文進(jìn)行分析,采用統(tǒng)計(jì)的方法,將相關(guān)詞語分成不同的類別,然后利用這些相關(guān)詞語擴(kuò)展初始查詢。 局部分析 基于局部分析的查詢?cè)~擴(kuò)展主要是利用首次查詢結(jié)果文 檔 中與 原查詢?cè)~最相關(guān)的N 篇文檔作為擴(kuò)展詞的來源,這些相關(guān)的詞語出現(xiàn)在局部 文件集合中。而并非利用先前計(jì)算得到的全局詞關(guān)系詞典。局部分析主要技術(shù)有局部聚類、相關(guān)回饋和局部回饋等,相對(duì)于全局分析,局部分析的計(jì)算量比較小。 Atter 和 Fraenkel[8]于 1977 年最早提出局部聚類方法,其技術(shù)是依據(jù)全局的聚類算法,首先向搜索引擎輸入初始化查詢?cè)~ Q,得到檢索結(jié)果集 D;對(duì)結(jié)果集 D 中的詞進(jìn)行聚類分析,使用聚類中跟初始查詢?cè)~最相關(guān)的詞進(jìn)行查詢擴(kuò)展,再進(jìn)行第二次檢索,明顯提高查詢準(zhǔn)確率。由于其分析的文 檔 數(shù)相對(duì)較少,從而有效提高 了檢索速度。 相關(guān)回 饋是最常見的查詢?cè)~擴(kuò)展技術(shù),該方法的主要思想是從用戶認(rèn)為相關(guān)的 文件中選擇重要的詞語,然后在新的查詢表達(dá)式中不斷提高這些詞語的重要性,希望新的查詢能夠?qū)⑾嚓P(guān)文 檔 與不相關(guān)文 檔 區(qū)分開來。相關(guān)回饋方法的缺點(diǎn)是過分依賴于用戶的干涉,如果用戶的回饋有誤則會(huì)大大降低系統(tǒng)的性能。為了減少用戶的直接參與, Shen等 [9]2020 年在隱含相關(guān)回饋方法的基礎(chǔ)上,提出了一 種基于統(tǒng)計(jì)語言模型的上下文檢索算法,并將所有用戶查詢和用戶點(diǎn)擊 文件的摘要用于文 檔 的重新排序,獲得了很好的檢索效果。 S. Jung 等 [10]在 2020 年提出將點(diǎn)擊的網(wǎng)頁作為隱含的相關(guān)回饋,基于人工標(biāo)注的相關(guān)網(wǎng)頁數(shù)據(jù)集的實(shí)驗(yàn)表明,把所有點(diǎn)擊網(wǎng)頁看作是用戶的相關(guān)回饋,獲得很好的準(zhǔn)確率和召回率。 局部回饋法是在相關(guān)回饋的基礎(chǔ)上發(fā)展起來的,局部回饋解決了相關(guān)回饋必須與用戶交互的問題,自動(dòng)將初始查詢結(jié)果中的前 N 篇文檔作為查詢擴(kuò)展源,不需要用戶的干預(yù)。它假設(shè)初次查詢的前 N 篇文章認(rèn)為是相關(guān)文章,并以此為依據(jù)對(duì)查詢進(jìn)行擴(kuò)展。Bucklev 和 Salton[11]提出的局部回饋方法結(jié)合了相關(guān)回饋和局部分析兩種方法,它將初次查詢檢索出的前 N 篇文 檔 認(rèn)為是相關(guān)的,并以此為 依據(jù)對(duì)查詢進(jìn)行擴(kuò)展,解決了相關(guān)回饋必須與用戶交互的問題。局部回饋方法的缺點(diǎn)是當(dāng)初次查詢后排在前面的文 檔 與原查詢相關(guān)度不大時(shí),局部回饋會(huì)把大量無關(guān)的詞加入到查詢,從而嚴(yán)重降低查詢精度,甚至有低于不做擴(kuò)展優(yōu)化的情形。 基于用戶行為與本體的查詢?cè)~擴(kuò)展研究 4 局部上下文分析 Xu和 Croft[12]提出了局部上下文分析方法。該方法成功地解決了全局分析方法中計(jì)算 量 大和上述基于局部回饋的查詢擴(kuò)展中對(duì) N 敏感的問題。局部上下文分析法在整體上是一種局部分析方法,但利用全局分析的詞語共同出現(xiàn)的思想避免了向原查詢加入不相關(guān)的詞。該方法基于名詞詞組而不是 簡單的關(guān)鍵詞,并把它作為文 檔 的概念,為了查詢擴(kuò)展,從位于排序前面的文 檔 中選擇一些與查詢?cè)~語同時(shí)出現(xiàn)的概念作為擴(kuò)展詞,不用文 檔 ,而是用段落如固定長度的文本來確定同時(shí)出現(xiàn)的信息。局部上下文分析的假設(shè)是與所有的查詢關(guān)鍵詞同時(shí)共現(xiàn)的詞匯作為查詢擴(kuò)展詞。令初始化查詢?yōu)?Q(Q={wl,W2, ? : wf))被檢索的文 檔 集為 C,其中排在最前面的與查詢 Q 有關(guān)的 n 篇文 檔 S=( P1,P2,?, Pn), 選擇與初始查詢關(guān)鍵詞最相關(guān)的詞作為擴(kuò)展詞。 基于用戶日志 用戶的查詢?nèi)罩臼潜姸嘤脩羰褂盟阉饕鏁r(shí)多次“回饋”結(jié)果的積 累,對(duì)它的分析相當(dāng)于使用大量用戶的相關(guān)回饋,可以收集到查詢?cè)~、返回順序、點(diǎn)擊順序、網(wǎng)頁 URL等用戶行為信息,對(duì)查詢?cè)~擴(kuò)展更具普遍性和統(tǒng)計(jì)意義。 Hang Cui 等 [13]提出了基于用戶查詢?nèi)罩镜牟樵償U(kuò)展統(tǒng)計(jì)模型,它的基本思想是:在用戶查詢記錄的基礎(chǔ)上建立用戶查詢空間,在文 檔 集上建立文件空間,根據(jù)用戶日志將兩個(gè)空間中的詞,按照用戶提交某個(gè)查詢所點(diǎn)擊的文章以條件概率方式連接起來。當(dāng)新查詢到來時(shí),系統(tǒng)選取當(dāng)該查詢出現(xiàn)時(shí)被選擇成為擴(kuò)展用詞的條件概率最大的文 檔 用詞加入查詢。顯然,該方法從大量 查詢 中得到的“先驗(yàn)知識(shí) ,遠(yuǎn)比個(gè)別用戶的臨時(shí)判斷或系統(tǒng)在毫無人為參與的情況下得到的結(jié)果更為準(zhǔn)確,并且將關(guān)于用戶回饋的學(xué)習(xí)放在檢索之前,省去了初始檢索和用戶參與的代價(jià)。 基于詞表 詞表是指一套詞組或者詞語的集合,有時(shí)也包括集合中詞間的各種關(guān)系。有兩種方式人工詞表:一種是普適性的、基于詞語的詞表,如國外通用本體 WordNet,國內(nèi)知網(wǎng)HowNet 等,詞表中含有語義聯(lián)系,如同義詞或者反義詞,整體與部分等語義關(guān)系。另一種如美國國會(huì)圖書館主題詞表 (Library of CongressSubject Headings)和 MeSH 醫(yī)學(xué)主題詞表等,它是面向信息檢索的、基于詞組的詞表。這些詞表包含檢索詞之間的關(guān)系有:上位檢索詞、下位檢索詞、替代詞和關(guān)聯(lián)詞,構(gòu)造這些詞表的代價(jià)非常昂貴,需要投入很大物力財(cái)力及很長時(shí)間才能初步成形,之后不斷完善。以 WordNet 為例,是在 Gee Miller 領(lǐng)導(dǎo)的普林斯頓大學(xué)研究小組基礎(chǔ)上發(fā)展起來的一個(gè)手工詞表,可以以機(jī)讀的方式獲得。在 WordNet 中,詞語進(jìn)行了分類,類中每個(gè)節(jié)點(diǎn)都代表了單一意思的一個(gè)同西華大學(xué)碩士學(xué)位論文 5 義集?;诓煌脑~性有四種不同的類別,同時(shí)在這些類別之間定義了許多相關(guān)聯(lián)系。使用 WordNet 來進(jìn)行查詢擴(kuò)展時(shí),查詢中的所有關(guān)鍵詞都使用同義詞或者上下位詞等的結(jié)合來擴(kuò)展。很多的研究學(xué)者嘗試使用 WordNet 中定義的聯(lián)系來進(jìn)行查詢擴(kuò)展。知網(wǎng) (HowNet)是一個(gè)以漢語和英語的詞語所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為內(nèi)容的常識(shí)知識(shí)庫,是最為出名的采用漢語描述的本體。它通過義原(即基本的不可再分的語言單位,語義中的原)的組合來表示各種各樣的單純或復(fù)雜的概念,以及各個(gè)概念之間,概念的屬性和屬性之間的關(guān)系 [14]。 隨著研究的深入,研究者們提出了許多種不同的查詢 詞擴(kuò)展方法。 , der Weide 于 2020 年提出了一種混合的方法,設(shè)計(jì)了一個(gè)基于全局信息的初始查詢結(jié)果,同時(shí)產(chǎn)生一個(gè)局部的概念上的總結(jié),使用形式概念分析理論,利用概念格 描述由 文件、關(guān)鍵詞及其之間的關(guān)系組成的概念之間的關(guān)系。這種方式有效地刻畫了詞與詞之間的搭配,減少了單個(gè)詞所具有的多義性,從語境的角度研究了查詢?cè)~擴(kuò)展技術(shù) [15]。Ahmed Abdelali, Jim Cowie, Hamdy S. Soliman 等于 2020 年提出了一種使用潛在語義分析機(jī)制 (Latent Semantic Analusis, LSA) 的自動(dòng)查詢?cè)~擴(kuò)展方法 [16]。張敏,宋睿華,馬少平提出了根據(jù)詞之間的語義關(guān)系進(jìn)行擴(kuò)展和替換的文 檔 重構(gòu)方法,實(shí)現(xiàn)了同一概念信息的聚集,并進(jìn)一步研究給出一種有效的實(shí)時(shí)文 檔 重構(gòu)檢索策略,解決了文 檔 重構(gòu)方法在實(shí)際應(yīng)用中的問題 [17]。 Dongfeng Chen, Rada Chirkova, Fereidoon Sadri 等人中提出使用被規(guī)則化或者被重構(gòu)的物化觀點(diǎn)( views)重構(gòu)優(yōu)化相關(guān)查詢 [18]。 . D237。azGaliano, Mart237。nValdivia, . Ure241。aL243。pez 通過使用醫(yī)學(xué)術(shù)語擴(kuò)展用戶查詢?cè)~的方法 , 運(yùn)用醫(yī)學(xué)本體 MeSh 改善醫(yī)學(xué)信息檢索 [19]。 Lixin Han 等于 2020 年提出了 HQE 的擴(kuò)展方法,該方法結(jié)合本體與神經(jīng)網(wǎng)絡(luò)來提高查詢?cè)~擴(kuò)展的性能。本體是用來分析語義關(guān)系以便發(fā)現(xiàn)相同用戶,而神經(jīng)網(wǎng)絡(luò)則是用來獲得最多相關(guān)文 檔 [20]。 MingYen Chen 等于 2020 年提出一種基于語義的檢索機(jī)制,分析網(wǎng)頁內(nèi)容的語義特性,開發(fā)一個(gè)能代表網(wǎng)頁內(nèi)容語義特性的語義模式,然后通過語義延伸分析用戶查詢?cè)~和拓展查詢?cè)~潛在的語 義,可以識(shí)別更多匹配的語義特性,最后,通過擴(kuò)展查詢?cè)~向用戶提供更準(zhǔn)確的信息 [21]。 Lourdes Araujo 等于 2020 年分析傳統(tǒng)查詢?cè)~擴(kuò)展算法中詞與詞之間關(guān)系的不足,提出一個(gè)新穎且簡單的方法來表示擴(kuò)展查詢?cè)~,改善這種不足,然后通過遺傳算數(shù)來優(yōu)化查詢?cè)~,達(dá)到提高查詢準(zhǔn)確率的目的 [22]。 本體研究現(xiàn)狀 所謂本體,最著名并被廣泛引用的定義是由 Gruber 提出的“本體是概念模型的明確的規(guī)范說明” [23]。本體是捕獲相關(guān) 領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定基于用戶行為與本體的查詢?cè)~擴(kuò)展研究 6 該領(lǐng)域內(nèi)共同認(rèn)可的詞匯。并從不同層 次的形式化模式上給出這些詞匯 (術(shù)語 )和詞匯之間相互關(guān)系的明確定義。簡言之就是一種能夠相互理解的約定, 像詞義消歧一樣。而本體論也是一個(gè)重要的語義技術(shù),它是作為一種概念化的說明,是對(duì)客觀存在的概念和關(guān)系的描述。近十多年來,本體論的研究日益成熟,也已經(jīng)遠(yuǎn)遠(yuǎn)超過了哲學(xué)的范疇,和信息技術(shù)(例如:面向?qū)ο笙到y(tǒng))、知識(shí)工程及人工智能都有著密切的關(guān)系。尤其本體論最近在 Web 上的應(yīng)用直接導(dǎo)致了語義 Web 的誕生,企圖解決 Web 信息共享中的語義問題,給 Web 帶來了勃勃生機(jī)和無限遐想 [24]。在知識(shí)工程領(lǐng)域中本體分為領(lǐng)域本體、通用 本體、應(yīng)用本體、和表示本體四類。 國內(nèi)外對(duì)本體的研究具體體現(xiàn)在四個(gè)方面 : ( 1)基于結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí) 。 ( 2)基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí) 。 ( 3)基于半結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí); (4) 本體構(gòu)建工具[25]。 基于結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)。結(jié)構(gòu)化數(shù)據(jù)是把數(shù)據(jù)按一定規(guī)則組織起來,主要包括關(guān)系數(shù)據(jù)庫或面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù)。隨著數(shù)據(jù)庫在信息管理領(lǐng)域的廣泛應(yīng)用,大量的數(shù)據(jù)通常存儲(chǔ)在數(shù)據(jù)庫中。 Lawrence 和 Giles 在 1998 年時(shí)估計(jì)互聯(lián)網(wǎng)上有 80%的內(nèi)容存儲(chǔ)在 Hidden Web 中 [26]。所謂的 Hidden Web 中的數(shù)據(jù)就是存儲(chǔ)在數(shù)據(jù)庫中,而且這些數(shù)據(jù)一般都是面向主題 (領(lǐng)域 )的。因此,如何利用數(shù)據(jù)庫中豐富的數(shù)據(jù)構(gòu)建本體是一個(gè)很有意義的研究課題。在關(guān)系模型中,實(shí)體以及實(shí)體間的聯(lián)系都是用表來表示的。所以,無論是概念的獲取還是概念間關(guān)系的獲取 ,首先必須區(qū)分出哪些表是用來描述實(shí)體的,哪些表是用來描述實(shí)體間 聯(lián)系的,然后才能將實(shí)體信息映像為本體中的概念,將聯(lián)系信息映像為本體中的關(guān)系。 Johannesson[27]提出本體的構(gòu)建方法,把將關(guān)系模型轉(zhuǎn)換為一個(gè)概念模型,該概念模型實(shí)際上是一個(gè)擴(kuò)展的實(shí)體 關(guān)系模型的形式化表 示,然后根據(jù)與用戶的交互,對(duì)該概念模型進(jìn)行修訂生成最終的本體。 Stojanovic 等人 [28]通過分析數(shù)據(jù)庫中的表、屬性、主外鍵和包含依賴關(guān)系,給出了一組從關(guān)系模型到本體的映像規(guī)則。基于這些規(guī)則能夠直接得到一個(gè)候選本體,然后可以進(jìn)一步對(duì)該候選本體進(jìn)行評(píng)價(jià)和精煉,生成最終的本體。 基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)。非結(jié)構(gòu)化數(shù)據(jù)是指沒有固定結(jié)構(gòu)的數(shù)據(jù)。其中,純文本是 Web 中大量存在的一類非結(jié)構(gòu)化數(shù)據(jù),也是最重要的一類,可以用來獲取本體的數(shù)據(jù)源。目前,基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)的研究主要集中在從純文本或從用戶查詢 詞中獲取本體。純文本依據(jù)一定的造句法表達(dá)特殊的語義,使得讀者可以基于一些背景知識(shí)來理解其中的含義。然而,由于缺乏一定的結(jié)構(gòu),要使機(jī)器能夠自動(dòng)地理解純文本并從中抽取出所需要的知識(shí),則必須利用自然語言處理 (NLP)技術(shù)對(duì)其預(yù)處理,然后利用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)等手段從中獲取知識(shí)。陳文亮等人 [29]提出利用 Bootstrapping 的西華大學(xué)碩士學(xué)位論文 7 機(jī)器學(xué)習(xí)技術(shù),從大規(guī)模無標(biāo)注真實(shí)語料中自動(dòng)獲取領(lǐng)域詞匯。鄭家恒等人 [30]提出采用非線性函數(shù)與“成對(duì)比較法”相結(jié)合的方法,綜合考慮位置和詞頻兩個(gè)因素,給出候選詞的權(quán)重,實(shí)現(xiàn)了關(guān)鍵詞的自動(dòng)抽 取。 Sangno Lee 等人 [31]基于 WordNet 本體去除數(shù)據(jù)意義的模糊性,通過對(duì)上下義關(guān)系的分析,提出了概念層次的自動(dòng)生成方法。 基于半結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)。半結(jié)構(gòu)化數(shù)據(jù)是指具有隱含結(jié)構(gòu),但缺乏固定或嚴(yán)格結(jié)構(gòu)的數(shù)據(jù) [32]。 Web 中的半結(jié)構(gòu)化數(shù)據(jù)很多。例如大量的 XML 格式和 HTML 格式的網(wǎng)頁,以及它們遵循的文 檔 類型定義 (XML schema 或 DTD),還有越來越多的用 RDF 標(biāo)注的網(wǎng)頁,都可以作為本體學(xué)習(xí)的數(shù)據(jù)源。 Papatheodorou 等人 [33]提出了從 XML 或RDF 格式的文 檔 中獲取概 念間分類關(guān)系的方法,抽取出表示每篇 文件內(nèi)容的關(guān)鍵詞,然后使用聚類技術(shù),將文 檔 集分成同組內(nèi)的文 檔 內(nèi)容相似的不同組;接著,使用統(tǒng)計(jì)的方法選出最能表達(dá)每組 文件內(nèi)容的關(guān)鍵詞;將這些關(guān)鍵詞作為本體中的概念,并根據(jù)先前聚類的結(jié)果給出概念間的分類關(guān)系。 Volz 等人 [34]提出將這些半結(jié)構(gòu)化數(shù)據(jù)映像成一棵語法樹,該語法樹是一個(gè)四元組:非終結(jié)符集,終結(jié)符集,開始符集和規(guī)則集;然后使用一些規(guī)則將這些非終結(jié)符集和終結(jié)符集中的元素映像為本體中的概念和關(guān)系。 本體構(gòu)建工具。目前,本體構(gòu)建工具不少于 50 種 [35],其中較成熟的主要有DAMLImp(AP
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1