正文內容

[工學]基于xml的個性化搜索算法研究(留存版)

2025-03-04 13:16上一頁面

下一頁面

　　

【正文】 e Web Catalog，ISleuth等。發(fā)展趨勢搜索引擎已成為一個新的研究和開發(fā)領域。搜索器可以在多臺機器上相互合作、相互分工進行信息發(fā)現(xiàn)，以提高信息發(fā)現(xiàn)和更新速度。使得處理XML的應用程序較容易書寫216。此類搜索引擎最為著名的有Google，Baidu，Nothern Light，Alta Visa，Infoseek等。目錄體系包含分類與鏈接過多，不便于瀏覽檢索，并且采用人工干預技術，數(shù)據(jù)庫數(shù)據(jù)更新緩慢，工作量大且查全率低。網(wǎng)上蜘蛛從這些URL出發(fā)，下載相應的頁面，并從中抽取出新的超鏈加入到隊列(或者堆棧)中。索引器在建立好索引之后，進行擴充和更新數(shù)據(jù)庫。標準搜索引擎的自動信息搜集功能一般通過兩種方式實現(xiàn)：一種是定期搜索，即搜索引擎定期主動派出“蜘蛛”程序，對一定PI地址范圍內的網(wǎng)站進行檢索，一旦發(fā)現(xiàn)更新或新的網(wǎng)站，它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。自動方式通常是由搜索程序來完成的。②進行詞性標注及相關的自然語言處理：詞性標注是指利用基于規(guī)則和統(tǒng)計(馬爾可夫鏈)的數(shù)學方法對語詞進行標注。l為查詢結果中不相關文檔數(shù)。一個查詢返回的結果可能有數(shù)千條，與用戶需求最相關的信息可能排在最后。進一步把個人信息轉化為知識，完成個性化的知識發(fā)現(xiàn)、知識管理、知識應用[16]。216。但是無論其中的哪一種實現(xiàn)方式，即Google 的主動選擇搜索范圍，還是yahoo vivisimo 的在結果中重新組織自己需要的信息，都是一種實驗或者創(chuàng)想，短期內無法成為主流的搜索引擎應用產(chǎn)品。216。隱式的用戶信息搜集方式則主要是搜集用戶在操作過程中的行為，并不需要用戶主動干預和反饋。Liu等人[33]的個性化搜索方法中同樣利用了ODP的分類法來進行個性化中用戶興趣偏好的描述，同時使用了矩陣的結構來表示用戶興趣數(shù)據(jù)，但這一方法存在只能針對目錄結構的搜索結果進行個性化并且缺乏層次性，無法實現(xiàn)隱私保護的缺陷。Richardson等人 [42]提出了結合鏈接和頁面信息的PageRank算法，將用戶在頁面間跳轉的行為也作為評估頁面質量的因素。個性化搜索是基于搜索引擎的基本技術發(fā)展起來的，實際上是在搜索引擎的基本框架上增加了用戶信息搜集建模和處理的模塊，并且在核心算法中針對搜集到的用戶信息和數(shù)據(jù)庫中的網(wǎng)頁進行了特別的相似度計算。216。M S Chen和J Borges等則根據(jù)用戶的瀏覽順序，通過log數(shù)據(jù)映射到關系表中和利用超文本概率的方法來發(fā)現(xiàn)用戶的訪問模式。而且隨著瀏覽時間的延長，用戶的興趣主題和評價標準并不穩(wěn)定。本文所采用的方法具體見第四章。如果用戶選中R1，R2和R3，則每個主題詞在被選中文檔和未被選中文檔中出現(xiàn)的次數(shù)統(tǒng)計如下：=2，=2，=3，=1，=2，=1，……，=1，=1，……；=0，=2，=2，=0，=0，=0，……，=0，=0，……；運用公式(l)得到a與t的相關度為：simt,a=max((2+2+1)/(2+2+0+2+1+0),(0+2+0)/( 2+2+0+2+1+0))=max(5/7,2/7)=5/7運用公式(2)得到a與t的相異度為：divt,a=max(4/7，2/7)=4/7則反饋調整算法分別按公式(3)調整，a與t的語義相關度為：SRt,a =min(1，+5/7一4/7)=以上式中假設SR取值范圍為一1至1，1表示予以上最相關，1表示語義完全不相關。本文基于這樣的思想開展研究，對智能化信息檢索作一個小的嘗試，根本目的是為了探索信息檢索在新的應用需求下的性能提高的技術解決方案。其中，是y與x在用戶偏好關鍵詞表中的原始語義相關度。個性化信息過濾由于關鍵詞查詢固有的弊病，在信息推送給用戶之前，需要去除那些無關的信息，即信息過濾。但是由于語言表達和分類的模糊性與多樣性，用戶很難利用這種方法將信需求的方向表達清楚。發(fā)現(xiàn)有意義的關系、信息，比如：用戶的行為模式，用戶行為的變化，不同用戶群在使用和行為上的相似性或差異性等等。主要的機器學習有歸納習、基于事例推理學習、分析學習、遺傳學習、連接學習、增強學習增強學習等。在客戶端排序的方法存在排序準確度受限的問題，在一次搜索中結果往往會有數(shù)千數(shù)萬個，理想的在客戶端重排序的方法需要把這些結果都傳輸?shù)娇蛻舳伺c用戶描述文件進行相似度計算，但是這一做法受限于傳輸帶寬而無法實現(xiàn)，因此往往只能采用傳輸一部分的結果在客戶端先行排序，當用戶需要時再繼續(xù)傳輸下一部分的妥協(xié)方法，這就導致了一部分較為匹配用戶興趣的結果在第一次傳輸時沒有被全部包含而無法在客戶端優(yōu)先呈現(xiàn)的問題。排序算法是直接影響個性化搜索中搜索效果的關鍵算法，將重要的搜索結果列在搜索結果列表中較為靠前的位置，能夠讓搜索用戶更快捷的找到這些更有價值的信息。ODP[29](Open Directory Project)，即開放式分類目錄搜索系統(tǒng)，是目前網(wǎng)上最大的人工編制的分類檢索系統(tǒng)，到2007年底有超過70000名志愿者為其進行分類的工作，分類目錄多達590000個。個性化搜索算法的研究現(xiàn)狀個性化搜索是繼人工分揀的分類目錄搜索和機器抓取網(wǎng)頁的關鍵字匹配搜索之后的第三代搜索技術。216。個性化搜索的現(xiàn)狀搜索引擎的個性化趨勢是搜索引擎的一個未來發(fā)展的重要特征和必然趨勢，因此也一直以來都是業(yè)界領袖們各自展現(xiàn)智慧的領域。在美國傳統(tǒng)詞典(雙解)中個性指Individuality。而要真正實現(xiàn)個性化的信息服務，就應該對用戶的瀏覽習慣、個人愛好、知識領域、學術領域及工作領域進行研究、分類。搜索的精度不高。分類或聚類方法是指搜索引擎采用分類或聚類技術，自動把查詢結果歸入到不同的類別中[46]。在Internet上，存在有大量的無用信息，一個好的搜索引擎應當盡量減少垃圾站點的數(shù)量，這是信息過濾要著重解決的問題[44]。搜索引擎關鍵技術(1)信息的收集和存儲技術網(wǎng)上信息收集和存儲一般分為人工和自動兩種方式。(6)用戶接口：用戶接口為用戶提供可視化的查詢輸入和結果輸出。ti,wi(d))，其中ti為詞條項，wi(d)為ti在d中的權值，一般被定義為ti在d中出現(xiàn)頻率F(ti)的函數(shù)?？扑固赜?993年10月創(chuàng)建了ALIWEB，它是Aerhie的HTTP版本。該引擎類似META搜索引擎，但區(qū)別在于不是同時調用多個引擎進行搜索，而是由用戶從提供的四個引擎當中選擇，因此叫它“集合式”搜索引擎更確切些。第五章對本文工作進行歸納總結并指出了課題需要進一步研究的工作。提出XML的目的是：216。智能代理可以在用戶端進行，也可以在服務器端運行。相關的研究又可以分為兩類：一類是對超文本鏈接的分析，在這方面Stanford大學的Google系統(tǒng)和IBM的Clever系統(tǒng)做出了很大的貢獻。該幾段的搜索引擎不斷采用新的技術，如Google采用鏈接評價體系，根據(jù)網(wǎng)頁鏈接數(shù)量評價文件的重要性。研究現(xiàn)狀卡內基梅隆大學教授Tom Mitchell在MIT的刊物Technology Review上發(fā)表文章，指出第一代的搜索引擎是基于關鍵詞的搜索。同時互聯(lián)網(wǎng)上XML文檔的不斷增多，對XML數(shù)據(jù)的使用越來越依賴于互聯(lián)網(wǎng)搜索引擎強大的檢索能力，在XML(eXtensible Markup Language)發(fā)布之前，國際互聯(lián)網(wǎng)的發(fā)展受到以下束縛：HTML無法描述數(shù)據(jù)內容，對數(shù)據(jù)表現(xiàn)的描述能力十分不夠，如還不能描述矢量圖形、科學符號等對象，而這一點恰恰是數(shù)據(jù)檢索、電子商務所必須的，完全不能適應對新標記需求的發(fā)展需要。研究意義Web的出現(xiàn)改變了人們進行信息檢索的方式，搜索引擎成為人們獲取信息的主要方式，信息檢索的對象也從結構化的數(shù)據(jù)轉向半結構、無結構化的數(shù)據(jù)。垂直門戶網(wǎng)站可以分為專業(yè)領域垂直門戶和綜合垂直門戶。基于獨立搜索引擎的檢索結果進行二次加工。解決查詢結果過多的現(xiàn)象目前出現(xiàn)了以下幾種方法：① 是通過各種方法獲得用戶沒有在查詢語句中表達出來的真正用途，包括使用智能代理跟蹤用戶檢索行為，分析用戶模型。該技術目前還處于初步研究階段，主要的困難在于語言之間在表達方式和語義對應上的不確定性。下圖給出了XML的重點應用類型，其中基于XML的信息查詢是研究的重點。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性搜索功能的設置和用戶檢索界面的友好性上，其查全率和查準率相對比較高。搜索引擎體系結構雖然各個搜索引擎具體實現(xiàn)的方式不盡相同，但一般都包含6個基本部分：搜索信息的網(wǎng)上蜘蛛(websPider)、信息分析器、索引器、數(shù)據(jù)庫、檢索器、用戶界面，如圖所示。這些技術往往與具體的語言以及系統(tǒng)的索引模型密切相關。例如，在矢量空間索引模型中，查詢q也被表示為一個矢量V(q)=(t1,w1(q)。搜索引擎工作原理從搜索引擎的結構和組成可以看出，其實現(xiàn)原理可以看作四步：從互聯(lián)網(wǎng)上抓取網(wǎng)頁一建立索引數(shù)據(jù)庫一在索引數(shù)據(jù)庫中搜索一對搜索結果進行處理和排序?？梢圆捎脤Ｓ玫?，也可以采用通用的數(shù)據(jù)庫[42]。④檢索結果預處理技術：搜索引擎的檢索結果通常包含大量的文件，用戶不可能一一瀏覽。由于查準率和查全率反映的是算法或系統(tǒng)分類質量的兩個不同方面，所以人們又提出了一種綜合評價指標，來衡量算法的綜合效率，如公式綜合效率=(Precision*Recall*2)/(Precision+Recall)這樣，在性能效率的評價中，就可以利用變化表定義的搜索特征進行評價。效率有待提高。216。個性指個人聚集的品質、行為、脾氣、情緒和精神的性格模式。但是如果能把兩者結果起來則是一個很有前途的實現(xiàn)模式，短期內最起碼來說可以有所改進[17]。按照這個集合，系統(tǒng)可以給用戶提供一種特殊定制的個性化網(wǎng)頁。顯式的搜集要求用戶主動配合信息搜集，能夠從用戶處準確地獲得描述用戶偏好所需要的信息，但是用戶會對繁瑣的操作感到不滿，也會存在描述不準確的問題。但這一方法缺乏層次結構，沒有用戶自主控制開放程度的余地。Jeh等人[46]提出一個個性化的排序算法，這一算法為每一個用戶計算個性化的頁面排序向量并以此作為比較用戶興趣和頁面內容的依據(jù)。下圖為其中的一種框架結構。個性化的使用記錄挖掘則傾向于分析單個用戶的偏好，其目的是根據(jù)不同用戶的訪問模式，為每個用戶提供定制的站點信息。這些都給日志信息的收集和預處理造成了很大的困難。系統(tǒng)通過監(jiān)視用戶的信息篩選過程能自動獲得用戶的信息需求方向，其方法是系統(tǒng)通過不斷地接收用戶在Web瀏覽時的相關信息，并將信息進行整理、組織，從中分析出用戶的信息偏好，系統(tǒng)再根據(jù)用戶這些信息偏好進行新的信息的推薦。用戶提交搜索請求后由服務器對搜索結果進行個性化重排序，并返回給客戶端。必要時調用同義詞代替關鍵詞來進行查詢，同義詞按其與關鍵詞的相關程度排列。而擴展檢索詞是對用戶信息需求的個性化擴展，因為通常每個搜索引擎會接受若干個布爾邏輯的提問輸入，輸入越精確，檢索的效果越好。用戶描述文件存儲在服務器的服務器端排序方法步驟如下:1)用戶提交搜索請求Q2)搜索引擎獲得搜索結果集RSset，并按照PageRank或其它方法對搜索結果進行排序獲得原始搜索結果Rraw；3)搜索引擎根據(jù)存儲在服務器端的用戶描述文件P對原始搜索結果Rraw，進行個性化重新排序獲得個性化搜索結果Rper；4)搜索引擎服務器端分段或全部返回個性化搜索結果Rper_raw_n_i。因為用戶的瀏覽過程帶有很大的隨機性，那些用戶瀏覽時間長的信息，并不一定是用戶真正想獲得的信息，用戶很可能在剛打開某個網(wǎng)頁后就有事離開了。 .用戶主動提供：用戶可以通過回答特定問題、提交關鍵詞、設定主題或參與訓練給出評價方式，主動地完成自己信息需求的設定。首先清除Web日志中無關的信息，比如請求失敗信息，然后將剩下的數(shù)據(jù)存放到數(shù)據(jù)庫中。對于每一步都應該有不同的個性特征信息進行指導，而且都應該是基于用戶個性特征知識的。Shen等人[48]提出的隱含的個人信息模型方法，利用搜索引擎返回的搜索結果和用戶模型向量的相似度進行結果重排序。Dumais等人[36]提出的方法和Teevan等人[37]提出的方法通過搜集用戶的搜索記錄、訪問記錄、郵件記錄等各種信息，組成胖模式的非結構化的用戶描述文件(rich user profile)，在對搜索結果排序時還利用歷史訪問記錄中的URL的后三級域名的匹配作為提高某條搜索結果優(yōu)先度的依據(jù)。這一復合式信息搜集方法大為減少了單純顯式搜集方法中的搜集步驟，只在關鍵點上要求用戶的主動配合，而在大多數(shù)時間上則采用隱式的方法以免用戶在使用中感到不便。 Pei一Min Chen等人提出了一種根據(jù)“關鍵詞表”來學習用戶特性信息，并使用這些特性信息進行信息查詢的系統(tǒng)。例如Yahoo，用戶首次登陸時，網(wǎng)站會提供一系列個人興趣選擇項，用戶填寫并提交之后，在今后登陸時，網(wǎng)站會自動地把相關信息首先推送給用戶，可以說這具有一定的個性化。人品個人獨特的品質，特別是那些有區(qū)別性的、使某人具有社交魅力的個人性格。216。216。此外搜索引擎系統(tǒng)的其它衡量指標還有響應時間、支持峰值查詢的能力、易用性、返回結果的有效性(是否為死鏈、過時信息)等等。概率方法根據(jù)關鍵詞在文中出現(xiàn)的頻率來判斷文件的相關性。目前，Internet上的信息發(fā)布格式多種多樣，這就要求搜索引擎支持多種文件格式。然后重復這一過程，并把爬過的所有網(wǎng)頁收集到服務器中。ti,wi(q)。詞條的類型也有多種，包括：字、詞或者短語等。由于專門用于檢索網(wǎng)絡信息的“機器人”程序像蜘蛛一樣在網(wǎng)絡間爬來爬去，因此通常被稱為“蜘蛛”程序。比較成功的元搜索引擎有metacrawler、dopile、MetaCrawler，SavySearch等。本文的結構安排如下：第一章介紹了研究的背景，指出了搜索引擎及其關鍵技術的研究現(xiàn)狀和發(fā)展方向，論述了本課題的研究目的和意義，并給出了本文的主要研究內容。 XML簡述XML(eXtensible Markup Language)是近年來發(fā)展應用非常迅速的一種技術，已經(jīng)成為下一代Web表示的事實標準。② 是進行站點類聚或內容類聚，減少信息的總量。Ixquick、Webcraler、Profusion等都是知名的元搜索引擎[8]。提供專業(yè)信息服務，如北大法律信息網(wǎng)(法律)。(l)本文針對搜索引擎對所有用戶顯示相同結果，沒考慮用戶使用行為特征的問題

點擊復制文檔內容

研究報告相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

[工學]基于xml的個性化搜索算法研究(留存版)

酒店個性化服務-資料下載頁

[精選]個性化服務-資料下載頁

個性化婚禮策劃方案-資料下載頁

[工學]基于xml的個性化搜索算法研究-在線瀏覽

[工學]基于xml的個性化搜索算法研究-閱讀頁

[工學]基于xml的個性化搜索算法研究(文件)

[工學]基于xml的個性化搜索算法研究-全文預覽

[工學]基于xml的個性化搜索算法研究-預覽頁