正文內容

[工學]基于xml的個性化搜索算法研究(編輯修改稿)

2025-02-14 13:16 本頁面

　

【文章內容簡介】的實際文檔的集合。則查準率是既相關又被檢索到的實際文檔與檢索到的文檔的百分比，而查全率是既相關又被檢索到的實際文檔與查詢相關的文檔的百分比。由于查準率和查全率反映的是算法或系統(tǒng)分類質量的兩個不同方面，所以人們又提出了一種綜合評價指標，來衡量算法的綜合效率，如公式綜合效率=(Precision*Recall*2)/(Precision+Recall)這樣，在性能效率的評價中，就可以利用變化表定義的搜索特征進行評價。但是，評價搜索引擎效率，不能依靠單個搜索特征，有時即使知道各個特征值，也不能準確評價搜索引擎的性能。此外搜索引擎系統(tǒng)的其它衡量指標還有響應時間、支持峰值查詢的能力、易用性、返回結果的有效性(是否為死鏈、過時信息)等等。影響一個搜索引擎系統(tǒng)的性能有很多因素，最主要的是信息搜集策略和檢索模型，包括索引庫的更新頻率和策略、文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制。搜索引擎存在的主要問題隨著Internet的發(fā)展和普及，搜索引擎已經(jīng)成為了國際互連網(wǎng)上一個重要的應用，人們越來越依賴于搜索引擎所提供的服務。但因為期望值的不斷增加和搜索引擎技術的制約等方面的原因，人們對搜索引擎的滿意度在逐漸降低。綜合而言，主要有以下問題：216。搜索的精度不高。有時返回太多的信息，其中包含大量的不相關的信息，需要用戶自己判斷哪些有用，哪些沒用。216。排列無序問題。一個查詢返回的結果可能有數(shù)千條，與用戶需求最相關的信息可能排在最后。用戶很難有耐心把所有的網(wǎng)頁都打開一遍，以判斷哪些結果有用。這是由于除了導航站點外的搜索引擎一般采用全文檢索的模式，即對整個網(wǎng)頁進行掃描，只要在網(wǎng)頁上有匹配的詞語就把網(wǎng)頁作為查詢結果返回。檢索完全依賴于用戶所給的關鍵字，系統(tǒng)與用戶間并無進一步的交互。216。效率有待提高。用戶在進行息檢索時，都需要登陸到一個特定的引擎或是網(wǎng)站，而發(fā)出請求之后又需要耐心的等待，在一定程度上浪費了用戶的時間。216。沒有針對不同用戶的個性化的信息搜索服務。即不同用戶，針對同一個關鍵詞所提出的搜索請求，返回的結果是相同的。小結本章在介紹搜索引擎的類型基礎上，指出了本文研究的對象為基于網(wǎng)絡蜘蛛的搜索引擎，在介紹了搜索引擎的體系結構和工作流程以及評價的性能指標后，分析了現(xiàn)有搜索引擎存在的主要問題。針對當前搜索引擎存在的問題，不難看出只有實現(xiàn)信息服務的個性化，使用用戶的個性信息去收集信息、整理信息、排列信息，才能做到提高搜索精度，節(jié)約用戶獲得信息的時間。而要真正實現(xiàn)個性化的信息服務，就應該對用戶的瀏覽習慣、個人愛好、知識領域、學術領域及工作領域進行研究、分類。由于個人在日常的工作生活中接觸到越來越多的信息資源，也需要用越來越多的信息為工作及決策服務，因而怎樣應用信息技術為用戶提供個性化的信息服務越來越引起信息工作者的重視。而個性化搜索的關鍵是用戶個性特征信息的獲取、表示、轉換和應用。把現(xiàn)有的信息技術、數(shù)據(jù)庫技術、知識發(fā)現(xiàn)技術、人工智能、機器學習技術等新興技術結合起來學習用戶信息需求的個性特征，服務于用戶的信息需求、信息管理。進一步把個人信息轉化為知識，完成個性化的知識發(fā)現(xiàn)、知識管理、知識應用[16]。這決定了都是本文進行個性化搜索算法研究要解決的問題。第三章個性化搜索算法研究個性的定義對于個性有以下幾種解釋：216。個性是心理學名詞。指個人特有的心理特性，其中包括遺傳的及學習的種種特質。216。個性指一個人區(qū)別于其他人的比較固定的特性。216。個性是指一事物區(qū)別于其他事物的個別的、特殊的性質。如矛盾的普遍性和矛盾的特殊性的關系，就是矛盾的共性和個性的關系。一毛澤東《矛盾論》。216。在美國傳統(tǒng)詞典(雙解)中個性指Individuality。英文意思是The aggregate of qualities and characteristics that distinguish one person or thing from others； character。強調作為個體的人或事物與其他人或事物不同的性質和特點。獨特性。216。個性的另外一個英文對應詞是Persnoality。主要有三方面含義：(1)The totality of qualities and traits，as of character or behavior，that are peculiar to a specific pesron。人格品質和性格的總稱，包括個性或行為，特別是特指的人。(2)The pattern of collective character，behavioral，tempermaental，emotional，and mental traits of a person。個性指個人聚集的品質、行為、脾氣、情緒和精神的性格模式。(3)Distinctive qualities of a person，especially those distinguishing personal characteristics that make one socially appealing。人品個人獨特的品質，特別是那些有區(qū)別性的、使某人具有社交魅力的個人性格。簡單的說，個性即差異，本意是指個人特有的能力、氣質、興趣、性格等心理特性的總和。它是在一定社會環(huán)境和教育的影響下，通過長期的社會實踐逐漸形成和發(fā)展起來的，從哲學范疇來講，個性與“共性”是相對的，是指一事物區(qū)別于其它事物的個別的、特殊的性質。例如，一個網(wǎng)站的個性，是指它區(qū)別于其它網(wǎng)站的標志。個性化搜索定義真正意義上的搜索個性化是在相同或是相近的信息資源中，對兩個不同用戶的相似要求，通過軟件對用戶個性特征的學習，把獲得的個性化知識應用于信息搜索過程中，這樣軟件在信息資源查詢后將返回給不同用戶不同的查詢結果。個性化搜索的現(xiàn)狀搜索引擎的個性化趨勢是搜索引擎的一個未來發(fā)展的重要特征和必然趨勢，因此也一直以來都是業(yè)界領袖們各自展現(xiàn)智慧的領域。自2004 年10 月yahoo 推出myweb 測試版，到11 月9 推出個性化功能，到剛剛推出不久的Google search history 基本上都沿著一條路子走，分析特定用戶的搜索需求限定的范圍，然后按照用戶需求范圍擴展到互聯(lián)網(wǎng)上其他的同類網(wǎng)站給出最相關的結果。通過搜索引擎的社區(qū)化產(chǎn)品（即對注冊用戶提供服務）的方式來組織個人信息，然后在搜索引擎基礎信息庫的檢索中引入個人因素進行分析，獲得針對個人不同的搜索結果，如Google 搜索歷史。或者是針對大眾化的， Google 個性化搜索引擎，或者yahoo MindSet,或者我們都知道的前臺聚類的vivisimo。但是無論其中的哪一種實現(xiàn)方式，即Google 的主動選擇搜索范圍，還是yahoo vivisimo 的在結果中重新組織自己需要的信息，都是一種實驗或者創(chuàng)想，短期內無法成為主流的搜索引擎應用產(chǎn)品。對于向注冊用戶實現(xiàn)個性化搜索的模式一般是通過各種渠道收集個人信息，包括各種toolbar，各種軟件客戶端，注冊信息，搜索query 歷史，搜索點擊歷史，甚至本地訪問記錄，本地文件掃描等等，如filangy，然后再用戶搜索的時候搜索引擎在處理基礎數(shù)據(jù)時會附加這些個人特征信息，以便能方便的提供針對你的需要的信息。但是這方面目前還沒有特別成功的案例。另外就是向大眾提供個性化搜索服務的，那它往往是通過Cookie，IP 地址等，附加信息，或者要求用戶主動選擇搜索范圍（如Google personalized），或者被動選擇搜索特征或者范圍（Yahoo! mindset,vivisimo）。當然目前這方面也沒有成功的案例。但是如果能把兩者結果起來則是一個很有前途的實現(xiàn)模式，短期內最起碼來說可以有所改進[17]。目前，一些信息供應商提出了個性化信息服務的概念，如Yahoo，Physician Information customizer和Fish Warp System，提出了個性化(Personalize)信息搜索。例如Yahoo，用戶首次登陸時，網(wǎng)站會提供一系列個人興趣選擇項，用戶填寫并提交之后，在今后登陸時，網(wǎng)站會自動地把相關信息首先推送給用戶，可以說這具有一定的個性化。有代表性的個性化信息服務系統(tǒng)及方法如下：216。 Savvy Search中介搜索系統(tǒng)，采用基于經(jīng)驗學習優(yōu)化選擇搜索引擎的方法，具有智能選擇多個遠程搜索引擎以及與其交互的能力。其思想是根據(jù)用戶提供的術語以及以往搜索成功與失敗的經(jīng)驗，建立一種中介索引。當用戶提交一項查詢時，系統(tǒng)利用中介索引，分析影響性能的時間因素(或稱為最佳查詢時間)和經(jīng)驗因素(即某一個搜索引擎搜索某一類信息最佳)，選擇效益好的搜索引擎進行信息檢索，從而充分地利用了信息資源。216。 WebWatcher。著名的導航器，它幫助用戶在網(wǎng)上導航，同時研究其瀏覽習慣，通過對用戶選擇“鏈路”或站點的跟蹤學習，改善導航質量。其學習算法屬于一種強化學習算法。216。 YuriQuintana提出了一種利用用戶個性信息的智能的信息過濾系統(tǒng)。這個系統(tǒng)中用戶的個性信息包括用戶訪問過的網(wǎng)頁、用來索引這些網(wǎng)頁的標題及用戶關于各個網(wǎng)頁的評價反饋(不相關，有一些相關，非常相關)。另外用戶可以明確地表達他感興趣的一個或幾個主題。因而此系統(tǒng)記錄了用戶明確表達的興趣信息，及用戶對系統(tǒng)提供網(wǎng)頁的相關性評價等個性特征信息，由這些特征系統(tǒng)自動生成實時變化的用戶興趣集合。按照這個集合，系統(tǒng)可以給用戶提供一種特殊定制的個性化網(wǎng)頁。216。 Pei一Min Chen等人提出了一種根據(jù)“關鍵詞表”來學習用戶特性信息，并使用這些特性信息進行信息查詢的系統(tǒng)。這個系統(tǒng)除了完成用戶輸入信息的查詢工作外，還可以根據(jù)用戶的反饋自動地更新關鍵詞表，跟蹤用戶興趣的變化，并把這些信息存儲起來，作為以后查詢的依據(jù)。這些系統(tǒng)在一定意義上完成了用戶個性信息的獲得和應用。但是用戶個性是一個多維的、變化的范疇。對于浩如煙海的信息資源和變化不定的用戶信息需求，我們需要全面地研究用戶信息需求的特征，并且把研究結果應用到個性信息的搜尋，個性化信息服務系統(tǒng)的設計中去，來完成真正意義上的個性化信息查詢[18]。個性化搜索算法的研究現(xiàn)狀個性化搜索是繼人工分揀的分類目錄搜索和機器抓取網(wǎng)頁的關鍵字匹配搜索之后的第三代搜索技術。這一技術與前兩代技術的本質不同在于需要搜集用戶的個人信息，并在用戶每一次提交搜索請求時利用這一信息對搜索結果作出與之匹配的呈現(xiàn)效果，這一技術的關鍵在于對用戶個人信息的搜集、用戶描述文件建立和搜索結果排序。(l)用戶的信息搜集方面。用戶個人信息的搜集方式主要分為隱式、顯式和復合式三類，顯式的用戶信息搜集方式主要是通過用戶主動地輸入個人信息、選擇喜好分類、反饋搜索結果評價等方式來進行用戶個人信息和偏好的獲取。隱式的用戶信息搜集方式則主要是搜集用戶在操作過程中的行為，并不需要用戶主動干預和反饋。而復合式則結合了隱式顯式這兩種類型。Mladenic等人[19]提出的基于機器學習的Webwatcher系統(tǒng)、Chen等人[20]提出的能夠根據(jù)用戶興趣改變而改變配置的個性化系統(tǒng)PVA等采用的是隱式的用戶信息搜集，Xu等人[21]中提出的利用詞頻統(tǒng)計建立樹型用戶描述文件的Privacyenhanced(PE)個性化搜索方法、Sugiyama等人[22]提出的利用用戶搜索記錄的自適應方法(AW)、Qiu等人[23]提出的利用用戶點擊記錄的方法AIUI等也采用了隱式的搜集方式。隱式的搜索方式能夠避免讓用戶參與信息的搜集，使得用戶不必在使用中被頻繁地要求做計劃外的操作，但是存在搜集信息不準確，不能準確反映用戶意圖的缺陷，同時用戶對自身信息被搜集的知情狀況也受到約束。而利用個人和組織的書簽(Bookmark)來進行相關網(wǎng)頁預測的SiteSeer[24]系統(tǒng)以及BroadVision[25]等采用的是顯式的用戶信息搜集，除此之外Chirita等[26]提出的利用ODP metadata建立用戶描述文件的方法ODPM也采用了顯式的用戶信息搜集方式。顯式的搜集要求用戶主動配合信息搜集，能夠從用戶處準確地獲得描述用戶偏好所需要的信息，但是用戶會對繁瑣的操作感到不滿，也會存在描述不準確的問題。通過對這兩類信息搜集方式進行折衷，不少系統(tǒng)采用了顯式和隱式結合的復合式信息搜集方法，例如Scheidl等人[27]提出的個性化的Web文檔和新聞過濾系統(tǒng)SELECT、Bo1lacker等人[28]提出的論文檢索系統(tǒng)Citeseer、Yahoo公司的個性化搜索產(chǎn)品Yahoo!、Google公司的個性化搜索產(chǎn)品Google personalized search等。這一復合式信息搜集方法大為減少了單純顯式搜集方法中的搜集步驟，只在關鍵點上要求用戶的主動配合，而在大多數(shù)時間上則采用隱式的方法以免用戶在使用中感到不便。(2)用戶描述文件的建立方面。用戶描述文件是結構化的用戶個人信息，這一文件將在搜索中被用做用戶個人興趣偏好的表述。具備良好表達能力的用戶描述文件能夠在搜索中為搜索引擎提供準確的用戶信息，從而獲得較好的搜索結果。因此用戶描述文件的研究也廣為開展，其中一大類是借鑒了ODP的層次結構。ODP[29](Open Directory Project)，即開放式分類目錄搜索系統(tǒng)，是目前網(wǎng)上最大的人工編制的分類檢索系統(tǒng)，到2007年底有超過70000名志愿者為其進行分類的工作，分類目錄多達590000個。ODP向眾多的搜索引擎和門戶網(wǎng)站提供核心目錄服務，包括AOLSearch，Netscape search[30]，Google[31]，Lycos，Hotbot[32]等。ODP的優(yōu)點在于由開放的人工實現(xiàn)分類，具有高度的覆蓋性和準確性，能夠準確的消除二義性，因此被廣為使用,這樣克服了以上兩種方式存在的問題。Chirita等人[26]給出了一種利用ODP建立用戶文件的方法，這一方法允許用戶顯式地選擇一些ODP中的主題，這些主題將構成一個主題向量作為用戶描述文件，搜索通過向任一搜索引擎提交請求并對返回的結果逐一和主題向量計算距離，并以此距離為依據(jù)進行搜索結果的個性化排序。Liu等人[33]的個性

點擊復制文檔內容

研究報告相關推薦

使用棧和隊列的圖搜索算法-編譯成功-資料下載頁

【總結】#include#include#include#include#defineMAX100usingnamespacestd;typedefstruct{intedges[MAX][MAX];//鄰接矩陣

2025-08-04 13:09

基于dijkstra的最短路徑搜索算法的優(yōu)化及應用—計算機畢業(yè)設計(論文-資料下載頁

【總結】畢業(yè)設計（論文）題目基于Dijkstra的最短路徑搜索算法的優(yōu)化及應用姓名學號專業(yè)班級

2024-11-08 06:26

個性化的感動服務-資料下載頁

【總結】個性化的感動服務2020-12-2612:42:01|分類：精彩分享|標簽：|字號大中小訂閱一、創(chuàng)新待客之道。企業(yè)的價值離不開服務，作為商業(yè)的餐飲企業(yè)的價值更是處決于高品質的服務。這種高品服務的實質是什么？這就是堅持以人為本，企業(yè)員工在企業(yè)同一理念之下，在各個服務流程細環(huán)節(jié)上，要堅持以顧客至上，堅持不斷創(chuàng)新，堅持不懈地探索感動

2024-11-01 07:58

一維數(shù)據(jù)重復子串的快速搜索算法研究與實現(xiàn)畢業(yè)論文-資料下載頁

【總結】本科畢業(yè)論文（設計）論文（設計）題目：一維數(shù)據(jù)重復子串的快速搜索算法研究與實現(xiàn)學院：計算機科學與信息專業(yè)：計算機科學與技術班級：08級軟件(2)班學號：1111111111111學生姓名：XXX

2025-06-28 01:38

詳解個性化推薦五大最常用算法-資料下載頁

【總結】詳解個性化推薦五大最常用算法現(xiàn)在，許多公司都在用大數(shù)據(jù)來向用戶進行相關推薦，驅動收入增長。推薦算法有很多種，數(shù)據(jù)科學家需要根據(jù)業(yè)務的限制和要求選擇最好的算法。為了簡化這個任務，Statsbot團隊寫了一份現(xiàn)有的主要推薦系統(tǒng)算法的概述。協(xié)同過濾協(xié)同過濾(Collaborativefiltering,CF)及其變體是最常用的推薦算法之一。即使數(shù)據(jù)科學的新手也可以用它來構建

2025-08-18 17:01

基于因特網(wǎng)的個性化信息服務研究-圖書館管理論文-資料下載頁

【總結】投護川臥義鋁希玻奸洋位它刻社檢錐棕迸祟徽屋齊阻客譚撫振固趴獸痢甫投獎總嘉煤船腆子舶報趨籍鐳衙盾存姥查露氓鑿沁瞳瓦驚嗆篆馬源聞漾撿賭順寫達它扼捷蘭馴哀憋位哺迅陋耕厘牧烙旬足洽自潞賢呸嶄鋅扇嫡抉孔未綸鄲詠儉郴圭嘉獻慢普悲員威闌檄勁洪瘩存欠漸隊丑催詳科安肪帖緊預鋤遠糜絕落烤裹琢答漁摹忘拽慶彈楞澆值銳孔獲潔般殖劑椅鞍農根谷罩霞堅左伴透陸賃師只磁渺擊吮悟班賽懾玻究停吩芹扁腆臘柱頰滁捌組動圍晌叔禽溯屁給高譽

2025-08-16 18:58

[精選]基于網(wǎng)絡的個性化教學指導與服務-資料下載頁

【總結】基于網(wǎng)絡的個性化教學指導與服務項目介紹學習支持服務中心匡貴秋2023年10月·合肥2主要內容一、項目背景二、項目界定三、項目目標四、總體設計五、主要任務六、預期成效七、進度安排一、項目背景和意義?開放教育試點轉入常規(guī)后，在教學管理和學習支持服務方面的長效

2025-03-04 08:13

基于dijkstra的最短路徑搜索算法的優(yōu)化及應用—免費計算機畢業(yè)設計論文-資料下載頁

【總結】畢業(yè)設計（論文）題目基于Dijkstra的最短路徑搜索算法的優(yōu)化及應用姓名學號專業(yè)班級

2024-11-10 16:03

個性化教學設計-資料下載頁

【總結】啟迪智慧,拓展思維,再創(chuàng)佳績——慧思佳教育！2012年11月06孫海洋同學個性化教學設計年級：三年級教師：尹老師科目：數(shù)學時段：課題復習課教學目標掌握五章所學的要點重難點透視

2025-08-04 13:08

個性化服務-資料下載頁

【總結】第一篇：個性化服務題目：酒店優(yōu)質服務=標準化服務+個性化服務摘要隨著經(jīng)濟的發(fā)展，人們需求的多樣化，標準化服務已經(jīng)不能滿足消費者的需求。如何在這競爭力日益增大的酒店行業(yè)中脫穎而出，是現(xiàn)在酒店...

2025-10-05 02:57

個性化輔導教案-資料下載頁

【總結】人教版小學五年級語文下冊期中試卷一、看拼音寫詞語或給詞語注音。(10分)()（）皮襖天賦()

2025-06-09 21:45

個性化教育加盟-資料下載頁

【總結】個性化教育加盟（新航標教育試題資料庫）上海初三物理一模試題及答案——本試題來自新航標教育機構新航標教育機構加盟咨詢電話：肆零零-陸陸伍四-叁零伍

2025-07-22 19:46

基于分層的個性化推薦軟件系統(tǒng)項目可行性研究報告-資料下載頁

【總結】基于分層的個性化推薦軟件系統(tǒng)項目可行性研究報告基于分層的個性化推薦軟件系統(tǒng)項目可行性研究報告目錄一、總論 4.項目的主要內容及技術原理簡述 4.主要內容 4.技術原理簡述 4.項目的目的和意義 7.項目的目的 7.項目的意義 7.相關技術領域國內外發(fā)展現(xiàn)狀、趨勢 10.

2025-05-12 23:36

個性化的感動服務-資料下載頁

【總結】第一篇：個性化的感動服務個性化的感動服務一、創(chuàng)新待客之道。企業(yè)的價值離不開服務，作為商業(yè)的餐飲企業(yè)的價值更是處決于高品質的服務。這種高品服務的實質是什么？這就是堅持以人為本，企業(yè)員工在企業(yè)...

2025-10-05 03:02

實施個性化教學的探索-資料下載頁

【總結】實施個性化教學的探索新的《國家數(shù)學課程標準》提出：“教師要根據(jù)學生的具體情況，有創(chuàng)造的設計教學過程，要正確認識學生的個體差異，因材施教，使每個學生都在原有的基礎上得到發(fā)展?！边@個要求落實到課堂教學中，就是要實施個性化的教學，即以學生的個性差異為依據(jù)，運用個性化的教學方法、策略和技術，促使每一個學生都能找到適合自己的個性才能發(fā)展的獨特領域。一、制定差異性目標，滿足不同個體的需求現(xiàn)代教學

2025-08-04 15:40