【文章內(nèi)容簡(jiǎn)介】
的實(shí)際文檔的集合。則查準(zhǔn)率是既相關(guān)又被檢索到的實(shí)際文檔與檢索到的文檔的百分比,而查全率是既相關(guān)又被檢索到的實(shí)際文檔與查詢(xún)相關(guān)的文檔的百分比。由于查準(zhǔn)率和查全率反映的是算法或系統(tǒng)分類(lèi)質(zhì)量的兩個(gè)不同方面,所以人們又提出了一種綜合評(píng)價(jià)指標(biāo),來(lái)衡量算法的綜合效率,如公式綜合效率=(Precision*Recall*2)/(Precision+Recall)這樣,在性能效率的評(píng)價(jià)中,就可以利用變化表定義的搜索特征進(jìn)行評(píng)價(jià)。但是,評(píng)價(jià)搜索引擎效率,不能依靠單個(gè)搜索特征,有時(shí)即使知道各個(gè)特征值,也不能準(zhǔn)確評(píng)價(jià)搜索引擎的性能。此外搜索引擎系統(tǒng)的其它衡量指標(biāo)還有響應(yīng)時(shí)間、支持峰值查詢(xún)的能力、易用性、返回結(jié)果的有效性(是否為死鏈、過(guò)時(shí)信息)等等。影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息搜集策略和檢索模型,包括索引庫(kù)的更新頻率和策略、文檔和查詢(xún)的表示方法、評(píng)價(jià)文檔和用戶(hù)查詢(xún)相關(guān)性的匹配策略、查詢(xún)結(jié)果的排序方法和用戶(hù)進(jìn)行相關(guān)度反饋的機(jī)制。 搜索引擎存在的主要問(wèn)題隨著Internet的發(fā)展和普及,搜索引擎已經(jīng)成為了國(guó)際互連網(wǎng)上一個(gè)重要的應(yīng)用,人們?cè)絹?lái)越依賴(lài)于搜索引擎所提供的服務(wù)。但因?yàn)槠谕档牟粩嘣黾雍退阉饕婕夹g(shù)的制約等方面的原因,人們對(duì)搜索引擎的滿(mǎn)意度在逐漸降低。綜合而言,主要有以下問(wèn)題:216。 搜索的精度不高。有時(shí)返回太多的信息,其中包含大量的不相關(guān)的信息,需要用戶(hù)自己判斷哪些有用,哪些沒(méi)用。216。 排列無(wú)序問(wèn)題。一個(gè)查詢(xún)返回的結(jié)果可能有數(shù)千條,與用戶(hù)需求最相關(guān)的信息可能排在最后。用戶(hù)很難有耐心把所有的網(wǎng)頁(yè)都打開(kāi)一遍,以判斷哪些結(jié)果有用。這是由于除了導(dǎo)航站點(diǎn)外的搜索引擎一般采用全文檢索的模式,即對(duì)整個(gè)網(wǎng)頁(yè)進(jìn)行掃描,只要在網(wǎng)頁(yè)上有匹配的詞語(yǔ)就把網(wǎng)頁(yè)作為查詢(xún)結(jié)果返回。檢索完全依賴(lài)于用戶(hù)所給的關(guān)鍵字,系統(tǒng)與用戶(hù)間并無(wú)進(jìn)一步的交互。216。 效率有待提高。用戶(hù)在進(jìn)行息檢索時(shí),都需要登陸到一個(gè)特定的引擎或是網(wǎng)站,而發(fā)出請(qǐng)求之后又需要耐心的等待,在一定程度上浪費(fèi)了用戶(hù)的時(shí)間。216。 沒(méi)有針對(duì)不同用戶(hù)的個(gè)性化的信息搜索服務(wù)。即不同用戶(hù),針對(duì)同一個(gè)關(guān)鍵詞所提出的搜索請(qǐng)求,返回的結(jié)果是相同的。 小結(jié)本章在介紹搜索引擎的類(lèi)型基礎(chǔ)上,指出了本文研究的對(duì)象為基于網(wǎng)絡(luò)蜘蛛的搜索引擎,在介紹了搜索引擎的體系結(jié)構(gòu)和工作流程以及評(píng)價(jià)的性能指標(biāo)后,分析了現(xiàn)有搜索引擎存在的主要問(wèn)題。針對(duì)當(dāng)前搜索引擎存在的問(wèn)題,不難看出只有實(shí)現(xiàn)信息服務(wù)的個(gè)性化,使用用戶(hù)的個(gè)性信息去收集信息、整理信息、排列信息,才能做到提高搜索精度,節(jié)約用戶(hù)獲得信息的時(shí)間。而要真正實(shí)現(xiàn)個(gè)性化的信息服務(wù),就應(yīng)該對(duì)用戶(hù)的瀏覽習(xí)慣、個(gè)人愛(ài)好、知識(shí)領(lǐng)域、學(xué)術(shù)領(lǐng)域及工作領(lǐng)域進(jìn)行研究、分類(lèi)。由于個(gè)人在日常的工作生活中接觸到越來(lái)越多的信息資源,也需要用越來(lái)越多的信息為工作及決策服務(wù),因而怎樣應(yīng)用信息技術(shù)為用戶(hù)提供個(gè)性化的信息服務(wù)越來(lái)越引起信息工作者的重視。而個(gè)性化搜索的關(guān)鍵是用戶(hù)個(gè)性特征信息的獲取、表示、轉(zhuǎn)換和應(yīng)用。把現(xiàn)有的信息技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、知識(shí)發(fā)現(xiàn)技術(shù)、人工智能、機(jī)器學(xué)習(xí)技術(shù)等新興技術(shù)結(jié)合起來(lái)學(xué)習(xí)用戶(hù)信息需求的個(gè)性特征,服務(wù)于用戶(hù)的信息需求、信息管理。進(jìn)一步把個(gè)人信息轉(zhuǎn)化為知識(shí),完成個(gè)性化的知識(shí)發(fā)現(xiàn)、知識(shí)管理、知識(shí)應(yīng)用[16]。這決定了都是本文進(jìn)行個(gè)性化搜索算法研究要解決的問(wèn)題。第三章 個(gè)性化搜索算法研究 個(gè)性的定義對(duì)于個(gè)性有以下幾種解釋?zhuān)?16。 個(gè)性是心理學(xué)名詞。指?jìng)€(gè)人特有的心理特性,其中包括遺傳的及學(xué)習(xí)的種種特質(zhì)。216。 個(gè)性指一個(gè)人區(qū)別于其他人的比較固定的特性。216。 個(gè)性是指一事物區(qū)別于其他事物的個(gè)別的、特殊的性質(zhì)。如矛盾的普遍性和矛盾的特殊性的關(guān)系,就是矛盾的共性和個(gè)性的關(guān)系。一毛澤東《矛盾論》。216。 在美國(guó)傳統(tǒng)詞典(雙解)中個(gè)性指Individuality。英文意思是The aggregate of qualities and characteristics that distinguish one person or thing from others; character。強(qiáng)調(diào)作為個(gè)體的人或事物與其他人或事物不同的性質(zhì)和特點(diǎn)。獨(dú)特性。216。 個(gè)性的另外一個(gè)英文對(duì)應(yīng)詞是Persnoality。主要有三方面含義:(1)The totality of qualities and traits,as of character or behavior,that are peculiar to a specific pesron。人格品質(zhì)和性格的總稱(chēng),包括個(gè)性或行為,特別是特指的人。(2)The pattern of collective character,behavioral,tempermaental,emotional,and mental traits of a person。個(gè)性指?jìng)€(gè)人聚集的品質(zhì)、行為、脾氣、情緒和精神的性格模式。(3)Distinctive qualities of a person,especially those distinguishing personal characteristics that make one socially appealing。人品個(gè)人獨(dú)特的品質(zhì),特別是那些有區(qū)別性的、使某人具有社交魅力的個(gè)人性格。簡(jiǎn)單的說(shuō),個(gè)性即差異,本意是指?jìng)€(gè)人特有的能力、氣質(zhì)、興趣、性格等心理特性的總和。它是在一定社會(huì)環(huán)境和教育的影響下,通過(guò)長(zhǎng)期的社會(huì)實(shí)踐逐漸形成和發(fā)展起來(lái)的,從哲學(xué)范疇來(lái)講,個(gè)性與“共性”是相對(duì)的,是指一事物區(qū)別于其它事物的個(gè)別的、特殊的性質(zhì)。例如,一個(gè)網(wǎng)站的個(gè)性,是指它區(qū)別于其它網(wǎng)站的標(biāo)志。 個(gè)性化搜索定義真正意義上的搜索個(gè)性化是在相同或是相近的信息資源中,對(duì)兩個(gè)不同用戶(hù)的相似要求,通過(guò)軟件對(duì)用戶(hù)個(gè)性特征的學(xué)習(xí),把獲得的個(gè)性化知識(shí)應(yīng)用于信息搜索過(guò)程中,這樣軟件在信息資源查詢(xún)后將返回給不同用戶(hù)不同的查詢(xún)結(jié)果。 個(gè)性化搜索的現(xiàn)狀搜索引擎的個(gè)性化趨勢(shì)是搜索引擎的一個(gè)未來(lái)發(fā)展的重要特征和必然趨勢(shì),因此也一直以來(lái)都是業(yè)界領(lǐng)袖們各自展現(xiàn)智慧的領(lǐng)域。自2004 年10 月yahoo 推出myweb 測(cè)試版,到11 月9 推出個(gè)性化功能,到剛剛推出不久的Google search history 基本上都沿著一條路子走,分析特定用戶(hù)的搜索需求限定的范圍,然后按照用戶(hù)需求范圍擴(kuò)展到互聯(lián)網(wǎng)上其他的同類(lèi)網(wǎng)站給出最相關(guān)的結(jié)果。通過(guò)搜索引擎的社區(qū)化產(chǎn)品(即對(duì)注冊(cè)用戶(hù)提供服務(wù))的方式來(lái)組織個(gè)人信息,然后在搜索引擎基礎(chǔ)信息庫(kù)的檢索中引入個(gè)人因素進(jìn)行分析,獲得針對(duì)個(gè)人不同的搜索結(jié)果,如Google 搜索歷史。或者是針對(duì)大眾化的, Google 個(gè)性化搜索引擎,或者yahoo MindSet,或者我們都知道的前臺(tái)聚類(lèi)的vivisimo。但是無(wú)論其中的哪一種實(shí)現(xiàn)方式,即Google 的主動(dòng)選擇搜索范圍,還是yahoo vivisimo 的在結(jié)果中重新組織自己需要的信息,都是一種實(shí)驗(yàn)或者創(chuàng)想,短期內(nèi)無(wú)法成為主流的搜索引擎應(yīng)用產(chǎn)品。對(duì)于向注冊(cè)用戶(hù)實(shí)現(xiàn)個(gè)性化搜索的模式一般是通過(guò)各種渠道收集個(gè)人信息,包括各種toolbar,各種軟件客戶(hù)端,注冊(cè)信息,搜索query 歷史,搜索點(diǎn)擊歷史,甚至本地訪(fǎng)問(wèn)記錄,本地文件掃描等等,如filangy,然后再用戶(hù)搜索的時(shí)候搜索引擎在處理基礎(chǔ)數(shù)據(jù)時(shí)會(huì)附加這些個(gè)人特征信息,以便能方便的提供針對(duì)你的需要的信息。但是這方面目前還沒(méi)有特別成功的案例。另外就是向大眾提供個(gè)性化搜索服務(wù)的,那它往往是通過(guò)Cookie,IP 地址等,附加信息,或者要求用戶(hù)主動(dòng)選擇搜索范圍(如Google personalized),或者被動(dòng)選擇搜索特征或者范圍(Yahoo! mindset,vivisimo)。當(dāng)然目前這方面也沒(méi)有成功的案例。但是如果能把兩者結(jié)果起來(lái)則是一個(gè)很有前途的實(shí)現(xiàn)模式,短期內(nèi)最起碼來(lái)說(shuō)可以有所改進(jìn)[17]。目前,一些信息供應(yīng)商提出了個(gè)性化信息服務(wù)的概念,如Yahoo,Physician Information customizer和Fish Warp System,提出了個(gè)性化(Personalize)信息搜索。例如Yahoo,用戶(hù)首次登陸時(shí),網(wǎng)站會(huì)提供一系列個(gè)人興趣選擇項(xiàng),用戶(hù)填寫(xiě)并提交之后,在今后登陸時(shí),網(wǎng)站會(huì)自動(dòng)地把相關(guān)信息首先推送給用戶(hù),可以說(shuō)這具有一定的個(gè)性化。有代表性的個(gè)性化信息服務(wù)系統(tǒng)及方法如下:216。 Savvy Search中介搜索系統(tǒng),采用基于經(jīng)驗(yàn)學(xué)習(xí)優(yōu)化選擇搜索引擎的方法,具有智能選擇多個(gè)遠(yuǎn)程搜索引擎以及與其交互的能力。其思想是根據(jù)用戶(hù)提供的術(shù)語(yǔ)以及以往搜索成功與失敗的經(jīng)驗(yàn),建立一種中介索引。當(dāng)用戶(hù)提交一項(xiàng)查詢(xún)時(shí),系統(tǒng)利用中介索引,分析影響性能的時(shí)間因素(或稱(chēng)為最佳查詢(xún)時(shí)間)和經(jīng)驗(yàn)因素(即某一個(gè)搜索引擎搜索某一類(lèi)信息最佳),選擇效益好的搜索引擎進(jìn)行信息檢索,從而充分地利用了信息資源。216。 WebWatcher。著名的導(dǎo)航器,它幫助用戶(hù)在網(wǎng)上導(dǎo)航,同時(shí)研究其瀏覽習(xí)慣,通過(guò)對(duì)用戶(hù)選擇“鏈路”或站點(diǎn)的跟蹤學(xué)習(xí),改善導(dǎo)航質(zhì)量。其學(xué)習(xí)算法屬于一種強(qiáng)化學(xué)習(xí)算法。216。 YuriQuintana提出了一種利用用戶(hù)個(gè)性信息的智能的信息過(guò)濾系統(tǒng)。這個(gè)系統(tǒng)中用戶(hù)的個(gè)性信息包括用戶(hù)訪(fǎng)問(wèn)過(guò)的網(wǎng)頁(yè)、用來(lái)索引這些網(wǎng)頁(yè)的標(biāo)題及用戶(hù)關(guān)于各個(gè)網(wǎng)頁(yè)的評(píng)價(jià)反饋(不相關(guān),有一些相關(guān),非常相關(guān))。另外用戶(hù)可以明確地表達(dá)他感興趣的一個(gè)或幾個(gè)主題。因而此系統(tǒng)記錄了用戶(hù)明確表達(dá)的興趣信息,及用戶(hù)對(duì)系統(tǒng)提供網(wǎng)頁(yè)的相關(guān)性評(píng)價(jià)等個(gè)性特征信息,由這些特征系統(tǒng)自動(dòng)生成實(shí)時(shí)變化的用戶(hù)興趣集合。按照這個(gè)集合,系統(tǒng)可以給用戶(hù)提供一種特殊定制的個(gè)性化網(wǎng)頁(yè)。216。 Pei一Min Chen等人提出了一種根據(jù)“關(guān)鍵詞表”來(lái)學(xué)習(xí)用戶(hù)特性信息,并使用這些特性信息進(jìn)行信息查詢(xún)的系統(tǒng)。這個(gè)系統(tǒng)除了完成用戶(hù)輸入信息的查詢(xún)工作外,還可以根據(jù)用戶(hù)的反饋?zhàn)詣?dòng)地更新關(guān)鍵詞表,跟蹤用戶(hù)興趣的變化,并把這些信息存儲(chǔ)起來(lái),作為以后查詢(xún)的依據(jù)。這些系統(tǒng)在一定意義上完成了用戶(hù)個(gè)性信息的獲得和應(yīng)用。但是用戶(hù)個(gè)性是一個(gè)多維的、變化的范疇。對(duì)于浩如煙海的信息資源和變化不定的用戶(hù)信息需求,我們需要全面地研究用戶(hù)信息需求的特征,并且把研究結(jié)果應(yīng)用到個(gè)性信息的搜尋,個(gè)性化信息服務(wù)系統(tǒng)的設(shè)計(jì)中去,來(lái)完成真正意義上的個(gè)性化信息查詢(xún)[18]。 個(gè)性化搜索算法的研究現(xiàn)狀個(gè)性化搜索是繼人工分揀的分類(lèi)目錄搜索和機(jī)器抓取網(wǎng)頁(yè)的關(guān)鍵字匹配搜索之后的第三代搜索技術(shù)。這一技術(shù)與前兩代技術(shù)的本質(zhì)不同在于需要搜集用戶(hù)的個(gè)人信息,并在用戶(hù)每一次提交搜索請(qǐng)求時(shí)利用這一信息對(duì)搜索結(jié)果作出與之匹配的呈現(xiàn)效果,這一技術(shù)的關(guān)鍵在于對(duì)用戶(hù)個(gè)人信息的搜集、用戶(hù)描述文件建立和搜索結(jié)果排序。(l)用戶(hù)的信息搜集方面。用戶(hù)個(gè)人信息的搜集方式主要分為隱式、顯式和復(fù)合式三類(lèi),顯式的用戶(hù)信息搜集方式主要是通過(guò)用戶(hù)主動(dòng)地輸入個(gè)人信息、選擇喜好分類(lèi)、反饋搜索結(jié)果評(píng)價(jià)等方式來(lái)進(jìn)行用戶(hù)個(gè)人信息和偏好的獲取。隱式的用戶(hù)信息搜集方式則主要是搜集用戶(hù)在操作過(guò)程中的行為,并不需要用戶(hù)主動(dòng)干預(yù)和反饋。而復(fù)合式則結(jié)合了隱式顯式這兩種類(lèi)型。Mladenic等人[19]提出的基于機(jī)器學(xué)習(xí)的Webwatcher系統(tǒng)、Chen等人[20]提出的能夠根據(jù)用戶(hù)興趣改變而改變配置的個(gè)性化系統(tǒng)PVA等采用的是隱式的用戶(hù)信息搜集,Xu等人[21]中提出的利用詞頻統(tǒng)計(jì)建立樹(shù)型用戶(hù)描述文件的Privacyenhanced(PE)個(gè)性化搜索方法、Sugiyama等人[22]提出的利用用戶(hù)搜索記錄的自適應(yīng)方法(AW)、Qiu等人[23]提出的利用用戶(hù)點(diǎn)擊記錄的方法AIUI等也采用了隱式的搜集方式。隱式的搜索方式能夠避免讓用戶(hù)參與信息的搜集,使得用戶(hù)不必在使用中被頻繁地要求做計(jì)劃外的操作,但是存在搜集信息不準(zhǔn)確,不能準(zhǔn)確反映用戶(hù)意圖的缺陷,同時(shí)用戶(hù)對(duì)自身信息被搜集的知情狀況也受到約束。而利用個(gè)人和組織的書(shū)簽(Bookmark)來(lái)進(jìn)行相關(guān)網(wǎng)頁(yè)預(yù)測(cè)的SiteSeer[24]系統(tǒng)以及BroadVision[25]等采用的是顯式的用戶(hù)信息搜集,除此之外Chirita等[26]提出的利用ODP metadata建立用戶(hù)描述文件的方法ODPM也采用了顯式的用戶(hù)信息搜集方式。顯式的搜集要求用戶(hù)主動(dòng)配合信息搜集,能夠從用戶(hù)處準(zhǔn)確地獲得描述用戶(hù)偏好所需要的信息,但是用戶(hù)會(huì)對(duì)繁瑣的操作感到不滿(mǎn),也會(huì)存在描述不準(zhǔn)確的問(wèn)題。通過(guò)對(duì)這兩類(lèi)信息搜集方式進(jìn)行折衷,不少系統(tǒng)采用了顯式和隱式結(jié)合的復(fù)合式信息搜集方法,例如Scheidl等人[27]提出的個(gè)性化的Web文檔和新聞過(guò)濾系統(tǒng)SELECT、Bo1lacker等人[28]提出的論文檢索系統(tǒng)Citeseer、Yahoo公司的個(gè)性化搜索產(chǎn)品Yahoo!、Google公司的個(gè)性化搜索產(chǎn)品Google personalized search等。這一復(fù)合式信息搜集方法大為減少了單純顯式搜集方法中的搜集步驟,只在關(guān)鍵點(diǎn)上要求用戶(hù)的主動(dòng)配合,而在大多數(shù)時(shí)間上則采用隱式的方法以免用戶(hù)在使用中感到不便。(2)用戶(hù)描述文件的建立方面。用戶(hù)描述文件是結(jié)構(gòu)化的用戶(hù)個(gè)人信息,這一文件將在搜索中被用做用戶(hù)個(gè)人興趣偏好的表述。具備良好表達(dá)能力的用戶(hù)描述文件能夠在搜索中為搜索引擎提供準(zhǔn)確的用戶(hù)信息,從而獲得較好的搜索結(jié)果。因此用戶(hù)描述文件的研究也廣為開(kāi)展,其中一大類(lèi)是借鑒了ODP的層次結(jié)構(gòu)。ODP[29](Open Directory Project),即開(kāi)放式分類(lèi)目錄搜索系統(tǒng),是目前網(wǎng)上最大的人工編制的分類(lèi)檢索系統(tǒng),到2007年底有超過(guò)70000名志愿者為其進(jìn)行分類(lèi)的工作,分類(lèi)目錄多達(dá)590000個(gè)。ODP向眾多的搜索引擎和門(mén)戶(hù)網(wǎng)站提供核心目錄服務(wù),包括AOLSearch,Netscape search[30],Google[31],Lycos,Hotbot[32]等。ODP的優(yōu)點(diǎn)在于由開(kāi)放的人工實(shí)現(xiàn)分類(lèi),具有高度的覆蓋性和準(zhǔn)確性,能夠準(zhǔn)確的消除二義性,因此被廣為使用,這樣克服了以上兩種方式存在的問(wèn)題。Chirita等人[26]給出了一種利用ODP建立用戶(hù)文件的方法,這一方法允許用戶(hù)顯式地選擇一些ODP中的主題,這些主題將構(gòu)成一個(gè)主題向量作為用戶(hù)描述文件,搜索通過(guò)向任一搜索引擎提交請(qǐng)求并對(duì)返回的結(jié)果逐一和主題向量計(jì)算距離,并以此距離為依據(jù)進(jìn)行搜索結(jié)果的個(gè)性化排序。Liu等人[33]的個(gè)性