freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學(xué)]基于xml的個(gè)性化搜索算法研究-文庫吧資料

2025-01-24 13:16本頁面
  

【正文】 的PageRank算法使得每一個(gè)頁面只有一個(gè)評分值,一個(gè)頁面具有較好的質(zhì)量未必意味著在任何搜索中這一頁面都是較好的結(jié)果,存在著得分較高的頁面在某一搜索詞條下內(nèi)容并不與搜索目的緊密相關(guān)的可能,因此Haveliwala等人[43]提出一個(gè)主題敏感的PageRank(Topioc Sensitive PageRank)作為對PageRank算法的一個(gè)擴(kuò)展。馬嶺等人[41]提出一個(gè)加速的PageRank算法,通過定義一個(gè)URL加速因子使得較好的新頁面能快速傳播,修正了PageRank算法中舊頁面有較大機(jī)會(huì)被評為高分的問題。Page等人在文獻(xiàn)[38]中提出了PageRank,通過對一個(gè)頁面包含的鏈接數(shù)和指向該頁面的頁面數(shù)及其PageRank值進(jìn)行計(jì)算來為互聯(lián)網(wǎng)上的頁面評分,在搜索時(shí)得分高的網(wǎng)頁可以被排在列表的前面作為較高質(zhì)量的頁面提供給用戶。(3)搜索結(jié)果排序方面。但是首先這一方法只針對單個(gè)用戶的搜索詞條詞頻統(tǒng)計(jì)進(jìn)行樹狀結(jié)構(gòu)建立,對于詞條含義表達(dá)的準(zhǔn)確性受到制約。Dumais等人[36]提出的方法和Teevan等人[37]提出的方法通過搜集用戶的搜索記錄、訪問記錄、郵件記錄等各種信息,組成胖模式的非結(jié)構(gòu)化的用戶描述文件(rich user profile),在對搜索結(jié)果排序時(shí)還利用歷史訪問記錄中的URL的后三級域名的匹配作為提高某條搜索結(jié)果優(yōu)先度的依據(jù)。但這一方法缺乏層次結(jié)構(gòu),沒有用戶自主控制開放程度的余地。為了避免這一缺陷,Speretta等人[35]挑選了ODP前三層目錄中的若干分類,并根據(jù)搜索歷史為每一層上的結(jié)點(diǎn)進(jìn)行權(quán)重賦值形成一個(gè)定制的帶權(quán)概念層次,以此作為用戶描述文件,搜索時(shí)計(jì)算每個(gè)搜索引擎返回的結(jié)果和用戶文件的相似度來進(jìn)行重排序,從而提供給用戶符合其偏好的結(jié)果。Sieg等人[34]提出的用戶描述文件是基于ODP的本體論概念,在層次結(jié)構(gòu)中每個(gè)結(jié)點(diǎn)都有用戶的興趣分類和興趣分值,并采用活動(dòng)擴(kuò)散的方法來實(shí)現(xiàn)對用戶文件的建立和更新,在一個(gè)條目改動(dòng)之后通過擴(kuò)散使得相應(yīng)的其它分類也獲得相應(yīng)的分值,以達(dá)到活動(dòng)平衡。Chirita等人[26]給出了一種利用ODP建立用戶文件的方法,這一方法允許用戶顯式地選擇一些ODP中的主題,這些主題將構(gòu)成一個(gè)主題向量作為用戶描述文件,搜索通過向任一搜索引擎提交請求并對返回的結(jié)果逐一和主題向量計(jì)算距離,并以此距離為依據(jù)進(jìn)行搜索結(jié)果的個(gè)性化排序。ODP向眾多的搜索引擎和門戶網(wǎng)站提供核心目錄服務(wù),包括AOLSearch,Netscape search[30],Google[31],Lycos,Hotbot[32]等。因此用戶描述文件的研究也廣為開展,其中一大類是借鑒了ODP的層次結(jié)構(gòu)。用戶描述文件是結(jié)構(gòu)化的用戶個(gè)人信息,這一文件將在搜索中被用做用戶個(gè)人興趣偏好的表述。這一復(fù)合式信息搜集方法大為減少了單純顯式搜集方法中的搜集步驟,只在關(guān)鍵點(diǎn)上要求用戶的主動(dòng)配合,而在大多數(shù)時(shí)間上則采用隱式的方法以免用戶在使用中感到不便。顯式的搜集要求用戶主動(dòng)配合信息搜集,能夠從用戶處準(zhǔn)確地獲得描述用戶偏好所需要的信息,但是用戶會(huì)對繁瑣的操作感到不滿,也會(huì)存在描述不準(zhǔn)確的問題。隱式的搜索方式能夠避免讓用戶參與信息的搜集,使得用戶不必在使用中被頻繁地要求做計(jì)劃外的操作,但是存在搜集信息不準(zhǔn)確,不能準(zhǔn)確反映用戶意圖的缺陷,同時(shí)用戶對自身信息被搜集的知情狀況也受到約束。而復(fù)合式則結(jié)合了隱式顯式這兩種類型。用戶個(gè)人信息的搜集方式主要分為隱式、顯式和復(fù)合式三類,顯式的用戶信息搜集方式主要是通過用戶主動(dòng)地輸入個(gè)人信息、選擇喜好分類、反饋搜索結(jié)果評價(jià)等方式來進(jìn)行用戶個(gè)人信息和偏好的獲取。這一技術(shù)與前兩代技術(shù)的本質(zhì)不同在于需要搜集用戶的個(gè)人信息,并在用戶每一次提交搜索請求時(shí)利用這一信息對搜索結(jié)果作出與之匹配的呈現(xiàn)效果,這一技術(shù)的關(guān)鍵在于對用戶個(gè)人信息的搜集、用戶描述文件建立和搜索結(jié)果排序。對于浩如煙海的信息資源和變化不定的用戶信息需求,我們需要全面地研究用戶信息需求的特征,并且把研究結(jié)果應(yīng)用到個(gè)性信息的搜尋,個(gè)性化信息服務(wù)系統(tǒng)的設(shè)計(jì)中去,來完成真正意義上的個(gè)性化信息查詢[18]。這些系統(tǒng)在一定意義上完成了用戶個(gè)性信息的獲得和應(yīng)用。 Pei一Min Chen等人提出了一種根據(jù)“關(guān)鍵詞表”來學(xué)習(xí)用戶特性信息,并使用這些特性信息進(jìn)行信息查詢的系統(tǒng)。按照這個(gè)集合,系統(tǒng)可以給用戶提供一種特殊定制的個(gè)性化網(wǎng)頁。另外用戶可以明確地表達(dá)他感興趣的一個(gè)或幾個(gè)主題。 YuriQuintana提出了一種利用用戶個(gè)性信息的智能的信息過濾系統(tǒng)。其學(xué)習(xí)算法屬于一種強(qiáng)化學(xué)習(xí)算法。 WebWatcher。當(dāng)用戶提交一項(xiàng)查詢時(shí),系統(tǒng)利用中介索引,分析影響性能的時(shí)間因素(或稱為最佳查詢時(shí)間)和經(jīng)驗(yàn)因素(即某一個(gè)搜索引擎搜索某一類信息最佳),選擇效益好的搜索引擎進(jìn)行信息檢索,從而充分地利用了信息資源。 Savvy Search中介搜索系統(tǒng),采用基于經(jīng)驗(yàn)學(xué)習(xí)優(yōu)化選擇搜索引擎的方法,具有智能選擇多個(gè)遠(yuǎn)程搜索引擎以及與其交互的能力。例如Yahoo,用戶首次登陸時(shí),網(wǎng)站會(huì)提供一系列個(gè)人興趣選擇項(xiàng),用戶填寫并提交之后,在今后登陸時(shí),網(wǎng)站會(huì)自動(dòng)地把相關(guān)信息首先推送給用戶,可以說這具有一定的個(gè)性化。但是如果能把兩者結(jié)果起來則是一個(gè)很有前途的實(shí)現(xiàn)模式,短期內(nèi)最起碼來說可以有所改進(jìn)[17]。另外就是向大眾提供個(gè)性化搜索服務(wù)的,那它往往是通過Cookie,IP 地址等,附加信息,或者要求用戶主動(dòng)選擇搜索范圍(如Google personalized),或者被動(dòng)選擇搜索特征或者范圍(Yahoo! mindset,vivisimo)。對于向注冊用戶實(shí)現(xiàn)個(gè)性化搜索的模式一般是通過各種渠道收集個(gè)人信息,包括各種toolbar,各種軟件客戶端,注冊信息,搜索query 歷史,搜索點(diǎn)擊歷史,甚至本地訪問記錄,本地文件掃描等等,如filangy,然后再用戶搜索的時(shí)候搜索引擎在處理基礎(chǔ)數(shù)據(jù)時(shí)會(huì)附加這些個(gè)人特征信息,以便能方便的提供針對你的需要的信息?;蛘呤轻槍Υ蟊娀模?Google 個(gè)性化搜索引擎,或者yahoo MindSet,或者我們都知道的前臺(tái)聚類的vivisimo。自2004 年10 月yahoo 推出myweb 測試版,到11 月9 推出個(gè)性化功能,到剛剛推出不久的Google search history 基本上都沿著一條路子走,分析特定用戶的搜索需求限定的范圍,然后按照用戶需求范圍擴(kuò)展到互聯(lián)網(wǎng)上其他的同類網(wǎng)站給出最相關(guān)的結(jié)果。 個(gè)性化搜索定義真正意義上的搜索個(gè)性化是在相同或是相近的信息資源中,對兩個(gè)不同用戶的相似要求,通過軟件對用戶個(gè)性特征的學(xué)習(xí),把獲得的個(gè)性化知識(shí)應(yīng)用于信息搜索過程中,這樣軟件在信息資源查詢后將返回給不同用戶不同的查詢結(jié)果。它是在一定社會(huì)環(huán)境和教育的影響下,通過長期的社會(huì)實(shí)踐逐漸形成和發(fā)展起來的,從哲學(xué)范疇來講,個(gè)性與“共性”是相對的,是指一事物區(qū)別于其它事物的個(gè)別的、特殊的性質(zhì)。人品個(gè)人獨(dú)特的品質(zhì),特別是那些有區(qū)別性的、使某人具有社交魅力的個(gè)人性格。個(gè)性指個(gè)人聚集的品質(zhì)、行為、脾氣、情緒和精神的性格模式。人格品質(zhì)和性格的總稱,包括個(gè)性或行為,特別是特指的人。 個(gè)性的另外一個(gè)英文對應(yīng)詞是Persnoality。獨(dú)特性。英文意思是The aggregate of qualities and characteristics that distinguish one person or thing from others; character。216。如矛盾的普遍性和矛盾的特殊性的關(guān)系,就是矛盾的共性和個(gè)性的關(guān)系。216。216。 個(gè)性是心理學(xué)名詞。這決定了都是本文進(jìn)行個(gè)性化搜索算法研究要解決的問題。把現(xiàn)有的信息技術(shù)、數(shù)據(jù)庫技術(shù)、知識(shí)發(fā)現(xiàn)技術(shù)、人工智能、機(jī)器學(xué)習(xí)技術(shù)等新興技術(shù)結(jié)合起來學(xué)習(xí)用戶信息需求的個(gè)性特征,服務(wù)于用戶的信息需求、信息管理。由于個(gè)人在日常的工作生活中接觸到越來越多的信息資源,也需要用越來越多的信息為工作及決策服務(wù),因而怎樣應(yīng)用信息技術(shù)為用戶提供個(gè)性化的信息服務(wù)越來越引起信息工作者的重視。針對當(dāng)前搜索引擎存在的問題,不難看出只有實(shí)現(xiàn)信息服務(wù)的個(gè)性化,使用用戶的個(gè)性信息去收集信息、整理信息、排列信息,才能做到提高搜索精度,節(jié)約用戶獲得信息的時(shí)間。即不同用戶,針對同一個(gè)關(guān)鍵詞所提出的搜索請求,返回的結(jié)果是相同的。216。 效率有待提高。檢索完全依賴于用戶所給的關(guān)鍵字,系統(tǒng)與用戶間并無進(jìn)一步的交互。用戶很難有耐心把所有的網(wǎng)頁都打開一遍,以判斷哪些結(jié)果有用。 排列無序問題。有時(shí)返回太多的信息,其中包含大量的不相關(guān)的信息,需要用戶自己判斷哪些有用,哪些沒用。綜合而言,主要有以下問題:216。 搜索引擎存在的主要問題隨著Internet的發(fā)展和普及,搜索引擎已經(jīng)成為了國際互連網(wǎng)上一個(gè)重要的應(yīng)用,人們越來越依賴于搜索引擎所提供的服務(wù)。此外搜索引擎系統(tǒng)的其它衡量指標(biāo)還有響應(yīng)時(shí)間、支持峰值查詢的能力、易用性、返回結(jié)果的有效性(是否為死鏈、過時(shí)信息)等等。由于查準(zhǔn)率和查全率反映的是算法或系統(tǒng)分類質(zhì)量的兩個(gè)不同方面,所以人們又提出了一種綜合評價(jià)指標(biāo),來衡量算法的綜合效率,如公式綜合效率=(Precision*Recall*2)/(Precision+Recall)這樣,在性能效率的評價(jià)中,就可以利用變化表定義的搜索特征進(jìn)行評價(jià)。由表1一1得出查準(zhǔn)率P和查全率R表示為:查準(zhǔn)率和查全率的準(zhǔn)確定義如下:設(shè){relevant}為與某查詢相關(guān)的文檔的集合,{retrieved}為系統(tǒng)檢索到的文檔的集合,而{relevant}∩{retrieved}是既相關(guān)又被檢索到的實(shí)際文檔的集合。b為相關(guān)的文檔但是沒有被檢索到。表 信息查詢結(jié)果評價(jià)表ReleventNot RevelentRetrievedrlN=r+lNot RetrievedbdM=b+dC=r+bL=l+dN0=r+l+b+d其中r代表查詢結(jié)果中的相關(guān)的文檔數(shù)。 搜索引擎的主要評價(jià)指標(biāo)對于搜索引擎來說,有三種基本的檢索效果評價(jià)指標(biāo),查準(zhǔn)率(Percision)和查全率(Reeall)和綜合效率[14]。摘要方法是指搜索引擎自動(dòng)的為每個(gè)文件生成一份摘要,讓用戶自己判斷結(jié)果的相關(guān)性,以便用戶進(jìn)行選擇。位置方法根據(jù)關(guān)鍵詞在文中出現(xiàn)的位置判定文件的相關(guān)性。概率方法根據(jù)關(guān)鍵詞在文中出現(xiàn)的頻率來判斷文件的相關(guān)性。④檢索結(jié)果預(yù)處理技術(shù):搜索引擎的檢索結(jié)果通常包含大量的文件,用戶不可能一一瀏覽。自然語言處理是指自然語言識(shí)別在信息檢索中應(yīng)用,可以提高信息檢索的精度和相關(guān)性?;隈R爾可夫鏈隨機(jī)過程的n元語法統(tǒng)計(jì)分析在詞性標(biāo)注中能達(dá)到較高的精度。語詞詞法分析是指識(shí)別出各個(gè)語詞的詞干,以便根據(jù)詞干建立信息索引。(3)信息索引技術(shù)信息索引就是創(chuàng)建文檔信息的特征記錄,以使用戶能夠快速地檢索到所需信息。信息過濾也是搜索引擎的一項(xiàng)重要技術(shù)。一般地說,一個(gè)企業(yè)級的公用Web站點(diǎn)起碼支持4060種文件格式。目前,Internet上的信息發(fā)布格式多種多樣,這就要求搜索引擎支持多種文件格式??梢圆捎脤S玫?,也可以采用通用的數(shù)據(jù)庫[42]。一般來說,人工方式收集信息的準(zhǔn)確性要遠(yuǎn)優(yōu)于搜索程序,但其收集信息的效率及其全面性低于搜索程序。搜索程序是一種自動(dòng)運(yùn)行的軟件,其功能是搜索Internet上的網(wǎng)站或網(wǎng)頁。由專業(yè)人員手工建立關(guān)鍵字索引,再將索引信息存入計(jì)算機(jī)相應(yīng)的數(shù)據(jù)庫中。人工方式采用傳統(tǒng)信息收集、分類、存儲(chǔ)、組織和檢索的方法。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。(3)在索引數(shù)據(jù)庫中搜索當(dāng)用戶輸入關(guān)鍵詞搜索后,分解搜索請求,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。然后重復(fù)這一過程,并把爬過的所有網(wǎng)頁收集到服務(wù)器中。 搜索引擎工作原理從搜索引擎的結(jié)構(gòu)和組成可以看出,其實(shí)現(xiàn)原理可以看作四步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁一建立索引數(shù)據(jù)庫一在索引數(shù)據(jù)庫中搜索一對搜索結(jié)果進(jìn)行處理和排序。因此網(wǎng)上蜘蛛、分析器和索引器模塊每隔一段時(shí)間要重復(fù)運(yùn)行以更新索引數(shù)據(jù)庫。另一種是由網(wǎng)站所有者主動(dòng)向搜索引擎提交網(wǎng)址,然后搜索引擎在一定時(shí)間內(nèi)專門向該網(wǎng)站派出“蜘蛛”程序,掃描并將有關(guān)信息存入數(shù)據(jù)庫。由于檢索結(jié)果中相關(guān)文檔和不相關(guān)文檔相互混雜(相關(guān)度計(jì)算的結(jié)果通常與用戶的請求不吻合),用戶需要逐個(gè)瀏覽以找出所需信息。在查詢輸入界面中,用戶按照搜索引擎的查詢語法指定檢索詞條及各種檢索條件。當(dāng)然,搜索引擎的相關(guān)度計(jì)算并不一定與用戶的需求完全吻合。tn,wn(q))。ti,wi(q)。例如,在矢量空間索引模型中,查詢q也被表示為一個(gè)矢量V(q)=(t1,w1(q)。首先,采用與索引文檔相似的方法來處理用戶查詢請求,然后在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶查詢內(nèi)容相符的信息,便采用特定的算法計(jì)算出各網(wǎng)頁的關(guān)聯(lián)程度,比如說網(wǎng)頁中關(guān)鍵詞的匹配程度、出現(xiàn)的位置/頻率等。⑷數(shù)據(jù)庫:用來存放己經(jīng)建立的索引,完成分類的信息,供檢索器進(jìn)行檢索。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型,包括:倒排文檔、矢量空間模型、概率模型等。索引質(zhì)量是Web信息檢索系統(tǒng)成功的關(guān)鍵因素之一?!"撬饕鳎核饕鲗⑽臋n表示為一種便于檢索的形式,并存儲(chǔ)在索引數(shù)據(jù)庫中。詞條的類型也有多種,包括:字、詞或者短語等。這些技術(shù)往往與具體的語言以及系統(tǒng)的索引模型密切相關(guān)。⑵信息分析器:對網(wǎng)上蜘蛛下載的頁面文檔進(jìn)行分析,建立索引。上述過程不斷重復(fù)直到隊(duì)列(或者堆棧)為空。系統(tǒng)中維護(hù)一個(gè)超鏈隊(duì)列(或者堆棧),其中包含一些起始URL。ALIWEB不使用“機(jī)器人”程序,而是依靠網(wǎng)站主動(dòng)提交信息來建立自己的鏈接索引,類似于現(xiàn)在我們熟知的Yahoo等網(wǎng)站。與杰瑞的認(rèn)如ldeerr程序相對應(yīng),馬丁杰瑞開發(fā)的WbrdlwideWebwanderer。由于專門用于檢索網(wǎng)絡(luò)信息的“機(jī)器人”程序像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此通常被稱為“蜘蛛”程序。 搜索引擎體系結(jié)構(gòu) 雖然各個(gè)搜索引擎具體實(shí)現(xiàn)的方式不盡相同,但一般都包含6個(gè)基本部分:搜索信息的網(wǎng)上蜘蛛(websPider)、信息分析器、索引器、數(shù)據(jù)庫、檢索器、用戶界面,如圖所示。所以基于網(wǎng)絡(luò)蜘蛛或spider的搜索引擎成為人們研究的重點(diǎn)。而元搜索引擎因?yàn)樾枰却械乃阉饕嫣峤唤Y(jié)果,并進(jìn)行綜合,通常都比較慢。總的來說,目錄索引型搜索引擎存在信息涵蓋量不
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1