freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學(xué)]基于xml的個(gè)性化搜索算法研究-wenkub.com

2025-01-15 13:16 本頁(yè)面
   

【正文】 本文基于這樣的思想開展研究,對(duì)智能化信息檢索作一個(gè)小的嘗試,根本目的是為了探索信息檢索在新的應(yīng)用需求下的性能提高的技術(shù)解決方案。個(gè)性化信息獲取系統(tǒng)通過歷史記錄和用戶的反饋,能自主地判斷用戶某一方面信息需求的取向,在有了用戶第一個(gè)輸入之后,就會(huì)把與此輸入相關(guān)的詳細(xì)檢索信息自動(dòng)地加到檢索提問中,代替用戶完成與搜索引擎的交互。對(duì)應(yīng)每一個(gè)關(guān)鍵詞有查詢的同義詞和檢索表達(dá)式的個(gè)性擴(kuò)展詞。如果用戶選中R1,R2和R3,則每個(gè)主題詞在被選中文檔和未被選中文檔中出現(xiàn)的次數(shù)統(tǒng)計(jì)如下:=2,=2,=3,=1,=2,=1,……,=1,=1,……;=0,=2,=2,=0,=0,=0,……,=0,=0,……;運(yùn)用公式(l)得到a與t的相關(guān)度為:simt,a=max((2+2+1)/(2+2+0+2+1+0),(0+2+0)/( 2+2+0+2+1+0))=max(5/7,2/7)=5/7運(yùn)用公式(2)得到a與t的相異度為:divt,a=max(4/7,2/7)=4/7則反饋調(diào)整算法分別按公式(3)調(diào)整,a與t的語(yǔ)義相關(guān)度為:SRt,a =min(1,+5/7一4/7)=以上式中假設(shè)SR取值范圍為一1至1,1表示予以上最相關(guān),1表示語(yǔ)義完全不相關(guān)。其中,是y與x在用戶偏好關(guān)鍵詞表中的原始語(yǔ)義相關(guān)度。由于這種方法個(gè)性化排序的步驟在服務(wù)器端進(jìn)行,因此客戶端分段請(qǐng)求返回搜索結(jié)果時(shí)排序動(dòng)作已經(jīng)完成,不存在前一小節(jié)所指出的問題,也即服務(wù)器端重排序后的結(jié)果可以認(rèn)為是理想化結(jié)果。l 服務(wù)器端排序在服務(wù)器端排序的方法與客戶端排序稍有不同,存在兩種不同的方案,一種是將用戶描述文件存儲(chǔ)在客戶端,在用戶進(jìn)行搜索時(shí)和搜索請(qǐng)求一并提交,另一種則是將用戶描述文件直接存儲(chǔ)在服務(wù)器端。本文所采用的方法具體見第四章。 個(gè)性化信息過濾由于關(guān)鍵詞查詢固有的弊病,在信息推送給用戶之前,需要去除那些無關(guān)的信息,即信息過濾。推斷用戶訪問過的頁(yè)面為用戶感興趣的頁(yè)面,反之為用戶不感興趣頁(yè)面也可能給系統(tǒng)判斷帶來嚴(yán)重的錯(cuò)誤,典型的有:(1)用戶可能點(diǎn)擊某個(gè)超鏈接,瀏覽后發(fā)現(xiàn)該頁(yè)面并非自己感興趣的頁(yè)面。也就是說,系統(tǒng)根據(jù)用戶的初始查詢向用戶推送從因特網(wǎng)搜集來的信息后,對(duì)用戶的信息篩選、瀏覽等行為進(jìn)行全過程的實(shí)時(shí)監(jiān)控。而且隨著瀏覽時(shí)間的延長(zhǎng),用戶的興趣主題和評(píng)價(jià)標(biāo)準(zhǔn)并不穩(wěn)定。但是由于語(yǔ)言表達(dá)和分類的模糊性與多樣性,用戶很難利用這種方法將信需求的方向表達(dá)清楚。這種方式需要用戶事先總結(jié)自己的信需求,并能準(zhǔn)確地表達(dá),或是在瀏覽網(wǎng)頁(yè)的同時(shí)給出自己對(duì)于特定網(wǎng)頁(yè)的評(píng)價(jià)。同時(shí)由于一些代理服務(wù)器和防火墻的應(yīng)用,部分用戶的ID是不可用的。M S Chen和J Borges等則根據(jù)用戶的瀏覽順序,通過log數(shù)據(jù)映射到關(guān)系表中和利用超文本概率的方法來發(fā)現(xiàn)用戶的訪問模式。發(fā)現(xiàn)有意義的關(guān)系、信息,比如:用戶的行為模式,用戶行為的變化,不同用戶群在使用和行為上的相似性或差異性等等。(2)數(shù)據(jù)轉(zhuǎn)換。一般的訪問模式挖掘通過分析使用記錄來了解用戶的訪問模式和傾向。216。主要的機(jī)器學(xué)習(xí)有歸納習(xí)、基于事例推理學(xué)習(xí)、分析學(xué)習(xí)、遺傳學(xué)習(xí)、連接學(xué)習(xí)、增強(qiáng)學(xué)習(xí)增強(qiáng)學(xué)習(xí)等。常用的用戶建模方法主要有:基于邏輯的方法、貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、機(jī)器學(xué)習(xí)方法和基于模板的方法。同樣的,這一功能也并非一定存在于服務(wù)器端,某些系統(tǒng)也采用在客戶端重排序的方法。個(gè)性化搜索是基于搜索引擎的基本技術(shù)發(fā)展起來的,實(shí)際上是在搜索引擎的基本框架上增加了用戶信息搜集建模和處理的模塊,并且在核心算法中針對(duì)搜集到的用戶信息和數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)進(jìn)行了特別的相似度計(jì)算。在客戶端排序的方法存在排序準(zhǔn)確度受限的問題,在一次搜索中結(jié)果往往會(huì)有數(shù)千數(shù)萬(wàn)個(gè),理想的在客戶端重排序的方法需要把這些結(jié)果都傳輸?shù)娇蛻舳伺c用戶描述文件進(jìn)行相似度計(jì)算,但是這一做法受限于傳輸帶寬而無法實(shí)現(xiàn),因此往往只能采用傳輸一部分的結(jié)果在客戶端先行排序,當(dāng)用戶需要時(shí)再繼續(xù)傳輸下一部分的妥協(xié)方法,這就導(dǎo)致了一部分較為匹配用戶興趣的結(jié)果在第一次傳輸時(shí)沒有被全部包含而無法在客戶端優(yōu)先呈現(xiàn)的問題。曾春等人[49]提出的基于內(nèi)容的個(gè)性化搜索算法則通過概率模型來計(jì)算文檔對(duì)某個(gè)用戶的推薦度。Pretschner等人[44]提出的基于本體論的個(gè)性化搜索算法,通過對(duì)搜索引擎返回的結(jié)果進(jìn)行分類并匹配用戶興趣和每個(gè)分類來進(jìn)行重排序,而后對(duì)這一方法進(jìn)行了系統(tǒng)實(shí)現(xiàn)。Richardson等人 [42]提出了結(jié)合鏈接和頁(yè)面信息的PageRank算法,將用戶在頁(yè)面間跳轉(zhuǎn)的行為也作為評(píng)估頁(yè)面質(zhì)量的因素。排序算法是直接影響個(gè)性化搜索中搜索效果的關(guān)鍵算法,將重要的搜索結(jié)果列在搜索結(jié)果列表中較為靠前的位置,能夠讓搜索用戶更快捷的找到這些更有價(jià)值的信息。這些用戶描述文件的建立方法都在各自的應(yīng)用場(chǎng)景中取得較好的效果,但是都存在著用戶無法控制自身信息搜集程度的問題,Xu等人[2l]提出一種樹型化用戶描述文件的建立方法,對(duì)樹上的每個(gè)結(jié)點(diǎn)評(píng)分,通過用戶設(shè)定一個(gè)開放參數(shù)來進(jìn)行信息控制,具備一定的隱私保護(hù)能力。在文獻(xiàn)[22]中作者提出隱式地搜集用戶瀏覽記錄來建立用戶描述文件的方法,通過對(duì)不同時(shí)期的用戶頁(yè)面瀏覽記錄進(jìn)行矢量化,將短期瀏覽記錄和長(zhǎng)期瀏覽記錄進(jìn)行拼合來得到最終的用戶描述文件。Liu等人[33]的個(gè)性化搜索方法中同樣利用了ODP的分類法來進(jìn)行個(gè)性化中用戶興趣偏好的描述,同時(shí)使用了矩陣的結(jié)構(gòu)來表示用戶興趣數(shù)據(jù),但這一方法存在只能針對(duì)目錄結(jié)構(gòu)的搜索結(jié)果進(jìn)行個(gè)性化并且缺乏層次性,無法實(shí)現(xiàn)隱私保護(hù)的缺陷。ODP[29](Open Directory Project),即開放式分類目錄搜索系統(tǒng),是目前網(wǎng)上最大的人工編制的分類檢索系統(tǒng),到2007年底有超過70000名志愿者為其進(jìn)行分類的工作,分類目錄多達(dá)590000個(gè)。(2)用戶描述文件的建立方面。而利用個(gè)人和組織的書簽(Bookmark)來進(jìn)行相關(guān)網(wǎng)頁(yè)預(yù)測(cè)的SiteSeer[24]系統(tǒng)以及BroadVision[25]等采用的是顯式的用戶信息搜集,除此之外Chirita等[26]提出的利用ODP metadata建立用戶描述文件的方法ODPM也采用了顯式的用戶信息搜集方式。隱式的用戶信息搜集方式則主要是搜集用戶在操作過程中的行為,并不需要用戶主動(dòng)干預(yù)和反饋。 個(gè)性化搜索算法的研究現(xiàn)狀個(gè)性化搜索是繼人工分揀的分類目錄搜索和機(jī)器抓取網(wǎng)頁(yè)的關(guān)鍵字匹配搜索之后的第三代搜索技術(shù)。這個(gè)系統(tǒng)除了完成用戶輸入信息的查詢工作外,還可以根據(jù)用戶的反饋?zhàn)詣?dòng)地更新關(guān)鍵詞表,跟蹤用戶興趣的變化,并把這些信息存儲(chǔ)起來,作為以后查詢的依據(jù)。因而此系統(tǒng)記錄了用戶明確表達(dá)的興趣信息,及用戶對(duì)系統(tǒng)提供網(wǎng)頁(yè)的相關(guān)性評(píng)價(jià)等個(gè)性特征信息,由這些特征系統(tǒng)自動(dòng)生成實(shí)時(shí)變化的用戶興趣集合。216。216。有代表性的個(gè)性化信息服務(wù)系統(tǒng)及方法如下:216。當(dāng)然目前這方面也沒有成功的案例。但是無論其中的哪一種實(shí)現(xiàn)方式,即Google 的主動(dòng)選擇搜索范圍,還是yahoo vivisimo 的在結(jié)果中重新組織自己需要的信息,都是一種實(shí)驗(yàn)或者創(chuàng)想,短期內(nèi)無法成為主流的搜索引擎應(yīng)用產(chǎn)品。 個(gè)性化搜索的現(xiàn)狀搜索引擎的個(gè)性化趨勢(shì)是搜索引擎的一個(gè)未來發(fā)展的重要特征和必然趨勢(shì),因此也一直以來都是業(yè)界領(lǐng)袖們各自展現(xiàn)智慧的領(lǐng)域。簡(jiǎn)單的說,個(gè)性即差異,本意是指?jìng)€(gè)人特有的能力、氣質(zhì)、興趣、性格等心理特性的總和。(2)The pattern of collective character,behavioral,tempermaental,emotional,and mental traits of a person。216。 在美國(guó)傳統(tǒng)詞典(雙解)中個(gè)性指Individuality。 個(gè)性是指一事物區(qū)別于其他事物的個(gè)別的、特殊的性質(zhì)。指?jìng)€(gè)人特有的心理特性,其中包括遺傳的及學(xué)習(xí)的種種特質(zhì)。進(jìn)一步把個(gè)人信息轉(zhuǎn)化為知識(shí),完成個(gè)性化的知識(shí)發(fā)現(xiàn)、知識(shí)管理、知識(shí)應(yīng)用[16]。而要真正實(shí)現(xiàn)個(gè)性化的信息服務(wù),就應(yīng)該對(duì)用戶的瀏覽習(xí)慣、個(gè)人愛好、知識(shí)領(lǐng)域、學(xué)術(shù)領(lǐng)域及工作領(lǐng)域進(jìn)行研究、分類。 沒有針對(duì)不同用戶的個(gè)性化的信息搜索服務(wù)。216。一個(gè)查詢返回的結(jié)果可能有數(shù)千條,與用戶需求最相關(guān)的信息可能排在最后。 搜索的精度不高。影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息搜集策略和檢索模型,包括索引庫(kù)的更新頻率和策略、文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。則查準(zhǔn)率是既相關(guān)又被檢索到的實(shí)際文檔與檢索到的文檔的百分比,而查全率是既相關(guān)又被檢索到的實(shí)際文檔與查詢相關(guān)的文檔的百分比。l為查詢結(jié)果中不相關(guān)文檔數(shù)。分類或聚類方法是指搜索引擎采用分類或聚類技術(shù),自動(dòng)把查詢結(jié)果歸入到不同的類別中[46]。這種方法對(duì)關(guān)鍵詞出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),關(guān)鍵詞出現(xiàn)的次數(shù)越多,該文件與查詢的相關(guān)程度越高。③建立檢索項(xiàng)索引:使用倒排文件的方式建立檢索項(xiàng)索引,一般包括“檢索項(xiàng)”,“檢索項(xiàng)所在文件位置信息”以及“檢索項(xiàng)權(quán)重”。②進(jìn)行詞性標(biāo)注及相關(guān)的自然語(yǔ)言處理:詞性標(biāo)注是指利用基于規(guī)則和統(tǒng)計(jì)(馬爾可夫鏈)的數(shù)學(xué)方法對(duì)語(yǔ)詞進(jìn)行標(biāo)注。在Internet上,存在有大量的無用信息,一個(gè)好的搜索引擎應(yīng)當(dāng)盡量減少垃圾站點(diǎn)的數(shù)量,這是信息過濾要著重解決的問題[44]。從實(shí)際的情況看,所有的搜索引擎都支持HTML格式,而對(duì)于其它文件格式的支持則不同的搜索引擎有不同的規(guī)定,最多的能支持200多種文件格式。信息的存儲(chǔ)則是根據(jù)不同的分析結(jié)果和要求,針對(duì)提取的索引和查詢目的而進(jìn)行的。自動(dòng)方式通常是由搜索程序來完成的。 搜索引擎關(guān)鍵技術(shù)(1)信息的收集和存儲(chǔ)技術(shù)網(wǎng)上信息收集和存儲(chǔ)一般分為人工和自動(dòng)兩種方式。(2)建立索引數(shù)據(jù)庫(kù)由索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。搜索引擎的索引更新周期通常約為幾個(gè)月,索引數(shù)據(jù)庫(kù)越大,更新也越困難。標(biāo)準(zhǔn)搜索引擎的自動(dòng)信息搜集功能一般通過兩種方式實(shí)現(xiàn):一種是定期搜索,即搜索引擎定期主動(dòng)派出“蜘蛛”程序,對(duì)一定PI地址范圍內(nèi)的網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)更新或新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。(6)用戶接口:用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出?!H缓蟾鶕?jù)關(guān)聯(lián)程度高低,將關(guān)聯(lián)程度大于閩值的所有網(wǎng)頁(yè)按照相關(guān)度遞減的順序排列,按順序?qū)⑦@些網(wǎng)頁(yè)返回給用戶。索引器在建立好索引之后,進(jìn)行擴(kuò)充和更新數(shù)據(jù)庫(kù)。ti,wi(d)),其中ti為詞條項(xiàng),wi(d)為ti在d中的權(quán)值,一般被定義為ti在d中出現(xiàn)頻率F(ti)的函數(shù)。分詞后通常要使用禁用詞表(stoplist)來去除對(duì)于區(qū)別文擋作用很低的詞條,有一些系統(tǒng)還對(duì)詞條進(jìn)行單/復(fù)數(shù)轉(zhuǎn)換、詞綴去除(stemmnig)、同義詞轉(zhuǎn)換(eodation)等工作。文檔分析技術(shù)一般包括:分詞、過濾和轉(zhuǎn)換等。網(wǎng)上蜘蛛從這些URL出發(fā),下載相應(yīng)的頁(yè)面,并從中抽取出新的超鏈加入到隊(duì)列(或者堆棧)中??扑固赜?993年10月創(chuàng)建了ALIWEB,它是Aerhie的HTTP版本。世界上第一個(gè)用于監(jiān)測(cè)互聯(lián)網(wǎng)的“機(jī)器人”程序是馬太Web信息檢索系統(tǒng)就是采用這種基于網(wǎng)絡(luò)蜘蛛的搜索引擎技術(shù),下面提到的搜索引擎實(shí)際上就是指這種類型。目錄體系包含分類與鏈接過多,不便于瀏覽檢索,并且采用人工干預(yù)技術(shù),數(shù)據(jù)庫(kù)數(shù)據(jù)更新緩慢,工作量大且查全率低。該引擎類似META搜索引擎,但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索,而是由用戶從提供的四個(gè)引擎當(dāng)中選擇,因此叫它“集合式”搜索引擎更確切些。⑷主題搜索引擎:隨著信息多元化的增長(zhǎng),給所有用戶同一個(gè)入口顯然已經(jīng)不能滿足特定用更深入的查詢需求。⑶元搜索引擎:將用戶提交的檢索請(qǐng)求送到多個(gè)獨(dú)立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱[12]。此類搜索引擎最為著名的有Google,Baidu,Nothern Light,Alta Visa,Infoseek等。第五章對(duì)本文工作進(jìn)行歸納總結(jié)并指出了課題需要進(jìn)一步研究的工作。 第二章介紹了搜索引擎的體系結(jié)構(gòu)和基本構(gòu)成,包括搜索引擎技術(shù)的原理、工作過程、性能模型、關(guān)鍵技術(shù)實(shí)現(xiàn)等。由于XML本身具有的特點(diǎn)和優(yōu)勢(shì),它已經(jīng)被廣泛的應(yīng)用在許多場(chǎng)合,如電子商務(wù)、知識(shí)管理、文檔管理等。 使得處理XML的應(yīng)用程序較容易書寫216。提出XML的目的是:216。它由萬(wàn)維網(wǎng)聯(lián)盟(W3C)設(shè)計(jì),同HTML一樣,是通用標(biāo)記語(yǔ)言SGML(Dtandard General Markup Language)的一個(gè)子集。如果再加上機(jī)器翻譯,返回結(jié)果可以用母語(yǔ)顯示。搜索器可以在多臺(tái)機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度。智能代理可以在用戶端進(jìn)行,也可以在服務(wù)器端運(yùn)行。③ 是用正文分類技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。對(duì)于一個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬(wàn)、幾百萬(wàn)篇文檔,用戶不得不在結(jié)果中篩選。 發(fā)展趨勢(shì)搜索引擎已成為一個(gè)新的研究和開發(fā)領(lǐng)域。相關(guān)的研究又可以分為兩類:一類是對(duì)超文本鏈接的分析,在這方面Stanford大學(xué)的Google系統(tǒng)和IBM的Clever系統(tǒng)做出了很大的貢獻(xiàn)。⑶第三代搜索引擎現(xiàn)在是應(yīng)用和研究的熱點(diǎn)。元搜索引擎區(qū)別于獨(dú)立搜索引擎的主要特征是:將一次提問提交給多個(gè)搜索引擎。如以非Web信息導(dǎo)航服務(wù)為主的Direct search,Cos Invisible Web Catalog,ISleuth等。該幾段的搜索引擎不斷采用新的技術(shù),如Google采用鏈接評(píng)價(jià)體系,根據(jù)網(wǎng)頁(yè)鏈接數(shù)量評(píng)價(jià)文件的重要性。為滿足特定人群需求提供信息,如考研網(wǎng)(準(zhǔn)備考研究生的學(xué)生)、集郵網(wǎng)(集郵愛好者)。它在1999年提出,針對(duì)某一特定領(lǐng)域、特定人群或特定需求提供有一定深度的信息和相關(guān)服務(wù),[7]。它是一個(gè)綜合性網(wǎng)站,通過等級(jí)列舉式瀏覽檢索和關(guān)鍵詞檢索查詢因特網(wǎng)上各類學(xué)科領(lǐng)域的內(nèi)容,提供的服務(wù)種類多而且涉及的領(lǐng)域廣。 研究現(xiàn)狀卡內(nèi)基梅隆大學(xué)教授Tom Mitchell在MIT的刊物Technology Review上發(fā)表文章
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1