freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學]基于xml的個性化搜索算法研究-資料下載頁

2025-01-18 13:16本頁面
  

【正文】 理學研究表明:即使用戶知道他的工作在不后會給他帶來好處,用戶仍然不愿意參與這個訓練過程[68l。事實上,要求用戶瀏覽過程中對頁面進行標注會干擾用戶的正常瀏覽,降低系統(tǒng)的可用性。而且隨著瀏覽時間的延長,用戶的興趣主題和評價標準并不穩(wěn)定。可以選擇采用ODP[ 6 ] (Open Directory Project) ,即開放式分類目錄搜索系統(tǒng)來建立用戶個性化信息。216。 系統(tǒng)被動學習:被動學習是系統(tǒng)通過對用戶查詢行為進行記錄而實現(xiàn)的。也就是說,系統(tǒng)根據(jù)用戶的初始查詢向用戶推送從因特網(wǎng)搜集來的信息后,對用戶的信息篩選、瀏覽等行為進行全過程的實時監(jiān)控。系統(tǒng)通過監(jiān)視用戶的信息篩選過程能自動獲得用戶的信息需求方向,其方法是系統(tǒng)通過不斷地接收用戶在Web瀏覽時的相關(guān)信息,并將信息進行整理、組織,從中分析出用戶的信息偏好,系統(tǒng)再根據(jù)用戶這些信息偏好進行新的信息的推薦。系統(tǒng)被動學習的方式,雖然能在一定程度上學習用戶興趣的最新變化,但是這個學習過程存在一定的盲目性。因為用戶的瀏覽過程帶有很大的隨機性,那些用戶瀏覽時間長的信息,并不一定是用戶真正想獲得的信息,用戶很可能在剛打開某個網(wǎng)頁后就有事離開了。推斷用戶訪問過的頁面為用戶感興趣的頁面,反之為用戶不感興趣頁面也可能給系統(tǒng)判斷帶來嚴重的錯誤,典型的有:(1)用戶可能點擊某個超鏈接,瀏覽后發(fā)現(xiàn)該頁面并非自己感興趣的頁面。(2)用戶可能忽視某些自己感興趣的頁面,從而導致有些應(yīng)該瀏覽的頁面未被瀏覽過。(3)用戶在某個頁面停留較長的時間,有時并不是對這個頁面感興趣,而是有其它的事物需要處理。(4)由于傳統(tǒng)Web瀏覽器的界面結(jié)構(gòu)易于導致用戶進行深度優(yōu)先搜索,用戶容易忘記退回到過去的頁面以瀏覽某些自己感興趣的超鏈接。 個性化信息過濾由于關(guān)鍵詞查詢固有的弊病,在信息推送給用戶之前,需要去除那些無關(guān)的信息,即信息過濾。信息過濾的一個方法就是在用戶的個性特征信息中,設(shè)定對應(yīng)每一類信息的排除關(guān)鍵詞。其作用就是在查詢的結(jié)果當中,排除那些含有這些關(guān)鍵詞的信息??梢圆捎貌幌嚓P(guān)度計算是系統(tǒng)根據(jù)設(shè)定的一些不相關(guān)詞匯,計算信息與檢索目標的不相關(guān)程度,達到一定門檻值的才排除。本文所采用的方法具體見第四章。 個性化搜索排序問題l 客戶端排序客戶端排序的方法即是將用戶描述文件存儲在客戶端,搜索時用戶提交搜索請求到搜索引擎服務(wù)器,而服務(wù)器返回原始搜索結(jié)果,最終由客戶端進行個性化重排序。在客戶端排序的方法步驟如下:l)用戶提交搜索請求Q;2)搜索引擎獲得搜索結(jié)果集RSset,并按照PageRank或其它方法對搜索結(jié)果進行排序獲得原始搜索結(jié)果Rraw;3)搜索引擎?zhèn)鬏斎炕虿糠值脑妓阉鹘Y(jié)果Rraw_n_i到客戶端;4)客戶端使用存儲于本地的用戶描述文件P對傳回的原始搜索結(jié)果Rraw_n_i進行個性化重排序,將排序結(jié)果作為個性化搜索結(jié)果Rper_raw_n_i呈現(xiàn)客戶端排序方法有三點值得關(guān)注:① 用戶文件是保留在用戶本地,避免了網(wǎng)絡(luò)傳輸或者存儲于遠程主機的不安全性② 由于原始搜索結(jié)果較多時無法將其全部傳輸回,因此通常會分段傳回一部分的數(shù)據(jù),當用戶瀏覽完己傳輸?shù)臄?shù)據(jù)后再向服務(wù)器請求其它的數(shù)據(jù)③ 由于需要在客戶端個性化重排序,需要有瀏覽器插件或者獨立的客戶端支持可見客戶端排序方法的優(yōu)點在于用戶的描述文件被存放于本地,能夠避免出現(xiàn)AOL泄露用戶搜索記錄這樣的事件,起到對用戶隱私信息保護的作用。但是客戶端排序方法的缺陷在于分段進行原始搜索結(jié)果傳輸將影響搜索結(jié)果的質(zhì)量,下面舉例說明。l 服務(wù)器端排序在服務(wù)器端排序的方法與客戶端排序稍有不同,存在兩種不同的方案,一種是將用戶描述文件存儲在客戶端,在用戶進行搜索時和搜索請求一并提交,另一種則是將用戶描述文件直接存儲在服務(wù)器端。用戶提交搜索請求后由服務(wù)器對搜索結(jié)果進行個性化重排序,并返回給客戶端。用戶描述文件存儲在客戶端的服務(wù)器端排序方法步驟如下: 1)用戶提交搜索請求Q和個人描述文件P;2)搜索引擎獲得搜索結(jié)果集RSset,并按照PageRank或其它方法對搜索結(jié)果進行排序獲得原始搜索結(jié)果Rraw;3)搜索引擎根據(jù)提交的個人信息P對原始搜索結(jié)果Rraw,進行個性化重新排序獲得個性化搜索結(jié)果Rper;4)搜索引擎服務(wù)器端分段或全部返回個性化搜索結(jié)果Rper_raw_n_i。用戶描述文件存儲在服務(wù)器的服務(wù)器端排序方法步驟如下:1)用戶提交搜索請求Q2)搜索引擎獲得搜索結(jié)果集RSset,并按照PageRank或其它方法對搜索結(jié)果進行排序獲得原始搜索結(jié)果Rraw;3)搜索引擎根據(jù)存儲在服務(wù)器端的用戶描述文件P對原始搜索結(jié)果Rraw,進行個性化重新排序獲得個性化搜索結(jié)果Rper;4)搜索引擎服務(wù)器端分段或全部返回個性化搜索結(jié)果Rper_raw_n_i。由于這種方法個性化排序的步驟在服務(wù)器端進行,因此客戶端分段請求返回搜索結(jié)果時排序動作已經(jīng)完成,不存在前一小節(jié)所指出的問題,也即服務(wù)器端重排序后的結(jié)果可以認為是理想化結(jié)果。 用戶反饋學習能根據(jù)用戶對文檔的評價和用戶特征文檔集合,學習用戶的偏好。在用戶偏好中的一個比較重要的方面,就是不同關(guān)鍵詞之間的、包含用戶特征的語義相關(guān)度,Pei一Min Chen等在這方面開展了積極的研究[54]。以往的反饋學習算法一般只對詞匯單獨出現(xiàn)的頻率進行統(tǒng)計,很少考慮詞匯同時出現(xiàn)在同一篇文檔中的情況,本文中,改進的基于詞頻統(tǒng)計反饋學習算法如下: l 相關(guān)度和相異度的數(shù)學模型相關(guān)度:設(shè)x為一查詢關(guān)鍵詞,y為其語義相關(guān)詞,并且設(shè)x和y在搜索結(jié)果中被用戶選中的文檔中出現(xiàn)的次數(shù)分別是和,出現(xiàn)在同一篇文檔中的次數(shù)為;相應(yīng)地,設(shè)x和y在搜索結(jié)果中未被用戶選中的文檔中出現(xiàn)的頻率分別是,和,那么y與x的相關(guān)度可用下式表示:相應(yīng)地,相異度可以表示成:(2)其中,進一步,語義相關(guān)度為:(3)當simx,ydivx,y時,取min,否則取max。其中,是y與x在用戶偏好關(guān)鍵詞表中的原始語義相關(guān)度。l 算例設(shè)用戶提交的查詢關(guān)鍵詞是t,與用戶偏好關(guān)鍵詞表中語義相關(guān)詞a的相關(guān)度=。a與t一起提交查詢,得到5篇與關(guān)鍵詞t相關(guān)的文章R1R5。進行詞頻統(tǒng)計后得到每篇文章的主題詞分別是:R1:a,t,c,e,b;R2:b,d,f,a;R3:t,d,m,f,b;R4:a,b,g;R5:a,b,g,f,g。如果用戶選中R1,R2和R3,則每個主題詞在被選中文檔和未被選中文檔中出現(xiàn)的次數(shù)統(tǒng)計如下:=2,=2,=3,=1,=2,=1,……,=1,=1,……;=0,=2,=2,=0,=0,=0,……,=0,=0,……;運用公式(l)得到a與t的相關(guān)度為:simt,a=max((2+2+1)/(2+2+0+2+1+0),(0+2+0)/( 2+2+0+2+1+0))=max(5/7,2/7)=5/7運用公式(2)得到a與t的相異度為:divt,a=max(4/7,2/7)=4/7則反饋調(diào)整算法分別按公式(3)調(diào)整,a與t的語義相關(guān)度為:SRt,a =min(1,+5/7一4/7)=以上式中假設(shè)SR取值范圍為一1至1,1表示予以上最相關(guān),1表示語義完全不相關(guān)。計算未存在于系統(tǒng)中的關(guān)鍵詞x與t的語義相關(guān)度時,其與t的初始語義相關(guān)度按0計。當用戶準備更改自己的偏好模型,可以把訓練文檔提交給系統(tǒng),系統(tǒng)按語義相關(guān)度公式重新計算,完成用戶興趣模型的調(diào)整。 用戶個性化信息查詢l 個性信息檢索模板:個性信息檢索模板是基于關(guān)鍵詞的,模板的作用是根據(jù)用戶的輸入,來確定用戶此次查詢的主題及根據(jù)實際情況擴展檢索的范圍,調(diào)用引擎的先后次序等。對應(yīng)每一個關(guān)鍵詞有查詢的同義詞和檢索表達式的個性擴展詞。必要時調(diào)用同義詞代替關(guān)鍵詞來進行查詢,同義詞按其與關(guān)鍵詞的相關(guān)程度排列。用戶在此層次的個性信息表現(xiàn)為:代表用戶針對某一方面信息需求的關(guān)鍵詞A,及其同義詞B1,B2,……,Bn關(guān)鍵詞可以由用戶自己選定,也可以又系統(tǒng)按照關(guān)鍵詞字典給出,并且隨著用戶的使用,用戶興趣的轉(zhuǎn)變,相應(yīng)的發(fā)生變化。而擴展檢索詞是對用戶信息需求的個性化擴展,因為通常每個搜索引擎會接受若干個布爾邏輯的提問輸入,輸入越精確,檢索的效果越好。個性化信息獲取系統(tǒng)通過歷史記錄和用戶的反饋,能自主地判斷用戶某一方面信息需求的取向,在有了用戶第一個輸入之后,就會把與此輸入相關(guān)的詳細檢索信息自動地加到檢索提問中,代替用戶完成與搜索引擎的交互。簡單的用戶個性信息檢索模板如圖:個性信息檢索模版所示。 個性化搜索引擎的發(fā)展趨勢第四章 同時,XML超強的連接功能,結(jié)構(gòu)化的表示方法,有語義接口等特性,使得基于XML的信息檢索可以實現(xiàn)信息自動抽取、交換和集成,能提高檢索系統(tǒng)的查準率和效率。在基于XML表示的文擋上面進行信息抓取、中文分詞、相關(guān)分析等信息檢索中關(guān)鍵算法的優(yōu)化必將進一步提高檢索系統(tǒng)的效率。本文基于這樣的思想開展研究,對智能化信息檢索作一個小的嘗試,根本目的是為了探索信息檢索在新的應(yīng)用需求下的性能提高的技術(shù)解決方案。參考文獻[1] 潘望,2008(36):8990[2] K. Langa,M. Burnett. XML,metadata and efficient knowledgediseovery. KnowledgeBased Systems,2000(13):321331[3] ,2001,(l):2528[4] 搜索引擎優(yōu)化:://[5] Tom Extraction on Web Review,2001(1):128135[6] Ji GenLin,YanMing,SongYuQing,Sun Updating Maximum Frequent Itemsets Chinese Joumal of Computers,2005,28(1):128135[7] 王繼成,蕭嶸,孫正興,2001,38(2):187193[8] Philippe Martin and Peter Retrieval and the World Wide Web. IEEE Intelligent Systems,2000(5):29[9] Sheila ,Tran Cao Son,and Honglei Web Services. IEEE Intelligent Systems,2001,(5):4653[10] :,2001,28(5):8588[11] 蔡國民等. [12] ,1999,21(4):4952[13] ,1997,24(1):96101[14] 陶躍華,,2001,19(8):861863,873[15] J Retrieval Systems. Scienee,1963,141:245250[16] P W Foltz,S T Information delivery:analysis of information of the ACM,1992,35(12):51 60[17] 師海燕,, 2009 (5):11111133[18] 楊震,2003,24(7):9093[19] Dunja learning for better Web : AAAI 2000 Spring Symposium Technical Reports on Adaptive User Interfaces,2000:8284.[20] Chien Chin Chen,Meng Chang Chen,Yeali :a selfadaptive personal view agent system. In: seventh ACM SIGKDD international conference on Knowledge discovery and data mining,2001:257262.[21] Yabo Xu,Benyu Zhang,Zheng Chen,et Personalized Web : WWW2007,May 812,2007:591600.[22] Kazunari Sugiyama,Kenji Hatano,Masatoshi web search based on user profile constructed without any effort from : WWW2004,May 1722,2004:675684.[23] Feng Qiu,Junghoo identification of user interest for personalized : WWW2006,May2226,2006:727736.[24] James Rueker,Mareos navigation for the of the ACM,1997,40(3):7376.[25] Broadvision:://[26] Paul Alexandru Chirita,Wolfgang Nejdl,Raluca Paiu,et ODP metadata to personalize : 28th annual international ACM SIGIR conference on Research and development in information retrieval(SIGIR2005),Aug2005:178185.[27] R Alton Scheidl,J Ekhall,OV :Social and Collaborative Filtering of Web Documents and : 5th ERCIM Workshp on User Interfaces for All:UserTailored Information Environments,1999:2327.[28] Bollacker Kurt D,Lawrence Steve,Giles C relevant scientific literature on the Systems
點擊復制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1