freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

[工學]基于xml的個性化搜索算法研究(參考版)

2025-01-21 13:16本頁面
  

【正文】 參考文獻[1] 潘望,2008(36):8990[2] K. Langa,M. Burnett. XML,metadata and efficient knowledgediseovery. KnowledgeBased Systems,2000(13):321331[3] ,2001,(l):2528[4] 搜索引擎優(yōu)化:://[5] Tom Extraction on Web Review,2001(1):128135[6] Ji GenLin,YanMing,SongYuQing,Sun Updating Maximum Frequent Itemsets Chinese Joumal of Computers,2005,28(1):128135[7] 王繼成,蕭嶸,孫正興,2001,38(2):187193[8] Philippe Martin and Peter Retrieval and the World Wide Web. IEEE Intelligent Systems,2000(5):29[9] Sheila ,Tran Cao Son,and Honglei Web Services. IEEE Intelligent Systems,2001,(5):4653[10] :,2001,28(5):8588[11] 蔡國民等. [12] ,1999,21(4):4952[13] ,1997,24(1):96101[14] 陶躍華,,2001,19(8):861863,873[15] J Retrieval Systems. Scienee,1963,141:245250[16] P W Foltz,S T Information delivery:analysis of information of the ACM,1992,35(12):51 60[17] 師海燕,, 2009 (5):11111133[18] 楊震,2003,24(7):9093[19] Dunja learning for better Web : AAAI 2000 Spring Symposium Technical Reports on Adaptive User Interfaces,2000:8284.[20] Chien Chin Chen,Meng Chang Chen,Yeali :a selfadaptive personal view agent system. In: seventh ACM SIGKDD international conference on Knowledge discovery and data mining,2001:257262.[21] Yabo Xu,Benyu Zhang,Zheng Chen,et Personalized Web : WWW2007,May 812,2007:591600.[22] Kazunari Sugiyama,Kenji Hatano,Masatoshi web search based on user profile constructed without any effort from : WWW2004,May 1722,2004:675684.[23] Feng Qiu,Junghoo identification of user interest for personalized : WWW2006,May2226,2006:727736.[24] James Rueker,Mareos navigation for the of the ACM,1997,40(3):7376.[25] Broadvision:://[26] Paul Alexandru Chirita,Wolfgang Nejdl,Raluca Paiu,et ODP metadata to personalize : 28th annual international ACM SIGIR conference on Research and development in information retrieval(SIGIR2005),Aug2005:178185.[27] R Alton Scheidl,J Ekhall,OV :Social and Collaborative Filtering of Web Documents and : 5th ERCIM Workshp on User Interfaces for All:UserTailored Information Environments,1999:2327.[28] Bollacker Kurt D,Lawrence Steve,Giles C relevant scientific literature on the Systems a。在基于XML表示的文擋上面進行信息抓取、中文分詞、相關分析等信息檢索中關鍵算法的優(yōu)化必將進一步提高檢索系統的效率。簡單的用戶個性信息檢索模板如圖:個性信息檢索模版所示。而擴展檢索詞是對用戶信息需求的個性化擴展,因為通常每個搜索引擎會接受若干個布爾邏輯的提問輸入,輸入越精確,檢索的效果越好。必要時調用同義詞代替關鍵詞來進行查詢,同義詞按其與關鍵詞的相關程度排列。 用戶個性化信息查詢l 個性信息檢索模板:個性信息檢索模板是基于關鍵詞的,模板的作用是根據用戶的輸入,來確定用戶此次查詢的主題及根據實際情況擴展檢索的范圍,調用引擎的先后次序等。計算未存在于系統中的關鍵詞x與t的語義相關度時,其與t的初始語義相關度按0計。進行詞頻統計后得到每篇文章的主題詞分別是:R1:a,t,c,e,b;R2:b,d,f,a;R3:t,d,m,f,b;R4:a,b,g;R5:a,b,g,f,g。l 算例設用戶提交的查詢關鍵詞是t,與用戶偏好關鍵詞表中語義相關詞a的相關度=。以往的反饋學習算法一般只對詞匯單獨出現的頻率進行統計,很少考慮詞匯同時出現在同一篇文檔中的情況,本文中,改進的基于詞頻統計反饋學習算法如下: l 相關度和相異度的數學模型相關度:設x為一查詢關鍵詞,y為其語義相關詞,并且設x和y在搜索結果中被用戶選中的文檔中出現的次數分別是和,出現在同一篇文檔中的次數為;相應地,設x和y在搜索結果中未被用戶選中的文檔中出現的頻率分別是,和,那么y與x的相關度可用下式表示:相應地,相異度可以表示成:(2)其中,進一步,語義相關度為:(3)當simx,ydivx,y時,取min,否則取max。 用戶反饋學習能根據用戶對文檔的評價和用戶特征文檔集合,學習用戶的偏好。用戶描述文件存儲在服務器的服務器端排序方法步驟如下:1)用戶提交搜索請求Q2)搜索引擎獲得搜索結果集RSset,并按照PageRank或其它方法對搜索結果進行排序獲得原始搜索結果Rraw;3)搜索引擎根據存儲在服務器端的用戶描述文件P對原始搜索結果Rraw,進行個性化重新排序獲得個性化搜索結果Rper;4)搜索引擎服務器端分段或全部返回個性化搜索結果Rper_raw_n_i。用戶提交搜索請求后由服務器對搜索結果進行個性化重排序,并返回給客戶端。但是客戶端排序方法的缺陷在于分段進行原始搜索結果傳輸將影響搜索結果的質量,下面舉例說明。 個性化搜索排序問題l 客戶端排序客戶端排序的方法即是將用戶描述文件存儲在客戶端,搜索時用戶提交搜索請求到搜索引擎服務器,而服務器返回原始搜索結果,最終由客戶端進行個性化重排序??梢圆捎貌幌嚓P度計算是系統根據設定的一些不相關詞匯,計算信息與檢索目標的不相關程度,達到一定門檻值的才排除。信息過濾的一個方法就是在用戶的個性特征信息中,設定對應每一類信息的排除關鍵詞。(4)由于傳統Web瀏覽器的界面結構易于導致用戶進行深度優(yōu)先搜索,用戶容易忘記退回到過去的頁面以瀏覽某些自己感興趣的超鏈接。(2)用戶可能忽視某些自己感興趣的頁面,從而導致有些應該瀏覽的頁面未被瀏覽過。因為用戶的瀏覽過程帶有很大的隨機性,那些用戶瀏覽時間長的信息,并不一定是用戶真正想獲得的信息,用戶很可能在剛打開某個網頁后就有事離開了。系統通過監(jiān)視用戶的信息篩選過程能自動獲得用戶的信息需求方向,其方法是系統通過不斷地接收用戶在Web瀏覽時的相關信息,并將信息進行整理、組織,從中分析出用戶的信息偏好,系統再根據用戶這些信息偏好進行新的信息的推薦。 系統被動學習:被動學習是系統通過對用戶查詢行為進行記錄而實現的??梢赃x擇采用ODP[ 6 ] (Open Directory Project) ,即開放式分類目錄搜索系統來建立用戶個性化信息。事實上,要求用戶瀏覽過程中對頁面進行標注會干擾用戶的正常瀏覽,降低系統的可用性。另外,因為這種方式需要用戶主動填寫,系統的靈活性差,如果用戶未將自己己經變化了的興趣提交給系統,系統便無法獲知用戶新興趣和需求,也就無法根據用戶的新興趣及時提供給用戶所需的信息。信息搜索系統通過對用戶提交信息的分析,可以更有針對地提供信息服務。比較常見的方式是完成特定的用戶信息表,信息表中比較常見的問題如下用戶的性別、年齡、住址、所在地區(qū)、教育程度、行業(yè)類型、機構性質、職務關心信息類別的主題、搜索返回頁面的設置等等。 .用戶主動提供:用戶可以通過回答特定問題、提交關鍵詞、設定主題或參與訓練給出評價方式,主動地完成自己信息需求的設定。這些都給日志信息的收集和預處理造成了很大的困難。這種方法的缺點是,由于用戶訪問Web頁面時先從緩存中調用已存信息,從而導致服務器端日志文件記錄數據不完備。曾海泉等提出了一個基于Rough集的用戶興趣訪問模式的發(fā)現算法。Wexelblat等人提出了一個FootPrint的方法來發(fā)現用戶的訪問模式,其主要思想是利用訪問者訪問的“足跡”來發(fā)現新用戶的瀏覽路徑,并推算出用戶信息需求的方向。目前,對服務器端的個性化信息挖掘開展的較多。利用各種算法和數據挖掘方法,來分析用戶在不同域的分布情況、對資源的使用情況。將URL、動作、資源的類型、大小、請求的時間、請求者域名、用戶名、服務器狀態(tài)等信息作為維變量構建數據立方體。首先清除Web日志中無關的信息,比如請求失敗信息,然后將剩下的數據存放到數據庫中。個性化的使用記錄挖掘則傾向于分析單個用戶的偏好,其目的是根據不同用戶的訪問模式,為每個用戶提供定制的站點信息。從服務器端獲取用戶的相關信息主要包括兩個方面:一般的訪問模式挖掘和個性化的使用記錄挖掘。 服務器端挖掘:WWW中的每個服務器都有訪問日志(Web access log)文件,它記錄了關于用戶訪問和交互的信息,典型的日志包括以下信息:IP地址、請求時間、方法(如GET)、被請求文件的URL、HTTP版本號、返回碼、傳輸字節(jié)數、引用頁的URL(指向被請求文件的頁面)和代理。(3)系統被動學習,即監(jiān)視用戶的信息搜索與瀏覽過程??偟膩砜?,獲取用戶興趣與信息需求的的信息源主要有三個方面:(1)服務器端挖掘,即從服務器中分析獲取用戶興趣集合。實質上它是一個機器學習的過程,可以采用多種機器學習的方法來實現它。下表是幾種典型信息獲取系統用戶模型描述文件的比較:表 幾種典型信息獲取系統用戶模型系統名稱用戶特征的表示模型獲取用戶特征的信息源MY Yahoo用戶靜態(tài)信息用戶主動提供及選擇,用戶反饋AKT基于本體的用戶模版,顯示創(chuàng)建,顯示反饋用戶行為和顯式反饋信息Web Watcher基于加權關鍵詞矢量,隱式創(chuàng)建與更新利用文檔的超鏈接Cite Seer采用包含關鍵詞,URLs,引用等信息的文件集合,允許顯式創(chuàng)建或隱式創(chuàng)建,允許顯式或隱式更新用戶瀏覽行為和對推薦文檔的反饋Letizia基于加權關鍵詞矢量,隱式創(chuàng)建與更新用戶隱式反饋的信息,訪問和標記某網頁等行為BroadVision用戶靜態(tài)信息用戶注冊信息Syskillamp。對于每一步都應該有不同的個性特征信息進行指導,而且都應該是基于用戶個性特征知識的。下圖為其中的一種框架結構。而在服務器端,在用戶的個人描述文件和搜索請求一起被接收的時候,會在數據庫中搜索到與關鍵詞條相關的結果之后,將這些結果和用戶的個人描述文件進行匹配,并依據這一匹配將搜索結果重新排序,從而為不同的用戶提供與其興趣偏好更接近的個性化搜索排序結果。在客戶端,需要新增搜集用戶信息的功能,而用戶的信息被搜集后將構建成為用戶描述文件并存儲在文件系統或者數據庫中。綜上所述,個性化搜索的系統與方法已被廣為開發(fā),但是研究的重點還處于對搜索結果和用戶體驗的環(huán)節(jié),對于用戶個性化信息的搜集以及相應的排序還存在的一定的不足,需要進行進一步的研究。在服務器端重排可以很好的解決這個問題,例如Speretta等人[35]提出的基于歷史記錄的個性化搜索方法就是在服務器端存儲并使用用戶個人文件進行排序,Mladenic等人[19]提出基于機器學習的Webwatcher系統也使用這一方法。與此類似在客戶端進行重排序的算法還有Dulmais等人[36]提出的stuff I’ve Seen系統,Teevan等人[37]提出的基于胖模式的用戶信息搜集和建模方法,Shen等人[48]提出的隱含的個人信息模型方法、曾春等人[49]提出的基于內容的個性化搜索算法和Micarelli等人[50]提出的信息過濾系統等。個性化搜索中涉及到用戶描述文件的利用問題,目前有在客戶端利用這一文件進行結果重排序和在服務器端利用這一文件進行重排序兩類方法。Shen等人[48]提出的隱含的個人信息模型方法,利用搜索引擎返回的搜索結果和用戶模型向量的相似度進行結果重排序。Jeh等人[46]提出一個個性化的排序算法,這一算法為每一個用戶計算個性化的頁面排序向量并以此作為比較用戶興趣和頁面內容的依據。這些算法沒有利用用戶的任何信息,而是單純的利用網頁本身的屬性,因此也就無法提供符合用戶偏好的個性化搜索結果。但是標準
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1