freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學]基于xml的個性化搜索算法研究-在線瀏覽

2025-03-07 13:16本頁面
  

【正文】 而具有良好的數(shù)據(jù)存儲能力,高度的結(jié)構(gòu)化,超強的超級連接,可以更好地滿足搜索引擎領域的要求。提出XML的目的是:216。 能支持廣泛的應用216。 使得處理XML的應用程序較容易書寫216。 方便人類閱讀和理解216。由于XML本身具有的特點和優(yōu)勢,它已經(jīng)被廣泛的應用在許多場合,如電子商務、知識管理、文檔管理等。XMLCorbaJavaBusinessEmerceSearchEnginesDatabaseSystemXML to the WebNewsData EditorsDocument Editors圖 XML的應用分類本文在分析個性化搜索引擎的體系結(jié)構(gòu)的基礎上,探討了影響個性化搜索結(jié)果的各種因素和技術,提出了以用戶為核心的個性化搜索引擎的模型,并研究了個性化信息獲取、信息去噪和相關排序等關鍵技術對搜索性能的影響,以期為搜索引擎技術優(yōu)化的深入研究提供一些借鑒。 第二章介紹了搜索引擎的體系結(jié)構(gòu)和基本構(gòu)成,包括搜索引擎技術的原理、工作過程、性能模型、關鍵技術實現(xiàn)等。第三章是詳細介紹了個性化搜索引擎中個性化搜索算法歸納總結(jié)出個性化搜索代表算法, 本文的重點,通過對日志文件以及用戶瀏覽行為的研究比較,完成了本文的重點,通過對日志文件以及用戶瀏覽行為的研究比較,完成了用戶模型的生成及算法的實現(xiàn),并進行了個性化搜索引擎系統(tǒng)的系統(tǒng)結(jié)構(gòu)模型的設計。第五章對本文工作進行歸納總結(jié)并指出了課題需要進一步研究的工作。⑴基于網(wǎng)絡蜘蛛的搜索引擎:隨著因特網(wǎng)信息量幾何式地增加,全文索引搜索引擎利用一種稱之為“網(wǎng)絡蜘蛛”的全文數(shù)據(jù)采集技術,沿著HTML文檔鏈接在網(wǎng)上爬行,自動搜集網(wǎng)頁內(nèi)容、建立索引或進行主題分類、獲取頁面TITLE及主要關鍵詞存入數(shù)據(jù)庫以供查詢。此類搜索引擎最為著名的有Google,Baidu,Nothern Light,Alta Visa,Infoseek等。目錄搜索引擎是由編輯人員訪問、分析與歸類網(wǎng)站,以超文本鏈接方式將不同學科、專業(yè)或區(qū)域的信息按照分類或主題組織,建立樹狀結(jié)構(gòu)的可供檢索和查詢的等級式主題目錄索引數(shù)據(jù)庫,并保存各類網(wǎng)站的站名、網(wǎng)址及內(nèi)容提要等。⑶元搜索引擎:將用戶提交的檢索請求送到多個獨立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱[12]。它特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫,當用戶查詢一個關鍵詞時,它把用戶的查詢請求轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式,并行地訪問數(shù)個搜索引擎來查詢這個關鍵詞,并把這些搜索引擎返回的結(jié)果經(jīng)過處理后再返回給用戶。⑷主題搜索引擎:隨著信息多元化的增長,給所有用戶同一個入口顯然已經(jīng)不能滿足特定用更深入的查詢需求。由于主題搜索用了人工分類以及特征提取等智能化策略,將這類完善的主題搜索引擎稱為第三代搜索引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時調(diào)用多個引擎進行搜索,而是由用戶從提供的四個引擎當中選擇,因此叫它“集合式”搜索引擎更確切些。③免費鏈接列表(Free For All Links,簡稱FFA):這類網(wǎng)站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起Yahoo等目錄索引來要小得多[13]。目錄體系包含分類與鏈接過多,不便于瀏覽檢索,并且采用人工干預技術,數(shù)據(jù)庫數(shù)據(jù)更新緩慢,工作量大且查全率低?;赟pider搜索引擎采用機器人搜索技術,數(shù)據(jù)庫自動標引與更新,不需要人工參與而且查全率高l4]。Web信息檢索系統(tǒng)就是采用這種基于網(wǎng)絡蜘蛛的搜索引擎技術,下面提到的搜索引擎實際上就是指這種類型。InternetRobot 1Robot n分析器索引數(shù)據(jù)庫……索引器檢索器用戶接口圖 搜索引擎的基本組成⑴網(wǎng)上蜘蛛:網(wǎng)上蜘蛛也稱Robot(電腦“機器人”)、crawle:或wnader,它指的是某個能夠不間斷地執(zhí)行某種任務的軟件程序。世界上第一個用于監(jiān)測互聯(lián)網(wǎng)的“機器人”程序是馬太剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名??扑固赜?993年10月創(chuàng)建了ALIWEB,它是Aerhie的HTTP版本。網(wǎng)上蜘蛛一般采用廣度優(yōu)先(或者深度優(yōu)先)的策略對Web進行遍歷并下載文檔。網(wǎng)上蜘蛛從這些URL出發(fā),下載相應的頁面,并從中抽取出新的超鏈加入到隊列(或者堆棧)中。為了提高效率,搜索引擎中可能會有多個網(wǎng)上蜘蛛進程同時遍歷不同的Web子空間。文檔分析技術一般包括:分詞、過濾和轉(zhuǎn)換等。在分詞時,大部分系統(tǒng)從全文中抽取詞條,而有些系統(tǒng)僅從文檔的某些部分(例如titel,header等)中抽取。分詞后通常要使用禁用詞表(stoplist)來去除對于區(qū)別文擋作用很低的詞條,有一些系統(tǒng)還對詞條進行單/復數(shù)轉(zhuǎn)換、詞綴去除(stemmnig)、同義詞轉(zhuǎn)換(eodation)等工作。例如,在矢量空間索引模型中,每個文檔d被表示為一個規(guī)范化矢量V(d)=(t1,w1(d)。ti,wi(d)),其中ti為詞條項,wi(d)為ti在d中的權值,一般被定義為ti在d中出現(xiàn)頻率F(ti)的函數(shù)。一個好的索引模型應該易于實現(xiàn)和維護,檢索速度快,空間需求低。索引器在建立好索引之后,進行擴充和更新數(shù)據(jù)庫。(5)檢索器:當用戶使用搜索服務時,檢索器的作用是從索引中找出與用戶查詢請求相關的頁面文檔。然后根據(jù)關聯(lián)程度高低,將關聯(lián)程度大于閩值的所有網(wǎng)頁按照相關度遞減的順序排列,按順序?qū)⑦@些網(wǎng)頁返回給用戶。……?!?。相關度可以表示為查詢矢量V(q)與文檔矢量V(d)之間的夾角余弦,如圖。(6)用戶接口:用戶接口為用戶提供可視化的查詢輸入和結(jié)果輸出。在輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個線性的文檔列表,其中包含文檔的標題、摘要和URL等信息。標準搜索引擎的自動信息搜集功能一般通過兩種方式實現(xiàn):一種是定期搜索,即搜索引擎定期主動派出“蜘蛛”程序,對一定PI地址范圍內(nèi)的網(wǎng)站進行檢索,一旦發(fā)現(xiàn)更新或新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。Web信息是動態(tài)變化的,舊的頁面不斷被更新(包括內(nèi)容改變、位置移動等)和刪除,新的頁面不斷出現(xiàn)。搜索引擎的索引更新周期通常約為幾個月,索引數(shù)據(jù)庫越大,更新也越困難。(1)從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的網(wǎng)絡蜘蛛程序自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁。(2)建立索引數(shù)據(jù)庫由索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關系等),根據(jù)一定的相關度算法進行大量復雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫。(4)對搜索結(jié)果進行處理排序所有相關網(wǎng)頁針對該關鍵詞的相關信息在索引庫中都有記錄,只需綜合相關信息和網(wǎng)頁級別形成相關度數(shù)值,然后進行排序,相關度越高,排名越靠前。 搜索引擎關鍵技術(1)信息的收集和存儲技術網(wǎng)上信息收集和存儲一般分為人工和自動兩種方式。研究人員對網(wǎng)站進行調(diào)查篩選、分類、存儲。自動方式通常是由搜索程序來完成的。這種軟件定期在Internet上漫游,通過網(wǎng)頁間的鏈接順序地搜索新的地址,當遇到新的網(wǎng)頁時,就給該網(wǎng)頁上的某些字或全部字作上索引并把它加到搜索引擎的數(shù)據(jù)庫中,由此,搜索引擎的數(shù)據(jù)庫得以定期的更新。信息的存儲則是根據(jù)不同的分析結(jié)果和要求,針對提取的索引和查詢目的而進行的。(2)信息的預處理技術信息的預處理包括信息的格式支持與轉(zhuǎn)換以及信息過濾。從實際的情況看,所有的搜索引擎都支持HTML格式,而對于其它文件格式的支持則不同的搜索引擎有不同的規(guī)定,最多的能支持200多種文件格式。同時搜索引擎還應具備信息格式轉(zhuǎn)換功能,以保證不同的格式的數(shù)據(jù)均能在網(wǎng)絡流通。在Internet上,存在有大量的無用信息,一個好的搜索引擎應當盡量減少垃圾站點的數(shù)量,這是信息過濾要著重解決的問題[44]。建立索引主要涉及到以下幾個問題:①信息語詞切分和語詞詞法分析語詞是信息表達的最小單位,由于語詞切分中存在切分歧義,切分需要利用各種上下文知識。②進行詞性標注及相關的自然語言處理:詞性標注是指利用基于規(guī)則和統(tǒng)計(馬爾可夫鏈)的數(shù)學方法對語詞進行標注??衫枚喾N語法規(guī)則識別出重要的短語結(jié)構(gòu)。③建立檢索項索引:使用倒排文件的方式建立檢索項索引,一般包括“檢索項”,“檢索項所在文件位置信息”以及“檢索項權重”。搜索引擎一般應按與查詢的相關程度對檢索結(jié)果進行排列,搜索引擎確定相關性的方法有概率方法、位置方法、摘要方法、分類或聚類方法等。這種方法對關鍵詞出現(xiàn)的次數(shù)進行統(tǒng)計,關鍵詞出現(xiàn)的次數(shù)越多,該文件與查詢的相關程度越高。關鍵詞在文中出現(xiàn)的越早,文件的相關程度越高。分類或聚類方法是指搜索引擎采用分類或聚類技術,自動把查詢結(jié)果歸入到不同的類別中[46]。Sweet[15]給出了一個評價信息獲取系統(tǒng)性能的變化表,見表1一l,這個表顯示了系統(tǒng)搜索結(jié)果和文檔相關性評價之后的文檔集合的狀態(tài)。l為查詢結(jié)果中不相關文檔數(shù)。d為不相關的文檔,也沒有被檢索到。則查準率是既相關又被檢索到的實際文檔與檢索到的文檔的百分比,而查全率是既相關又被檢索到的實際文檔與查詢相關的文檔的百分比。但是,評價搜索引擎效率,不能依靠單個搜索特征,有時即使知道各個特征值,也不能準確評價搜索引擎的性能。影響一個搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息搜集策略和檢索模型,包括索引庫的更新頻率和策略、文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結(jié)果的排序方法和用戶進行相關度反饋的機制。但因為期望值的不斷增加和搜索引擎技術的制約等方面的原因,人們對搜索引擎的滿意度在逐漸降低。 搜索的精度不高。216。一個查詢返回的結(jié)果可能有數(shù)千條,與用戶需求最相關的信息可能排在最后。這是由于除了導航站點外的搜索引擎一般采用全文檢索的模式,即對整個網(wǎng)頁進行掃描,只要在網(wǎng)頁上有匹配的詞語就把網(wǎng)頁作為查詢結(jié)果返回。216。用戶在進行息檢索時,都需要登陸到一個特定的引擎或是網(wǎng)站,而發(fā)出請求之后又需要耐心的等待,在一定程度上浪費了用戶的時間。 沒有針對不同用戶的個性化的信息搜索服務。 小結(jié)本章在介紹搜索引擎的類型基礎上,指出了本文研究的對象為基于網(wǎng)絡蜘蛛的搜索引擎,在介紹了搜索引擎的體系結(jié)構(gòu)和工作流程以及評價的性能指標后,分析了現(xiàn)有搜索引擎存在的主要問題。而要真正實現(xiàn)個性化的信息服務,就應該對用戶的瀏覽習慣、個人愛好、知識領域、學術領域及工作領域進行研究、分類。而個性化搜索的關鍵是用戶個性特征信息的獲取、表示、轉(zhuǎn)換和應用。進一步把個人信息轉(zhuǎn)化為知識,完成個性化的知識發(fā)現(xiàn)、知識管理、知識應用[16]。第三章 個性化搜索算法研究 個性的定義對于個性有以下幾種解釋:216。指個人特有的心理特性,其中包括遺傳的及學習的種種特質(zhì)。 個性指一個人區(qū)別于其他人的比較固定的特性。 個性是指一事物區(qū)別于其他事物的個別的、特殊的性質(zhì)。一毛澤東《矛盾論》。 在美國傳統(tǒng)詞典(雙解)中個性指Individuality。強調(diào)作為個體的人或事物與其他人或事物不同的性質(zhì)和特點。216。主要有三方面含義:(1)The totality of qualities and traits,as of character or behavior,that are peculiar to a specific pesron。(2)The pattern of collective character,behavioral,tempermaental,emotional,and mental traits of a person。(3)Distinctive qualities of a person,especially those distinguishing personal characteristics that make one socially appealing。簡單的說,個性即差異,本意是指個人特有的能力、氣質(zhì)、興趣、性格等心理特性的總和。例如,一個網(wǎng)站的個性,是指它區(qū)別于其它網(wǎng)站的標志。 個性化搜索的現(xiàn)狀搜索引擎的個性化趨勢是搜索引擎的一個未來發(fā)展的重要特征和必然趨勢,因此也一直以來都是業(yè)界領袖們各自展現(xiàn)智慧的領域。通過搜索引擎的社區(qū)化產(chǎn)品(即對注冊用戶提供服務)的方式來組織個人信息,然后在搜索引擎基礎信息庫的檢索中引入個人因素進行分析,獲得針對個人不同的搜索結(jié)果,如Google 搜索歷史。但是無論其中的哪一種實現(xiàn)方式,即Google 的主動選擇搜索范圍,還是yahoo vivisimo 的在結(jié)果中重新組織自己需要的信息,都是一種實驗或者創(chuàng)想,短期內(nèi)無法成為主流的搜索引擎應用產(chǎn)品。但是這方面目前還沒有特別成功的案例。當然目前這方面也沒有成功的案例。目前,一些信息供應商提出了個性化信息服務的概念,如Yahoo,Physician Information customizer和Fish Warp System,提出了個性化(Personalize)信息搜索。有代表性的個性化信息服務系統(tǒng)及方法如下:216。其思想是根據(jù)用戶提供的術語以及以往搜索成功與失敗的經(jīng)驗,建立一種中介索引。216。著名的導航器,它幫助用戶在網(wǎng)上導航,同時研究其瀏覽習慣,通過對用戶選擇“鏈路”或站點的跟蹤學習,改善導航質(zhì)量。216。這個系統(tǒng)中用戶的個性信息包括用戶訪問過的網(wǎng)頁、用來索引這些網(wǎng)頁的標題及用戶關于各個網(wǎng)頁的評價反饋(不相關,有一些相關,非常相關)。因而此系統(tǒng)記錄了用戶明確表達的興趣信息,及用戶對系統(tǒng)提供網(wǎng)頁的相關性評價等個性特征信息,由這些特征系統(tǒng)自動生成實時變化的用戶興趣集合。216。這個系統(tǒng)除了完成用戶輸入信息的查詢工作外,還可以根據(jù)用戶的反饋自動地更新關鍵詞表,跟蹤用戶興趣的變化,并把這些信息存儲起來,作為以后查詢的依據(jù)。但是用戶個性是一個多維的、變化的范疇。 個性化搜索算法的研究現(xiàn)狀個性化搜索是繼人工分揀的分類目錄搜索和機器抓取網(wǎng)頁的關鍵字匹配搜索之后的第
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1