freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學]基于xml的個性化搜索算法研究-展示頁

2025-01-27 13:16本頁面
  

【正文】 大、分類目前尚不規(guī)范,更新能力有限的缺點,沒有一個統(tǒng)一的控制詞表和參照標準,分類目錄差別較大。②門戶搜索引擎:如AOL search、MSN search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結果完全來自其他引擎。除上述四大類搜索引擎外,還有以下幾種非主流形式:①集合式搜索引擎:如HotBot在2002年底推出的引擎。需要一個類細致精確、數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。比較成功的元搜索引擎有metacrawler、dopile、MetaCrawler,SavySearch等。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性搜索功能的設置和用戶檢索界面的友好性上,其查全率和查準率相對比較高。例如Yahoo,Open Directory,Snap等。⑵目錄索引型搜索引擎:與基于網(wǎng)絡蜘蛛的搜索引擎所不同的是,目錄索引型的索引數(shù)據(jù)庫是依靠編輯人員人工建立起來的,這些編輯人員在訪問了某個web站點后根據(jù)一套自定的評判標準及主觀印象撰寫出對該站點的描述,并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個預先分好的類別分門別類地存放在相應的目錄中,用戶在查詢時,可以通過關鍵詞搜索,也可以按分類目錄逐層檢索。用戶可以用邏輯組合方式輸入各種關鍵詞,搜索引擎計算機根據(jù)這些關鍵詞尋找用戶所需資源的地址,然后根據(jù)一定的規(guī)則反饋給用戶包含此關鍵詞信息的所有網(wǎng)址和指向這些網(wǎng)址的鏈接。第二章 搜索引擎原理和體系結構 搜索引擎分類目前,搜索引擎主要有網(wǎng)絡蜘蛛搜索引擎、分類目錄索引型搜索引擎、元搜索引擎和主題搜索引擎等。第四章通過搜索引擎實現(xiàn)過程的特點,結合個性化模型,比較不同表示技術的適用范圍,引入新的信息抓取算法和去重消噪算法,并提出了新的排序算法,縮短了系統(tǒng)查詢響應時間。歸納總結出當前主要搜索引擎技術,分析比較優(yōu)缺點和適用范圍,通過分析其缺點,針對它們存在的不足確定了本文的研究內(nèi)容。本文的結構安排如下:第一章介紹了研究的背景,指出了搜索引擎及其關鍵技術的研究現(xiàn)狀和發(fā)展方向,論述了本課題的研究目的和意義,并給出了本文的主要研究內(nèi)容。下圖給出了XML的重點應用類型,其中基于XML的信息查詢是研究的重點。 XML的設計必須保持良好的格式和簡潔XML具有自描述性,可讀性強,規(guī)范的國際化,開放性和可擴展性,處理XML文件的程序容易編寫,內(nèi)容和表示的分離等特點和優(yōu)勢。 盡量減少可選項特性直至沒有216。 能夠與SGML兼容216。 可在因特網(wǎng)上直接使用216。XML超強的連接功能,結構化的表示方法,有語義接口等特性,使得基于XML的信息檢索可以實現(xiàn)信息自動抽取、交換和集成,能提高檢索系統(tǒng)的查準率和效率[11]。但HTML使用的SGML標記意義都是固定的,這樣HTML語法就是不能擴展的。 XML簡述XML(eXtensible Markup Language)是近年來發(fā)展應用非常迅速的一種技術,已經(jīng)成為下一代Web表示的事實標準。該技術目前還處于初步研究階段,主要的困難在于語言之間在表達方式和語義對應上的不確定性。(4)重視交叉語言檢索的研究和開發(fā)交叉語言信息檢索是指用戶用母語提交查詢,搜索引擎在多種語言的數(shù)據(jù)庫中進行信息檢索,返回能夠回答用戶問題的所有語言的文檔。索引器可以將索引分布在不同的機器上,以減小索引對機器的要求。搜索引擎的各個組成部分,除了用戶接口之外,都可以進行分布。(3)采用分布式體系結構提高系統(tǒng)規(guī)模和性能搜索引擎的實現(xiàn)可以采用集中式體系結構和分布式體系結構,兩種方法各有千秋。智能代理具有不斷學習、適應信息和用戶興趣動態(tài)變化的能力,從而提供個性化的服務。(2)基于智能代理的信息過濾和個性化服務信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機制。② 是進行站點類聚或內(nèi)容類聚,減少信息的總量。解決查詢結果過多的現(xiàn)象目前出現(xiàn)了以下幾種方法:① 是通過各種方法獲得用戶沒有在查詢語句中表達出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型。主要有以下幾個方面:(l)提高信息查詢結果的精度來提高檢索的有效性用戶在搜索引擎上進行信息查詢時,并不十分關注返回結果的多少,而是看結果是否和自己的需求吻合。因為它要用到信息檢索、人工智能、計算機網(wǎng)絡、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領域的理論和技術,所以具有綜合性和挑戰(zhàn)性。每臺微機運行多個爬蟲程序搜集網(wǎng)頁的峰值速度是每秒100個網(wǎng)頁,一天可以搜集超過4000000網(wǎng)頁[9]。另一類是用戶信息的反饋,DirectHit系統(tǒng)采用的就是這種方法。由于搜索返回數(shù)據(jù)量過大,檢索結果相關度評價成為研究的焦點。隨著索引數(shù)據(jù)庫的規(guī)模繼續(xù)增大,一般的商業(yè)搜索引擎都保持在幾千萬甚至上億個網(wǎng)頁。Ixquick、Webcraler、Profusion等都是知名的元搜索引擎[8]?;讵毩⑺阉饕娴臋z索結果進行二次加工。元搜索引擎又稱為集合式搜索引擎,是一種基于獨立搜索引擎的搜索引擎,它通過自己定制的檢索界面接受并處理用戶的查詢提問,在進行實際查詢時調(diào)用一個或多個獨立搜索引擎的數(shù)據(jù),搜索結果是來自獨立搜索引擎的檢索結果或者是這些結果集合的綜合。Northern Light的“Special Collection”。還有一些搜索引擎著力于開拓網(wǎng)絡上的信息資源,針對Web上的數(shù)據(jù)庫資源進行導航和信息服務,善于揭示不可見的非Web信息資源。Ask Jeeves是第一個實現(xiàn)智能查詢系統(tǒng)的搜索引擎,對自然語言提問進行結構和內(nèi)容分析。這種情況迫使人們更加需要搜索引擎技術來提高服務質(zhì)量。提供某個領域的電子商務信息,如軟件屋之類。提供專業(yè)信息服務,如北大法律信息網(wǎng)(法律)。垂直門戶網(wǎng)站可以分為專業(yè)領域垂直門戶和綜合垂直門戶。隨著國際互連網(wǎng)的發(fā)展和用戶對搜索引擎要求的提高,在該階段也產(chǎn)生了垂直門戶網(wǎng)站。因其提供的是免費的大眾化綜合性信息服務,所包括的范圍廣泛但不深入,故被稱為水平門戶網(wǎng)站。搜索引擎的發(fā)展經(jīng)歷了以下三個階段:⑴ 第一代搜索引擎Yahoo模式為典范。第二代的搜索引擎是基于文檔主題的文檔分類。它是一種在Web上應用的軟件系統(tǒng),它以一定的策略在Web上搜集和發(fā)現(xiàn)信息,在對信息進行處理和組織后,為用戶提供Web信息查詢服務,從使用者的角度上看,這種軟件系統(tǒng)提供一個網(wǎng)頁界面,讓她通過瀏覽器提交一個詞語或者短語,然后很快返回一個可能和用戶輸入內(nèi)容相關的信息列表,這個列表的每一條目代表一篇網(wǎng)頁,每個條目至少有三個元素:標題,URL,摘要[4]。(3)本文在信息表示時,采用了XML統(tǒng)一表示方法,對網(wǎng)絡信息表示在信息檢索領域中的優(yōu)化和提高有一定的借鑒意義。(l)本文針對搜索引擎對所有用戶顯示相同結果,沒考慮用戶使用行為特征的問題,展開了個性化搜索引擎的研究,這改變了傳統(tǒng)搜索引擎的設計思路和理念。 研究意義Web的出現(xiàn)改變了人們進行信息檢索的方式,搜索引擎成為人們獲取信息的主要方式,信息檢索的對象也從結構化的數(shù)據(jù)轉向半結構、無結構化的數(shù)據(jù)。而現(xiàn)在的搜索引擎針對這個問題存在著各種缺陷,造成這種困難的實質(zhì)在于Web信息檢索系統(tǒng)(即搜索引擎)缺乏知識處理能力和理解能力,HTML信息表示非結構化,信息抽取算法能力不足、對要檢索的信息僅僅采用機械的關鍵詞匹配來實現(xiàn),信息的特征沒有包含語義信息,沒有在結構和內(nèi)容上進行融合,用戶模型功能單一,缺少推送機制等。Internet上大約有近億個工作站,用戶有充分的自由,可以隨意鏈接到Internet的任意站點上,而且用戶具有不同的背景、不同的興趣和使用目的,因此,Web用戶群體也表現(xiàn)出多樣性的特點。與此同時,隨著個性化技術的高速發(fā)展,網(wǎng)絡的個性化服務需求增大。而XML的出現(xiàn),使上述問題都得到很好的解決。雖然現(xiàn)在有些搜索引擎可以對搜索結果進行打分并按得分的高低來呈現(xiàn)給用戶, 但是由于沒有考慮到用戶個人的興趣愛好,不同用戶對于同樣的搜索關鍵詞搜索出的信息是相同的,這樣做并不能完全滿足用戶的要求[1] ,如何從中快速準確的發(fā)掘所需信息已經(jīng)成為人們所關注的一個重要問題。第一章 緒論隨著Internet 網(wǎng)絡的普及和WWW 的迅猛發(fā)展,網(wǎng)絡已成為人們獲得信息的必要途徑和重要手段,網(wǎng)絡中的海量信息既給人們帶來方便,也帶來了許多問題。信息浩如煙海,為找到有用信息,人們經(jīng)常要耗費大量寶貴的時間, 所以近年來Internet 個性化搜索服務越來越引起人們的關注。同時互聯(lián)網(wǎng)上XML文檔的不斷增多,對XML數(shù)據(jù)的使用越來越依賴于互聯(lián)網(wǎng)搜索引擎強大的檢索能力,在XML(eXtensible Markup Language)發(fā)布之前,國際互聯(lián)網(wǎng)的發(fā)展受到以下束縛:HTML無法描述數(shù)據(jù)內(nèi)容,對數(shù)據(jù)表現(xiàn)的描述能力十分不夠,如還不能描述矢量圖形、科學符號等對象,而這一點恰恰是數(shù)據(jù)檢索、電子商務所必須的,完全不能適應對新標記需求的發(fā)展需要。隨著越來越多的Web數(shù)據(jù)開始采用XML進行描述、存儲、交換和表現(xiàn),基于XML文檔的信息查詢能力變得日益重要[2]。Internet上存貯了大量的文檔、圖形、圖像、音頻數(shù)據(jù)、商業(yè)數(shù)據(jù)、天氣和水文數(shù)據(jù)、電子政務和電子商務信息等,表現(xiàn)出了Web數(shù)據(jù)的多樣性;而Internet本身也具有非結構化、動態(tài)性、不完全性、混沌等特點,體現(xiàn)了巨大、分布、多維的特性。不同層次、不同愛好和不同瀏覽器有不同興趣和行為偏好的用戶需要不一樣的信息,因此對特定的用戶開展個性化的信息查詢是新的檢索工具所必有功能。新的信息檢索系統(tǒng)要利用Web挖掘、機器學習、人工智能等先進計算機技術改進用戶模型,優(yōu)化信息抽取、特征選擇、相關分析等算法,完善推送機制,實現(xiàn)個性化服務,這是解決問題的根本和關鍵,研發(fā)的焦點更是集中在如何更有效滿足用戶個性化需求等方面[3]。近年來基于Web的個性化、智能化信息檢索研究正逐步展開,它將改變并解決目前搜索引擎中遇到的各種問題和矛盾,提供從信息過渡到知識的檢索方式,有效提高系統(tǒng)的基本效率。(2)本文針對個性化搜索算法中的關鍵技術進行了研究和開發(fā),為提高搜索引擎的效率提供了新的方法。搜索引擎是一種聯(lián)機信息檢索系統(tǒng),它為人們提供了檢索Web上相關信息的方法。 研究現(xiàn)狀卡內(nèi)基梅隆大學教授Tom Mitchell在MIT的刊物Technology Review上發(fā)表文章,指出第一代的搜索引擎是基于關鍵詞的搜索。第三代的搜索引擎是目前的研究重點和熱點,目前信息檢索的主要任務是“實體抽取”(Entity Extraction)[5]。它是一個綜合性網(wǎng)站,通過等級列舉式瀏覽檢索和關鍵詞檢索查詢因特網(wǎng)上各類學科領域的內(nèi)容,提供的服務種類多而且涉及的領域廣。其代表如Yahoo、Excite、Lycos等,到現(xiàn)在己從一個單一的搜索引擎發(fā)展到有電子商務、新聞信息服務和個人免費電子信箱服務等多種網(wǎng)絡服務,充分說明了搜索引擎的發(fā)展從單一到綜合的過程[6]。它在1999年提出,針對某一特定領域、特定人群或特定需求提供有一定深度的信息和相關服務,[7]。專業(yè)領域垂直門戶又可分為提供特定領域信息服務,如:中華萬游網(wǎng)(旅游)、(廣告)。為滿足特定人群需求提供信息,如考研網(wǎng)(準備考研究生的學生)、集郵網(wǎng)(集郵愛好者)。⑵第二代搜索引擎以Google為代表,隨著網(wǎng)上信息的爆炸式增長和信息形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種信息需求。該幾段的搜索引擎不斷采用新的技術,如Google采用鏈接評價體系,根據(jù)網(wǎng)頁鏈接數(shù)量評價文件的重要性。Hotlinks通過挖掘人們?nèi)粘J褂玫臅?或收藏夾)的潛在價值,形成一個類似Yahoo的分類搜索體系,從而成為一個有力的輔助工具。如以非Web信息導航服務為主的Direct search,Cos Invisible Web Catalog,ISleuth等。由于任何一個搜索引擎都不可能100%覆蓋網(wǎng)絡上的信息,用戶通常需要檢索多個搜索引擎才能獲得較全面的檢索效果,于是在該階段的后期產(chǎn)生了元搜索引擎。元搜索引擎區(qū)別于獨立搜索引擎的主要特征是:將一次提問提交給多個搜索引擎。標明結果記錄的來源搜索引擎及其相關度。⑶第三代搜索引擎現(xiàn)在是應用和研究的熱點。除了一般意義上的搜索以外,開始出現(xiàn)主題搜索和地域搜索,個性化搜索等新概念和技術。相關的研究又可以分為兩類:一類是對超文本鏈接的分析,在這方面Stanford大學的Google系統(tǒng)和IBM的Clever系統(tǒng)做出了很大的貢獻。Northern Light和Inktomi的Directory Engine都在一定程度上開始使用自動分類技術,在web挖掘和分布式處理上面做研究,如Google正在用3000臺運行Linux系統(tǒng)的個人電腦在搜集Web上的網(wǎng)頁,而且以每天30臺的速度向這個微機集群里添加電腦,以保持與網(wǎng)絡的發(fā)展相同步。 發(fā)展趨勢搜索引擎已成為一個新的研究和開發(fā)領域。又由于搜索引擎擁有大量的用戶,蘊藏巨大的經(jīng)濟價值,所以引起了世界各國計算機科學界和信息產(chǎn)業(yè)界的高度關注,目前的研究、開發(fā)十分活躍,并出現(xiàn)了很多值得注意的動向。對于一個查詢,傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結果中篩選。使用相關度反饋機制,使用戶告訴哪些搜索引擎文檔和自己的需求相關(及其相關的程度),哪些不相關,通過多次交互逐步求精。③ 是用正文分類技術將結果分類,使用可視化技術顯示分類結構,用戶可以只瀏覽自己感興趣的類別。它使用自動獲得的領域模型(如Web知識、信息處理、與用戶興趣相關的信息資源、領域組織結構)、用戶模型(如用戶背景、興趣、行為、風格)知識進行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾),并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理可以在用戶端進行,也可以在服務器端運行。但當系統(tǒng)規(guī)模到達一定程度(如網(wǎng)頁數(shù)量達到億級)時,必然要采用某種分布式方法,以提高系統(tǒng)性能[33]。搜索器可以在多臺機器上相互合作、相互分工進行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度。檢索器可以在不同的機器上進行文檔的并行檢索,以提高檢索的速度和性能。如果再加上機器翻譯,返回結果可以用母語顯示。但對于經(jīng)濟全球化、互聯(lián)網(wǎng)跨越國界的今天,無疑具有很重要的意義[10]。它由萬維網(wǎng)聯(lián)盟(W3C)設計,同HTML一樣,是通用標記語言SGML(Dtandard General Markup Language)的一個子集。而XML則是可自定義標記語言,實現(xiàn)了內(nèi)容和樣式的分離,因
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1