freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎排序算法的分析與研究碩士學(xué)位論文-資料下載頁(yè)

2025-06-28 15:17本頁(yè)面
  

【正文】 。目錄型搜索引擎的分類(lèi)體系一般是根據(jù)所采集的資源范圍來(lái)設(shè)計(jì)目錄體系的,或者采用圖書(shū)分類(lèi)方法,所以不同的搜索引擎其分類(lèi)也各不相同。目錄型搜索引擎和檢索型搜索引擎各自更適用于不同的搜索需求,兩者可以相互補(bǔ)充,但不可以相互替代。當(dāng)用戶(hù)需要查找關(guān)于某類(lèi)內(nèi)容的資料或某個(gè)網(wǎng)站時(shí),目錄型搜索引擎是最適用的。而查詢(xún)一些比較具體的資料時(shí),用檢索型搜索更好。而現(xiàn)在的大多數(shù)搜索引擎都同時(shí)提供檢索關(guān)鍵詞和目錄瀏覽兩種檢索方式,這成為混合型搜索引擎,它可以借助于分類(lèi)目錄來(lái)縮小檢索范圍,達(dá)到更為精確和更高效的檢索結(jié)果。3 ) 元搜索引擎(Meta Search Engine) [19]由于單個(gè)搜索引擎的覆蓋范圍往往不會(huì)太廣,為了找到自己所需要的信息,用戶(hù)常常需要使用多個(gè)搜索引擎,以期找到更多更全的信息,但由于不同的搜索引擎其查詢(xún)語(yǔ)法、接口界面往往不同,需要用戶(hù)重新學(xué)習(xí)和適應(yīng)不同的檢索方法,這給用戶(hù)使用多個(gè)搜索引擎帶來(lái)了極大的不便。為了解決這個(gè)問(wèn)題,研究人員開(kāi)發(fā)了元搜索引擎。元搜索引擎是獨(dú)立于索引系統(tǒng)的查詢(xún)工具,它統(tǒng)一了不同的搜索引擎的查詢(xún)接口,用戶(hù)面對(duì)的多個(gè)搜索引擎的界面是一樣的,由統(tǒng)一的元搜索引擎的接口對(duì)用戶(hù)的查詢(xún)請(qǐng)求進(jìn)行處理,分別將其查詢(xún)轉(zhuǎn)換為符合底層搜索引擎查詢(xún)語(yǔ)法的子查詢(xún),同時(shí)向多個(gè)搜索引擎遞交,由底層搜索引擎在各自的索引數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún),在各個(gè)搜索引擎返回檢索結(jié)果后,元搜索引擎將子查詢(xún)結(jié)果進(jìn)行匯總、去重、重新排序等處理,最后向用戶(hù)返回搜索引擎的檢索結(jié)果。元搜索引擎一般都沒(méi)有自己的數(shù)據(jù)庫(kù),而是利用其它的搜索引擎的數(shù)據(jù)庫(kù)來(lái)進(jìn)行服務(wù)。在層次上,元搜索引擎要比檢索型搜索引擎和目錄型搜索引擎要高,缺點(diǎn)是不能夠充分使用下層搜索引擎的排序功能,用戶(hù)需要做更多的篩選。這類(lèi)搜索引擎的代表是 Meta Crawler、 Sary Search、Informaker 等。例如 Meta Crawler 可以同時(shí)檢索九個(gè)搜索引攀,有 Yahoo、 OpenText、 Lycos、WebCrawler、InfoSeek、 Excite、Inktomi 、Galaxy、Alta vista 等。 4) 信息檢索代理(Agent)信息檢索代理 Agent 是一種主動(dòng)信息檢索技術(shù),它可以根據(jù)用戶(hù)事先定義的信息檢索要求,甚至能從用戶(hù)的日常檢索行為、瀏覽行為中學(xué)習(xí)用戶(hù)興趣,推理用戶(hù)隱含的需求,并利用已有的檢索服務(wù)(如上述檢索服務(wù)系統(tǒng)),主動(dòng)從Web 上檢索相應(yīng)的信息資源,實(shí)時(shí)監(jiān)測(cè)信息源的動(dòng)態(tài)變化等,并將有關(guān)信息以電子郵件的方式或其它方式,及時(shí)主動(dòng)地通知用戶(hù)。 如:Washington 大學(xué)開(kāi)發(fā)第二章 搜索引擎概述12的 ShopBot, Canegie Mellon 大學(xué)開(kāi)發(fā)的 Web Watcher[20], Standford 大學(xué)開(kāi)發(fā)的Fab[21]等代理系統(tǒng)。5) 分布式搜索引擎(Distributed)分布式搜索引擎和集中式搜索引擎是相對(duì)而言的。集中式搜索引擎所有功能都集中在一臺(tái)服務(wù)器上,存在著數(shù)據(jù)庫(kù)過(guò)大、維護(hù)困難、查詢(xún)效率及可靠性不高等缺點(diǎn)。而分布式搜索引擎從體系結(jié)構(gòu)上解決了這個(gè)難題,它主要是根據(jù)地域、主題或其它的劃分標(biāo)準(zhǔn)建立分布的子檢索服務(wù)器,索引數(shù)據(jù)庫(kù)由分布的數(shù)據(jù)庫(kù)組成。因?yàn)閿U(kuò)充性較好,所以搜索引擎覆蓋的范圍可以變得很大,而且各子服務(wù)器能夠進(jìn)行獨(dú)立搜索,相互之間可以交換信息。如果一個(gè)檢索服務(wù)器上沒(méi)有用戶(hù)所需要的信息,查詢(xún)請(qǐng)求將被重定向,被發(fā)送到別的子檢索服務(wù)器上繼續(xù)查詢(xún)。分布式搜索引擎的優(yōu)點(diǎn)在于各個(gè)子服務(wù)器能協(xié)同工作,共享他們所搜集的信息,從而具有較高的整體吞吐能力,劃分之后的索引數(shù)據(jù)庫(kù)各自索引各自的區(qū)域,每個(gè)索引數(shù)據(jù)庫(kù)較小,重復(fù)信息沒(méi)有或很少,這大大提高了查詢(xún)的響應(yīng)速度,各個(gè)子服務(wù)器同時(shí)進(jìn)行收集工作,減少了獲取信息的時(shí)間。像Web Ants, NWI 等就是這類(lèi)搜索引擎。Inktomi [22]就是由 160 臺(tái) SUN 工作站構(gòu)成的分布式搜索引擎,每臺(tái)工作站的索引數(shù)據(jù)庫(kù)內(nèi)容不同,這些工作站通過(guò)局域網(wǎng)由專(zhuān)門(mén)的 Web 服務(wù)器向用戶(hù)提供查詢(xún)服務(wù)。6) 基于客戶(hù)端的搜索引擎(ClientBased)基于客戶(hù)端的搜索引擎將排序算法內(nèi)嵌在 Web 客戶(hù)程序 (如瀏覽器)中,直接在客戶(hù)端執(zhí)行。它的優(yōu)勢(shì)在于可以根據(jù)用戶(hù)的不同情況分別進(jìn)行搜索,對(duì)單個(gè)用戶(hù)具有很好的適應(yīng)性,但是它必須下載每一篇文檔,才能判斷其相關(guān)與否,這樣在找到文檔以前就下載了很多無(wú)關(guān)的文檔,占用了不應(yīng)有的帶寬,所以速度較慢,而且如果每個(gè)客戶(hù)程序都使用自己的內(nèi)嵌程序來(lái)進(jìn)行搜索的話(huà),造成的網(wǎng)絡(luò)負(fù)擔(dān)也是特別重的,難以在較大范圍內(nèi)推廣使用。如 FishSearch 就是客戶(hù)端搜索引擎形式,雖然這種客戶(hù)端搜索并不值得推廣,但是其思想對(duì)于實(shí)現(xiàn)搜索引擎的個(gè)性化機(jī)制卻有很大的借鑒意義。要從一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來(lái)對(duì)搜索引擎進(jìn)行分類(lèi)是一件困難的事情,不同的劃分方法差別較大。接下來(lái)將要介紹搜索引擎的結(jié)構(gòu)與工作原理。第二章 搜索引擎概述13 搜索引擎的結(jié)構(gòu)及工作原理 搜索引擎組成結(jié)構(gòu)搜索引擎主要由搜集器、分析器、索引器、檢索器、挖掘器和用以存儲(chǔ)數(shù)據(jù)的多個(gè)數(shù)據(jù)庫(kù)組成,:W W W搜集器搜集 端數(shù) 據(jù)庫(kù)檢索 端數(shù) 據(jù)庫(kù)分析器索引器檢索器挖掘器用戶(hù) 信息庫(kù)搜索引擎用戶(hù)圖21 搜索引擎結(jié)構(gòu)圖1) 搜集器搜集器主要完成從WWW上獲取網(wǎng)頁(yè)和超鏈結(jié)構(gòu)信息的工作。WWW結(jié)構(gòu)是一個(gè)以網(wǎng)頁(yè)為結(jié)點(diǎn),超鏈為邊的有向圖,搜集器的工作可以抽象為一個(gè)有向圖的遍歷過(guò)程。它從用戶(hù)配置的一些“種子”網(wǎng)頁(yè)出發(fā),根據(jù)一定的算法,獲取新的網(wǎng)頁(yè)和超鏈,從而實(shí)現(xiàn)從網(wǎng)上不停地獲取網(wǎng)頁(yè)的功能。2) 分析器 分析器根據(jù)網(wǎng)上數(shù)據(jù)的特點(diǎn),按照特定的算法,對(duì)己經(jīng)搜集獲得的網(wǎng)頁(yè)和超鏈信息進(jìn)行分析,從中提取和用戶(hù)檢索相關(guān)的網(wǎng)頁(yè)描述信息,例如:網(wǎng)頁(yè)關(guān)鍵詞、編碼類(lèi)型、大小、被其他網(wǎng)頁(yè)鏈接次數(shù)等,并將提取所得的信息交給索第二章 搜索引擎概述14引器建立索引。3) 索引器分析器分析所得的網(wǎng)頁(yè)描述信息,都是頁(yè)面到頁(yè)面描述數(shù)據(jù)的正排表,索引器主要用于對(duì)這些已分析好的網(wǎng)頁(yè)的抽象數(shù)據(jù)建立索引。索引器的核心工作就是重新整理這些網(wǎng)頁(yè)描述信息,對(duì)必要的數(shù)據(jù)項(xiàng)建立倒排表,包括關(guān)鍵詞到網(wǎng)頁(yè)的倒排表、站點(diǎn)到網(wǎng)頁(yè)的倒排表等,為用戶(hù)的檢索做準(zhǔn)備。4) 檢索器檢索器的功能是根據(jù)用戶(hù)的查詢(xún)?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶(hù)相關(guān)性反饋機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型等多種,可以查詢(xún)到文本信息中的任意字詞,無(wú)論其出現(xiàn)在標(biāo)題還是正文中。檢索器從索引中找出與用戶(hù)查詢(xún)請(qǐng)求相關(guān)的文檔,采用與分析索引文檔相識(shí)的方法來(lái)處理用戶(hù)查詢(xún)請(qǐng)求。5) 挖掘器挖掘器提取用戶(hù)相關(guān)信息,利用這些信息來(lái)提高檢索服務(wù)的質(zhì)量。它的主要工作就是找出檢索信息的相互關(guān)系,分析它們的特性,通過(guò)對(duì)用戶(hù)行為的記錄來(lái)提高檢索的質(zhì)量,返回最期望的檢索結(jié)果。 搜索引擎工作原理搜索引擎是一種特殊的計(jì)算機(jī)信息檢索系統(tǒng)——Web信息檢索系統(tǒng)。首先從信息檢索流程的角度來(lái)介紹計(jì)算機(jī)信息檢索系統(tǒng)的工作原理。為搜索引擎的工作原理圖文本數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)管理模塊索引機(jī)制查詢(xún)處理文 本 處 理用戶(hù)界面查找機(jī)制排序機(jī)制索引邏輯視圖邏輯視圖查詢(xún)倒排文件命中文獻(xiàn)文本文本用戶(hù)需求有序文獻(xiàn)圖22 搜索引擎工作原理圖在檢索開(kāi)始之前,搜索引擎必須對(duì)文本數(shù)據(jù)庫(kù)進(jìn)行定義。定義的內(nèi)容包括:(a)需要的文獻(xiàn);(b)對(duì)文獻(xiàn)進(jìn)行的操作;(c) 文本模型。這個(gè)過(guò)程通常由數(shù)據(jù)庫(kù)管理員(DB Manager)來(lái)完成。文本操作(Text Operation)將原始文獻(xiàn)轉(zhuǎn)換為它們的邏輯視圖(Logical View)。文獻(xiàn)的邏輯視圖一般是指文獻(xiàn)經(jīng)過(guò)去除停用詞 (Stop Words)(如冠詞和連詞),進(jìn)行截詞 (Stemming)(如只保留詞干 ),確定名詞詞組(消去形容詞、副詞和動(dòng)詞)等文本操作之后,而得到的文獻(xiàn)的主要內(nèi)容。文獻(xiàn)邏輯視圖定義完畢之后,數(shù)據(jù)庫(kù)管理員通過(guò)數(shù)據(jù)庫(kù)管理模塊,建立文第二章 搜索引擎概述15本索引(Index) 。索引是一種非常重要的數(shù)據(jù)結(jié)構(gòu),檢索系統(tǒng)通過(guò)它快速搜索大量的數(shù)據(jù)。有很多種建立索引的方法,通常使用的是倒排文檔(Inverted File) [23]。文本數(shù)據(jù)庫(kù)建立好索引后,就可以開(kāi)始檢索過(guò)程。首先由用戶(hù)給出用戶(hù)需求(User Need)或者用戶(hù)任務(wù)(User Task)。該需求被相同的文本操作解析,再經(jīng)過(guò)查詢(xún)操作(Query Operation)處理,形成系統(tǒng)可以識(shí)別的查詢(xún)表達(dá)式。查找機(jī)制使用查詢(xún)和索引進(jìn)行匹配處理,得到相關(guān)的文獻(xiàn),稱(chēng)作命中文獻(xiàn)。命中文獻(xiàn)在提交給用戶(hù)之前,要按照相關(guān)度進(jìn)行排序,以形成有序文獻(xiàn)(Ranked Documents)。當(dāng)結(jié)果提交給用戶(hù)之后,檢索過(guò)程并沒(méi)有結(jié)束。用戶(hù)需要從結(jié)果中查找有用信息,同時(shí)審查查詢(xún)結(jié)果,指出哪些文獻(xiàn)是真正感興趣的,并反饋給檢索系統(tǒng);然后檢索系統(tǒng)使用反饋的結(jié)果改進(jìn)查詢(xún)表達(dá)式,以期能獲得更好的查詢(xún)結(jié)果。這個(gè)過(guò)程就叫做用戶(hù)反饋(User Feedback)。在整個(gè)信息檢索過(guò)程中,用戶(hù)和檢索系統(tǒng)一直都通過(guò)用戶(hù)界面(User Interface)來(lái)進(jìn)行交流。用戶(hù)界面,又稱(chēng)作用戶(hù)接口,往往要求用戶(hù)輸入查詢(xún)請(qǐng)求,并顯示檢索的結(jié)果。通過(guò)對(duì)計(jì)算機(jī)信息檢索系統(tǒng)工作流程的介紹,可以知道完整的計(jì)算機(jī)信息檢索技術(shù)涉及到文本處理技術(shù)、查詢(xún)處理技術(shù)、查找匹配技術(shù)、排序(等級(jí)評(píng)定) 技術(shù)、用戶(hù)接口技術(shù)以及索引技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等等。 常用搜索引擎上面介紹了搜索引擎的組成結(jié)構(gòu)與工作原理,以及分類(lèi)方法。下面就來(lái)看看當(dāng)代流行的搜索引擎,在這里主要介紹常用的中文和英文搜索引擎。 常用中文搜索引擎1) Yahoo!以雅虎(Yahoo!) [24]為代表,說(shuō)到搜索引擎的歷史,自然不能不說(shuō)雅虎(Yahoo!) 了。正如計(jì)算機(jī)時(shí)代的很多新事物一樣,Yahoo!起源于一個(gè)想法,隨后變成一種業(yè)余愛(ài)好,最終成了使人全身心投入的一項(xiàng)事業(yè)。Yahoo!的兩(David Filo)和楊致遠(yuǎn)(Jerry Yang)是美國(guó)斯坦福大學(xué)電機(jī)工程系的博士生,于1994年4月建立了自己的網(wǎng)絡(luò)指南信息庫(kù),將其作為記錄他們個(gè)人對(duì)互聯(lián)網(wǎng)的興趣的一種方式。但是不久,他們將Yahoo!變成了一個(gè)可定制的數(shù)據(jù)庫(kù),旨在滿(mǎn)足成千上萬(wàn)的、剛剛開(kāi)始通過(guò)互聯(lián)網(wǎng)社區(qū)使用網(wǎng)絡(luò)服務(wù)的用戶(hù)的需要。他們開(kāi)發(fā)了可定制的軟件,幫助他們有效地查找、識(shí)別和編輯互聯(lián)網(wǎng)上存儲(chǔ)的資料。最初Yahoo!存放在楊致遠(yuǎn)的學(xué)生工作站“akebono”上,而第二章 搜索引擎概述16搜索引擎存放在Filo 的計(jì)算機(jī) “konishiki”上( 這些計(jì)算機(jī)的名稱(chēng)都來(lái)自于一些具有傳奇色彩的夏威夷摔跤手),結(jié)果令大家意想不到的是,Yahoo!大受歡迎,斯坦福大學(xué)的計(jì)算機(jī)網(wǎng)絡(luò)由此受到來(lái)自外界的大瀏覽量的沖擊。2) sohu1996年8月,sohu [25]公司成立,制作中文網(wǎng)站分類(lèi)目錄,曾有“出門(mén)找地圖,上網(wǎng)找搜狐”的美譽(yù)。隨著互聯(lián)網(wǎng)網(wǎng)站的急劇增加,這種人工編輯的分類(lèi)目錄已經(jīng)不適應(yīng)。sohu于2022年8月獨(dú)立域名的搜索網(wǎng)站 “搜狗” ,自稱(chēng)“第三代搜索引擎” 。2022年12月23日,原搜狗搜索正式獨(dú)立運(yùn)作,成立了中國(guó)搜索。2022年2月,2022年3月中搜將網(wǎng)絡(luò)豬更名為IG( Inter Gateway) 。3) Baidu兩位北大校友,超鏈分析專(zhuān)利發(fā)明人,前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士后)在北京中關(guān)村創(chuàng)立了百度(Baidu) [26]公司。 版(此前Baidu 只為其它門(mén)戶(hù)網(wǎng)站搜狐、新浪、Tom等提供搜索引擎) ,2022年10月22日正式發(fā)布Baidu 搜索引擎,專(zhuān)注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、網(wǎng)頁(yè)預(yù)覽、預(yù)覽相關(guān)搜索詞、錯(cuò)別字糾正提示、mp3搜索、Flash搜索。2022年3月閃電計(jì)劃(Blitzen Project)開(kāi)始后,技術(shù)升級(jí)明顯加快。后推出貼吧、知道、地圖、國(guó)學(xué)、百科、文檔、視頻、博客等一系列產(chǎn)品,深受網(wǎng)民歡迎。4) 網(wǎng)易網(wǎng)易搜索引擎采用模糊搜索方式,對(duì)用戶(hù)輸入的關(guān)鍵詞,先作語(yǔ)言分析,分解成多個(gè)詞或詞組,再去數(shù)據(jù)中心匹配結(jié)果,因此允許用戶(hù)輸入整句。2022年9月,網(wǎng)易正式推出了全中文搜索引擎服務(wù),并擁有國(guó)內(nèi)唯一的互動(dòng)性開(kāi)放式目錄管理系統(tǒng)(ODP) 。網(wǎng)易搜索引擎 [27]提供多語(yǔ)言檢索,英語(yǔ)、日語(yǔ)、俄語(yǔ)等幾十種語(yǔ)言關(guān)鍵詞都可以直接輸入搜索框檢索網(wǎng)頁(yè)資料。其實(shí)這應(yīng)該算是Google的功勞。此外,網(wǎng)易擁有全國(guó)最大的開(kāi)放式管理目錄ODP,有約5000名各行業(yè)目錄管理員負(fù)責(zé)管理網(wǎng)站注冊(cè)信息。 常用英文搜索引擎1) ExciteExcite 的歷史可以上溯到1993年2月,6個(gè)Stanford University(斯坦福大學(xué))大學(xué)生的想法是分析字詞關(guān)系,以對(duì)互聯(lián)網(wǎng)上的大量信息作更有效的檢索。到第二章 搜索引擎概述171993年中,這已是一個(gè)完全投資項(xiàng)目,他們還發(fā)布了一個(gè)供webmasters在自己網(wǎng)站上使用的搜索軟件版本,后來(lái)被叫做Excite for Web Servers。Excite 后來(lái)曾以概念搜索聞名,2022年5月,被Infospace 收購(gòu)的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile。2) 元搜索引擎1995年,一種新的搜索引擎形式——元搜索引擎(Meta Search Engine)出現(xiàn)了。用戶(hù)只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1