freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文-文庫(kù)吧

2025-06-12 22:31 本頁(yè)面


【正文】 功能、性能、查準(zhǔn)率、查全率等方面基本達(dá)到了實(shí)用。華南理工大學(xué)的“木棉”搜索引擎,分Web檢索和FTP檢索兩大部分。Web檢索支持中英文混合查詢、布爾查詢、結(jié)構(gòu)屬性查詢、模糊查詢等多種查詢方式。FTP檢索實(shí)現(xiàn)基于文件主要屬性的結(jié)構(gòu)查詢,以及模糊匹配等。目前系統(tǒng)收集約50萬(wàn)網(wǎng)頁(yè)。 搜索引擎技術(shù)發(fā)展方向經(jīng)過(guò)了多年的發(fā)展,現(xiàn)在的搜索引擎功能越來(lái)越強(qiáng)大,提供的服務(wù)也越來(lái)越全面。據(jù)研究統(tǒng)計(jì),目前Internet上搜索引擎已達(dá)數(shù)千種之多。然而,隨著多元化信息的增長(zhǎng),統(tǒng)一的用戶入口己經(jīng)不能滿足用戶的更深入的查詢需求,搜索引擎將向智能化、個(gè)性化、精確化、專業(yè)化、交叉語(yǔ)言檢索、多媒體檢索等適應(yīng)不同用戶需求的方向發(fā)展。(1) 智能化搜索智能化是搜索引擎未來(lái)的發(fā)展方向。搜索引擎的智能化體現(xiàn)在兩方面:一是對(duì)搜索請(qǐng)求的理解,二是對(duì)網(wǎng)頁(yè)內(nèi)容的分析。通過(guò)智能代理技術(shù)對(duì)用戶的查詢計(jì)劃、意圖、興趣方向進(jìn)行推理,自動(dòng)進(jìn)行信息搜集過(guò)濾,將用戶感興趣的信息返回給用戶。這其中也包含了對(duì)服務(wù)多項(xiàng)化、個(gè)性化,結(jié)果精確化,交叉語(yǔ)言檢索等方面的功能。(2) 個(gè)性化搜索個(gè)性化搜索引擎的核心是通過(guò)跟蹤分析用戶的搜索行為,充分地利用這些信息來(lái)提高用戶的搜索效率。這種搜索行為分析技術(shù)是一種正在發(fā)展中的很有前途的搜索引擎人機(jī)界面技術(shù)。(3) 提高檢索的有效性解決查詢結(jié)果過(guò)多的現(xiàn)象目前有以下幾種方法:a)構(gòu)建基于內(nèi)容的搜索引擎?;趦?nèi)容的搜索不是根據(jù)字形,而是試圖理解用戶的請(qǐng)求,同時(shí)根據(jù)文檔的內(nèi)容選出符合用戶要求的文檔。即通過(guò)各種方法獲得用戶沒(méi)有在查詢語(yǔ)句中表達(dá)出來(lái)的真正用途,實(shí)現(xiàn)自然語(yǔ)言的智能查詢功能。中文搜索引擎中當(dāng)前比較成熟的解決方案是依靠語(yǔ)義網(wǎng)絡(luò)、漢語(yǔ)分詞、句法分析、處理同義詞等中文信息處理技術(shù)最大程度地了解用戶需求。b)將用戶提問(wèn)轉(zhuǎn)化為系統(tǒng)己知的問(wèn)題,然后對(duì)已知問(wèn)題進(jìn)行解答,以求降低對(duì)自然語(yǔ)言理解技術(shù)的依賴性。c)用正文分類技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。d)進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。e)讓用戶對(duì)返回結(jié)果進(jìn)行選擇,進(jìn)行二次查詢是一種非常有效的手段。(4) 實(shí)現(xiàn)交叉語(yǔ)言的檢索搜索引擎對(duì)多種語(yǔ)言的數(shù)據(jù)庫(kù)進(jìn)行交叉語(yǔ)言信息檢索,返回能夠回答用戶問(wèn)題的所有語(yǔ)言的文檔。若配上機(jī)器翻譯,就可使返回結(jié)果以用戶熟悉的語(yǔ)言顯示。雖然該技術(shù)日前還處于初步研究階段,其難點(diǎn)在于語(yǔ)言之間在表達(dá)方式和語(yǔ)義對(duì)應(yīng)上的不確定性,但也是一種發(fā)展方向。(5) 提供對(duì)自然語(yǔ)言檢索的支持為了提高搜索引擎對(duì)用戶檢索提問(wèn)的理解,就必須有一個(gè)好的檢索提問(wèn)語(yǔ)言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語(yǔ)言智能答詢。如Google有專用于回答問(wèn)題的Google Answer,微軟有AnswerBot等。用戶可以輸入簡(jiǎn)單的疑問(wèn)句,比如“how can kill virus of puter?”。搜索引擎在對(duì)提問(wèn)進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問(wèn)的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問(wèn)題中進(jìn)行再選擇。自然語(yǔ)言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來(lái)講,如果用關(guān)鍵詞查詢,多半人會(huì)用“virus”這個(gè)詞來(lái)檢索,結(jié)果中必然會(huì)包括各類病毒的介紹、病毒是怎樣產(chǎn)生的等等許多無(wú)效信息,而用“how can kill virus of puter?”,搜索引擎會(huì)將怎樣殺病毒的信息提供給用戶,提高了檢索效率。(6) 多媒體數(shù)據(jù)搜索網(wǎng)絡(luò)資源豐富多彩,具有很多類型的信息,用戶需要的信息也不完全是網(wǎng)頁(yè)的形式,從用戶的角度來(lái)看,必然要求搜索引擎能夠覆蓋更多的網(wǎng)絡(luò)資源?,F(xiàn)在有很多搜索引擎已經(jīng)提供了網(wǎng)頁(yè)、新聞、圖片、音樂(lè)等資源搜索,當(dāng)然范圍還可以更廣,再如可以搜索視頻、音頻等。(7) 專業(yè)化搜索主題搜索引擎是為了專門收錄某一行業(yè)、某一學(xué)科、某一主題和某一地區(qū)的信息而建立,非常實(shí)用,如有商務(wù)查詢、企業(yè)查詢、人名查詢、電子郵件地址查詢和招聘信息查詢等。(8) 桌面型搜索用戶不用打開(kāi)瀏覽器,而是直接通過(guò)只要通過(guò)它就能完全實(shí)現(xiàn)搜索過(guò)程,更甚者它可以同時(shí)搜索本地、局域網(wǎng)和互聯(lián)網(wǎng)上的信息。它完全越過(guò)傳統(tǒng)的搜索模式,越過(guò)瀏覽器,真正實(shí)現(xiàn)讓搜索無(wú)處不在。搜索引擎脫離瀏覽器是一個(gè)發(fā)展趨勢(shì),Google、 Yahoo等己經(jīng)推出桌面型搜索軟件,而微軟在2005年也同樣有了自己的桌面搜索軟件。此外還有一些其它值得注意的技術(shù)發(fā)展,如元搜索引擎,移動(dòng)代理和XML技術(shù),語(yǔ)音檢索技術(shù)等。隨著技術(shù)的不斷發(fā)展進(jìn)步,搜索引擎將會(huì)在信息檢索中發(fā)揮更大的作用。 研究目的和研究?jī)?nèi)容互聯(lián)網(wǎng)的快速發(fā)展,對(duì)搜索引擎提出了更高的要求。巨大的使用需求推動(dòng)了搜索引擎技術(shù)的發(fā)展,各種新技術(shù)紛紛應(yīng)用到搜索引擎中。搜索引擎是這些技術(shù)的基礎(chǔ)和平臺(tái),它決定著這些技術(shù)的開(kāi)發(fā)和應(yīng)用。但一般的研究機(jī)構(gòu)不可能擁有和商業(yè)搜索引擎一樣規(guī)模的計(jì)算機(jī)資源,因此需要一種對(duì)資源要求低、體系開(kāi)放的搜索引擎來(lái)作為各種新技術(shù)的平臺(tái)。本文在深入分析網(wǎng)頁(yè)獲取、索引生成、級(jí)別系統(tǒng)、索引檢索等搜索引擎核心技術(shù)的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)互聯(lián)網(wǎng)信息檢索系統(tǒng)。,使用C進(jìn)行代碼的編寫(xiě)。采用多線程進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)采集并寫(xiě)入數(shù)據(jù)庫(kù);、中文分詞、無(wú)用詞匯刪除、詞典等技術(shù)建立索引數(shù)據(jù);。 文章內(nèi)容安排本文主要研究了搜索引擎實(shí)現(xiàn)中所涉及到的相關(guān)技術(shù)。具體內(nèi)容安排如下:第二章:介紹了搜索引擎總體結(jié)構(gòu),各組成部分實(shí)現(xiàn)功能及關(guān)鍵技術(shù),相關(guān)算法,并對(duì)Google的體系結(jié)構(gòu)進(jìn)行分析;第三章:,分析其組織架構(gòu),索引數(shù)據(jù)格式等,對(duì)源碼分析,二次開(kāi)發(fā)應(yīng)用;第四章:,在本文論述的理論思想基礎(chǔ)上,最終實(shí)現(xiàn)設(shè)計(jì)目標(biāo);第五章:介紹互聯(lián)網(wǎng)信息檢索系統(tǒng)的具體實(shí)現(xiàn),核心技術(shù)的解決方法。第六章:對(duì)互聯(lián)網(wǎng)信息檢索系統(tǒng)進(jìn)行測(cè)試,總結(jié)整個(gè)論文的完成情況,對(duì)研究工作進(jìn)行總結(jié)和展望。 2 搜索引擎技術(shù) 搜索引擎體系結(jié)構(gòu)典型的搜索引擎結(jié)構(gòu)一般由以下三個(gè)模塊組成:信息采集模塊(Crawler),索引模塊(Indexer),查詢模塊(Searcher)。搜索引擎典型體系結(jié)構(gòu)如圖21所示。Crawler日志分析器控制器原始數(shù)據(jù)庫(kù)索引數(shù)據(jù)庫(kù)IndexerSearcher用戶接口用戶日志數(shù)據(jù)庫(kù)圖21 搜索引擎體系結(jié)構(gòu)圖(1) Crawler從Web中采集網(wǎng)頁(yè)數(shù)據(jù);(2) Indexer對(duì)Crawler采集數(shù)據(jù)進(jìn)行分析生成索引;(3) Searcher接受查詢請(qǐng)求,通過(guò)一定的檢索算法獲取查詢結(jié)果,排序后返回給用戶。 CrawlerCrawler負(fù)責(zé)頁(yè)面信息的采集,它的工作實(shí)現(xiàn)基于以下設(shè)想:既然所有網(wǎng)頁(yè)都可能鏈接到其他網(wǎng)站,那么從一個(gè)網(wǎng)站開(kāi)始,跟蹤所有網(wǎng)頁(yè)上的所有鏈接,就有可能檢索整個(gè)互聯(lián)網(wǎng)。Crawler工作原理如圖22所示。WWW網(wǎng)頁(yè)存儲(chǔ)初始化抓取網(wǎng)頁(yè)獲取URL提取URL待訪問(wèn)的URL已訪問(wèn)的URL Crawler工作原理圖Crawler首先從待訪問(wèn)URL隊(duì)列中獲取URL,根據(jù)URL從Web中抓取網(wǎng)頁(yè)數(shù)據(jù);然后對(duì)網(wǎng)頁(yè)進(jìn)行分析,從中提取出所有的URL鏈接,并把它們加入到待訪問(wèn)URL隊(duì)列中,同時(shí)將已訪問(wèn)URL移至已訪問(wèn)URL隊(duì)列中。不斷重復(fù)上面的過(guò)程,所有采集到的網(wǎng)頁(yè)保存到頁(yè)面存儲(chǔ)中進(jìn)行下一步處理。Crawler利用HTTP協(xié)議讀取Web頁(yè)面并沿著HTML文檔中的超鏈接自動(dòng)獲取WWW資源??梢詫WW作為一個(gè)有向圖來(lái)處理,將每一個(gè)頁(yè)面看作圖中的一個(gè)節(jié)點(diǎn),將頁(yè)面中的超鏈接看做圖中的有向邊。因此可以采取有向圖的遍歷算法(深度優(yōu)先或者廣度優(yōu)先算法)來(lái)對(duì)WWW進(jìn)行遍歷。由于Web信息具有的分布性,非結(jié)構(gòu)化,不穩(wěn)定性等特點(diǎn),Crawler存在以下的關(guān)鍵問(wèn)題:(1) 多線程抓取時(shí)的任務(wù)調(diào)度問(wèn)題搜索引擎會(huì)產(chǎn)生多個(gè)Crawler同時(shí)對(duì)網(wǎng)頁(yè)進(jìn)行抓取,這里需要一個(gè)好的分布式算法,使得既不重復(fù)抓取網(wǎng)頁(yè),又不漏掉重要的站點(diǎn)。(2) 網(wǎng)頁(yè)評(píng)估在抓取網(wǎng)頁(yè)時(shí)存在一定的取舍,一般只會(huì)抓20%左右的網(wǎng)頁(yè)。評(píng)估算法中典型的油Google發(fā)明的PgaeRank。(3) 更新策略每經(jīng)過(guò)一段時(shí)間,Crawler對(duì)以抓取的數(shù)據(jù)經(jīng)行更新,保證索引網(wǎng)頁(yè)是最新的。(4) 壓縮算法網(wǎng)頁(yè)抓取后,通過(guò)一定的壓縮機(jī)制保存到本地,從而減少存儲(chǔ)容量,同時(shí)也減少各服務(wù)器之間的網(wǎng)絡(luò)通信開(kāi)銷。 Indexer搜索引擎在完成用戶查詢請(qǐng)求時(shí),并不是即時(shí)檢索互聯(lián)網(wǎng)上的數(shù)據(jù),搜索的數(shù)據(jù)實(shí)際是預(yù)先采集的網(wǎng)頁(yè)數(shù)據(jù)。要實(shí)現(xiàn)對(duì)采集頁(yè)面的快速訪問(wèn),必須通過(guò)某種索引機(jī)制來(lái)完成。頁(yè)面數(shù)據(jù)可以用一系列關(guān)鍵詞來(lái)表示,從檢索目的來(lái)說(shuō),這些關(guān)鍵詞描述了頁(yè)面的內(nèi)容。只要找到頁(yè)面,便可以找到其中的關(guān)鍵詞。反過(guò)來(lái),如果按關(guān)鍵詞建立到頁(yè)面的索引,便可以根據(jù)關(guān)鍵詞快速地檢索到相關(guān)頁(yè)面。具體地,關(guān)鍵詞被存儲(chǔ)在索引文件(index file)中,對(duì)于每個(gè)關(guān)鍵詞,都有一個(gè)指針鏈表,該表中的每一個(gè)指針指向與關(guān)鍵詞相關(guān)的某個(gè)頁(yè)面,所有指針鏈表構(gòu)成置入文件(posting file)。這種倒排文件的方法幾乎被當(dāng)前所有的商用IR系統(tǒng)所采用。Indexer負(fù)責(zé)對(duì)Crawler采集的數(shù)據(jù)生成索引數(shù)據(jù),基本結(jié)構(gòu)如圖23所示。頁(yè)面數(shù)據(jù)服務(wù)器中間數(shù)據(jù)索引數(shù)據(jù)圖23 Indexer索引數(shù)據(jù)結(jié)構(gòu)圖Indexer首先從頁(yè)面存儲(chǔ)器中獲取頁(yè)面數(shù)據(jù),對(duì)其進(jìn)行分析,通過(guò)詞典識(shí)別網(wǎng)頁(yè)中的詞,通過(guò)停用詞(stop words)表刪除其中的停用詞,生成檢索詞序列,并最后生成索引數(shù)據(jù)。Indexer中存在的問(wèn)題:(1) 索引存儲(chǔ)一般來(lái)講,數(shù)據(jù)量和索引量的比例接近1:1。索引的存儲(chǔ)一般采用分布式策略,檢索的數(shù)據(jù)分布在不同的服務(wù)器上。Google存儲(chǔ)索引的服務(wù)器大概有1000多臺(tái)。(2) 索引更新頁(yè)面數(shù)據(jù)更新時(shí),索引數(shù)據(jù)必須相應(yīng)的更新。更新策略一般采用增量索引方式。(3) 索引壓縮索引也存在數(shù)據(jù)壓縮的問(wèn)題。索引壓縮是通過(guò)對(duì)具體索引格式的研究實(shí)現(xiàn)壓縮。(4) 網(wǎng)頁(yè)相似性支持索引的結(jié)構(gòu)還必須為網(wǎng)頁(yè)相似性分析提供支持。(5) 多語(yǔ)言,多格式支持網(wǎng)頁(yè)數(shù)據(jù)具有多種編碼格式,通過(guò)Unicode,索引支持多種編碼查詢。同時(shí)索引還必須有對(duì)Word,Excel等文件格式進(jìn)行分析的功能。 SearcherSearcher是直接與用戶進(jìn)行交互的模塊,在接口上有多種實(shí)現(xiàn)方式,常見(jiàn)的主要是Web方式,另外還可以通過(guò)無(wú)線接入方式(如手機(jī))進(jìn)行查詢。Searcher基本結(jié)構(gòu)如圖24所示。Searcher索引數(shù)據(jù)頁(yè)面數(shù)據(jù)用戶接口圖24 Searcher基本結(jié)構(gòu)圖Searcher通過(guò)某種接口方式,接收用戶查詢,對(duì)查詢進(jìn)行分詞(stemming)處理,獲取查詢關(guān)鍵字。通過(guò)Indexer獲取與查詢關(guān)鍵字匹配的網(wǎng)頁(yè)數(shù)據(jù),經(jīng)過(guò)排序后返回給用戶。Searcher中存在的問(wèn)題:(1) 檢索結(jié)果的排序由于搜索引擎返回結(jié)果非常多,檢索結(jié)果是否按用戶預(yù)期的順序排列是評(píng)價(jià)搜索引擎的重要指標(biāo)之一。一些新的嘗試,比如對(duì)用戶偏好的分析技術(shù)都可以運(yùn)用到這里,對(duì)不同的用戶采用不同的排序策略。(2) 排序結(jié)果排重排重可以提高結(jié)果數(shù)據(jù)的質(zhì)量。檢索結(jié)果的數(shù)量給排重帶來(lái)資源上的開(kāi)銷及速度上的影響。搜索引擎需要在其中作出權(quán)衡。(3) 檢索結(jié)果的相似性分析主要用在類似網(wǎng)頁(yè)功能中,需要在索引結(jié)構(gòu)中提供支持。(4) 檢索的速度主要依賴索引結(jié)構(gòu)的設(shè)計(jì)。同時(shí)在體系結(jié)構(gòu)上還有很多技術(shù)可以用來(lái)提升速度。如:Cache,負(fù)載均衡等。 搜索引擎的性能指標(biāo)我們可以將Web信息的搜索看作一個(gè)信息檢索問(wèn)題,即在由web網(wǎng)頁(yè)組成的文檔庫(kù)中檢索出與用戶查詢相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)一召回率(recall)和精度(pricision)衡量一個(gè)搜索引擎的性能。召回率是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查全率;精度度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。對(duì)于一個(gè)檢索系統(tǒng)來(lái)講,召回率和精度不可能兩全其美,召回率高時(shí),精度低,精度高時(shí),召回率低。對(duì)于搜索引擎系統(tǒng)來(lái)講,因?yàn)闆](méi)有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的Web網(wǎng)頁(yè),所以召回率很難計(jì)算。目前的搜索引擎系統(tǒng)都非常關(guān)心精度。影響一個(gè)搜索引擎系統(tǒng)性能和精度有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。提高搜索引擎精度的關(guān)鍵是研究最優(yōu)的頁(yè)面優(yōu)先度算法,提供具有較高用戶相關(guān)度的網(wǎng)頁(yè)頁(yè)面優(yōu)先度排序。研究搜索引擎的頁(yè)面優(yōu)先度算法,需要從客觀和主觀兩方面進(jìn)行研究??陀^上,從網(wǎng)頁(yè)頁(yè)面本身的信息和鏈接情況分析,提高信息量大、鏈接度高的網(wǎng)頁(yè)頁(yè)面的優(yōu)先度排序。主觀上,從互聯(lián)網(wǎng)用戶使用搜索引擎的行為模式分析,提高用戶點(diǎn)擊率高和瀏覽時(shí)間長(zhǎng)的網(wǎng)頁(yè)頁(yè)面的優(yōu)先度排序。 中文分詞算法眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開(kāi),而中文是以字為單位,句子中所有的字連起來(lái)才能描述一個(gè)意思。例如,英文句子“I am a student”,用中文則為:“我是一個(gè)學(xué)生”。計(jì)算機(jī)可以很簡(jiǎn)單通過(guò)空格知道student是一個(gè)單詞,但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來(lái)才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。 基于字符串匹配的分詞方法這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下:(1) 正向最大匹配法(由左到右的方向)首先將待拆分的字符串從左向右進(jìn)行分詞,然后將分詞與機(jī)器字典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1