freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)本科畢業(yè)論文-預(yù)覽頁

2025-07-21 22:31 上一頁面

下一頁面
 

【正文】 Web形式,通過索引找到相關(guān)信息的網(wǎng)頁數(shù)據(jù),返回給用戶。Internet上的信息資源隨著Internet的發(fā)展而呈現(xiàn)出以下特點(diǎn):(1) 信息量大而且分散(2) 自治性強(qiáng)(3) 信息資源多種多樣(4) 不一致和不完整性為了獲取所需的信息,用戶需要借助一定的工具,他們通常使用以下兩類網(wǎng)站:第一類是目錄系統(tǒng),其典型代表是Yahoo!。這類自動(dòng)更新的搜索引擎優(yōu)點(diǎn)是涵蓋的網(wǎng)頁數(shù)量巨大,同時(shí)擁有基于關(guān)鍵字的全文索引,它為所有網(wǎng)上沖浪的用戶提供了一個(gè)入口,用戶可以從搜索引擎出發(fā)到達(dá)自己想去的網(wǎng)上任何一個(gè)地方。作為IR領(lǐng)域中最重要的會(huì)議之一,TREC(Text REtrieval Conference)從1999年11月的第8屆開始增加Web Track競賽項(xiàng)目,考察Web文檔與其它類型文檔在性質(zhì)上的不同之處,測(cè)試在大規(guī)模的Web文檔集上進(jìn)行信息檢索的算法性能。IBM Almaden研究中心研制了Clever系統(tǒng),提出了類似于PageRank的HITS算法,主要不同是將網(wǎng)頁分為Authority和Hub兩類,并就HITS算法在相關(guān)度評(píng)價(jià)、網(wǎng)頁分類、主題搜索等方面的作用進(jìn)行了研究。國內(nèi)先后有北京大學(xué)、清華大學(xué)、華南理工大學(xué)、國家智能研究中心等高校和研究單位對(duì)搜索引擎技術(shù)進(jìn)行了研究,開發(fā)出了幾個(gè)實(shí)用的系統(tǒng)。在功能、性能、查準(zhǔn)率、查全率等方面基本達(dá)到了實(shí)用。目前系統(tǒng)收集約50萬網(wǎng)頁。(1) 智能化搜索智能化是搜索引擎未來的發(fā)展方向。(2) 個(gè)性化搜索個(gè)性化搜索引擎的核心是通過跟蹤分析用戶的搜索行為,充分地利用這些信息來提高用戶的搜索效率。即通過各種方法獲得用戶沒有在查詢語句中表達(dá)出來的真正用途,實(shí)現(xiàn)自然語言的智能查詢功能。d)進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。雖然該技術(shù)日前還處于初步研究階段,其難點(diǎn)在于語言之間在表達(dá)方式和語義對(duì)應(yīng)上的不確定性,但也是一種發(fā)展方向。搜索引擎在對(duì)提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇?,F(xiàn)在有很多搜索引擎已經(jīng)提供了網(wǎng)頁、新聞、圖片、音樂等資源搜索,當(dāng)然范圍還可以更廣,再如可以搜索視頻、音頻等。搜索引擎脫離瀏覽器是一個(gè)發(fā)展趨勢(shì),Google、 Yahoo等己經(jīng)推出桌面型搜索軟件,而微軟在2005年也同樣有了自己的桌面搜索軟件。巨大的使用需求推動(dòng)了搜索引擎技術(shù)的發(fā)展,各種新技術(shù)紛紛應(yīng)用到搜索引擎中。使用C進(jìn)行代碼的編寫。第六章:對(duì)互聯(lián)網(wǎng)信息檢索系統(tǒng)進(jìn)行測(cè)試,總結(jié)整個(gè)論文的完成情況,對(duì)研究工作進(jìn)行總結(jié)和展望。 CrawlerCrawler負(fù)責(zé)頁面信息的采集,它的工作實(shí)現(xiàn)基于以下設(shè)想:既然所有網(wǎng)頁都可能鏈接到其他網(wǎng)站,那么從一個(gè)網(wǎng)站開始,跟蹤所有網(wǎng)頁上的所有鏈接,就有可能檢索整個(gè)互聯(lián)網(wǎng)。Crawler利用HTTP協(xié)議讀取Web頁面并沿著HTML文檔中的超鏈接自動(dòng)獲取WWW資源。(2) 網(wǎng)頁評(píng)估在抓取網(wǎng)頁時(shí)存在一定的取舍,一般只會(huì)抓20%左右的網(wǎng)頁。 Indexer搜索引擎在完成用戶查詢請(qǐng)求時(shí),并不是即時(shí)檢索互聯(lián)網(wǎng)上的數(shù)據(jù),搜索的數(shù)據(jù)實(shí)際是預(yù)先采集的網(wǎng)頁數(shù)據(jù)。反過來,如果按關(guān)鍵詞建立到頁面的索引,便可以根據(jù)關(guān)鍵詞快速地檢索到相關(guān)頁面。頁面數(shù)據(jù)服務(wù)器中間數(shù)據(jù)索引數(shù)據(jù)圖23 Indexer索引數(shù)據(jù)結(jié)構(gòu)圖Indexer首先從頁面存儲(chǔ)器中獲取頁面數(shù)據(jù),對(duì)其進(jìn)行分析,通過詞典識(shí)別網(wǎng)頁中的詞,通過停用詞(stop words)表刪除其中的停用詞,生成檢索詞序列,并最后生成索引數(shù)據(jù)。(2) 索引更新頁面數(shù)據(jù)更新時(shí),索引數(shù)據(jù)必須相應(yīng)的更新。(4) 網(wǎng)頁相似性支持索引的結(jié)構(gòu)還必須為網(wǎng)頁相似性分析提供支持。Searcher基本結(jié)構(gòu)如圖24所示。一些新的嘗試,比如對(duì)用戶偏好的分析技術(shù)都可以運(yùn)用到這里,對(duì)不同的用戶采用不同的排序策略。(3) 檢索結(jié)果的相似性分析主要用在類似網(wǎng)頁功能中,需要在索引結(jié)構(gòu)中提供支持。 搜索引擎的性能指標(biāo)我們可以將Web信息的搜索看作一個(gè)信息檢索問題,即在由web網(wǎng)頁組成的文檔庫中檢索出與用戶查詢相關(guān)的文檔。對(duì)于搜索引擎系統(tǒng)來講,因?yàn)闆]有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的Web網(wǎng)頁,所以召回率很難計(jì)算。研究搜索引擎的頁面優(yōu)先度算法,需要從客觀和主觀兩方面進(jìn)行研究。例如,英文句子“I am a student”,用中文則為:“我是一個(gè)學(xué)生”。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。實(shí)現(xiàn)流程如圖26所示。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。 基于統(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。圖27 Google體系結(jié)構(gòu)圖與其他搜索引擎類似,Google在整體結(jié)構(gòu)上也主要有Crawler,Indexer,Searcher等部分組成,在模塊設(shè)計(jì)上更為細(xì)致。URL Server向Crawler提供待抓取的URL列表。Hits中記錄了關(guān)鍵字、關(guān)鍵字在文檔中的出現(xiàn)位置和字體大小、大小寫等信息。URL Resolve讀取Anchors中內(nèi)容,并把相對(duì)的URL轉(zhuǎn)換成絕對(duì)的URL,再轉(zhuǎn)換成docID。同時(shí),將生成的關(guān)鍵字列表與先前由Indexer產(chǎn)生的關(guān)鍵字表結(jié)合生成新的詞典(lexicon)提供給Searcher使用。根據(jù)各網(wǎng)頁的匹配程度,結(jié)合網(wǎng)頁的Page Rank值對(duì)檢索結(jié)果進(jìn)行排序后返回給用戶。方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或是以此為基礎(chǔ)建立起完整的全文檢索引擎。使用C進(jìn)行編寫。圖32 各個(gè)模塊是使用符合MDA規(guī)則的,方便用戶選擇有效的接口,也為用戶定制自己所需的各個(gè)模塊提供高可擴(kuò)展性。Corpus(語料庫)中是需要被解析的文檔。Index(索引)模塊提供2種訪問協(xié)議。RAM存儲(chǔ)接口可以批量地索引文件,加快標(biāo)引速度。首先,引入了對(duì)索引文件的操作的封裝,其次完成了索引核心的抽象,在索引核心的基礎(chǔ)上開始設(shè)計(jì)對(duì)外的接口。:提供一個(gè)全文索引引擎的架構(gòu),而不是實(shí)現(xiàn)。 圖33 。文檔是提取了某個(gè)文件中的所有信息之后的結(jié)果,這些組成了段,或者稱為一個(gè)子索引,子索引可以組合為索引,也可以合并為一個(gè)新的包含了所有合并項(xiàng)內(nèi)部元素的子索引,可以清楚的看出。 索引文件功能表索引文件索引文件含義.f(n)規(guī)格化文件.fdt包含各個(gè)域數(shù)據(jù)(field的特性)信息.fdx。而域集合與項(xiàng)集合之間則通過域的在域記錄文件()中所記錄的域記錄號(hào)維持對(duì)應(yīng)關(guān)系。以上所闡述的。其中詞典文件不僅保存有每個(gè)關(guān)鍵詞,還保留了指向頻率文件和位置文件的指針,通過指針可以找到該關(guān)鍵字的頻率信息和位置信息。例如:當(dāng)前文檔序列號(hào)是17983,上一文章號(hào)是17970,在不壓縮的情況下,要用3個(gè)字節(jié)才能保存,壓縮后只需保存13,使用一個(gè)字節(jié)就可以了。,如圖34所示。文本流表示了對(duì)于索引目標(biāo)和交互控制的抽象,即用文本流表示了將要索引的文件,用文本流向用戶輸出信息;在實(shí)際的實(shí)現(xiàn)中,以達(dá)到適應(yīng)多種語言文字的處理的目的。 通過以上的系統(tǒng)結(jié)構(gòu)分析和數(shù)據(jù)流分析。用戶自定義功能….用戶自定義功能圖35 自定義擴(kuò)展功能對(duì)其開發(fā)的關(guān)鍵工作如下:(1) (按照空格進(jìn)行分詞,并去除了常用的語法詞,如英文中的is,are等等)。在實(shí)際應(yīng)用中,設(shè)計(jì)具體的搜索器,包括默認(rèn)域的指定,搜索域的接收,索引庫位置的接收,以及多個(gè)查詢通過布爾操作符連接起來形成復(fù)雜的查詢語句的功能。,之后就可以考慮其上的應(yīng)用程序開發(fā)。pwd=sagao。 try { SqlConnection conn = new SqlConnection(ConString)。 writer = new IndexWriter(Index_Path, new StandardAnalyzer(), true)。 (new Field(indexcontent, dr[Title].ToString() + dr[Content].ToString(), , ))。 ()。 } return writer。系統(tǒng)使用C語言進(jìn)行開發(fā), Framework下,主要支持Windows操作系統(tǒng),同時(shí)也可以移植到其他平臺(tái)。 使用Microsoft SQL 2005對(duì)采集的網(wǎng)頁數(shù)據(jù)進(jìn)行保存。 。 使用Log4net實(shí)現(xiàn)日志功能模塊。各模塊在實(shí)現(xiàn)上具有高度可隔離性。 數(shù)據(jù)抓取模塊數(shù)據(jù)抓取模塊主要提供對(duì)Internet網(wǎng)頁數(shù)據(jù)的采集,數(shù)據(jù)的保存,網(wǎng)頁文件的下載。在數(shù)據(jù)庫操作方面,這里使用Microsoft SQL 2005對(duì)數(shù)據(jù)進(jìn)行保存,當(dāng)然也可以使用Oracle等數(shù)據(jù)庫。最終生成deletable文件、segment文件和數(shù)據(jù)索引文件。通過Web的形式向用戶提供檢索的功能,接收用戶的查詢請(qǐng)求。日志管理模塊采用Log4net進(jìn)行日志的操作。EarthSearch系統(tǒng)整體結(jié)構(gòu)如圖41所示。初始化線程池開啟空閑線程獲取入口URL地址網(wǎng)頁獲取網(wǎng)頁分析獲取網(wǎng)頁中所有超鏈接,同時(shí)存儲(chǔ)網(wǎng)頁數(shù)據(jù)添加到待解析的超鏈接隊(duì)列中添加到已解析的超鏈接隊(duì)列中判斷是否已解析?是否開始停止啟動(dòng)功能選擇結(jié)束圖42 網(wǎng)頁數(shù)據(jù)抓取流程圖 數(shù)據(jù)索引處理流程;,對(duì)document對(duì)象進(jìn)行索引數(shù)據(jù)的寫入,保存在內(nèi)存中;最后輸出內(nèi)存數(shù)據(jù)生成索引文件數(shù)據(jù)索引執(zhí)行過程如圖43所示。客戶端輸入檢索關(guān)鍵詞服務(wù)器端等待接收關(guān)鍵詞將關(guān)鍵詞發(fā)送到服務(wù)器在索引數(shù)據(jù)庫中進(jìn)行查找,并將結(jié)果返回給用戶對(duì)關(guān)鍵詞進(jìn)行中文分詞結(jié)束結(jié)束顯示查詢結(jié)果發(fā)送關(guān)鍵詞返回查詢結(jié)果圖44 數(shù)據(jù)檢索通信流程圖 5 系統(tǒng)實(shí)現(xiàn)本章討論信息檢索系統(tǒng)功能的實(shí)現(xiàn)方法。 數(shù)據(jù)抓取主界面設(shè)計(jì)由于網(wǎng)頁數(shù)據(jù)抓取程序需要通過配置文件進(jìn)行參數(shù)的初始化,所以在數(shù)據(jù)抓取界面上應(yīng)對(duì)下載文件保存路徑,抓取入口,線程數(shù)等進(jìn)行相應(yīng)的設(shè)置。一般可使用如下的代碼創(chuàng)建并運(yùn)行一個(gè)線程:在C中使用線程的代碼:private void fun(){// 線程要執(zhí)行的代碼}public void testThread(){ Thread thread。至于如何使用多線程來下載,各個(gè)版本的網(wǎng)絡(luò)蜘蛛不盡相同。//實(shí)例化計(jì)時(shí)器 ()。 = this。 threads[i].Start()。 if (waitTimes == 10) { (Name)。 } else { waitTimes = 0。 break。 lock (manager) { (url)。 } } End()。 Stream stream = null。 stream = ()。 reader = new StreamReader(stream, )。 } catch (WebException e) { (下載錯(cuò)誤: + () + | + ())。 if (stream != null) ()。文件體(BODY)是HTML文檔的主要部分,描述的是在瀏覽器中顯示的內(nèi)容。代碼實(shí)現(xiàn)如下:從HTML中獲取節(jié)點(diǎn)TITLE的值。 if ( == 0) { return 。圖52 索引參數(shù)設(shè)置界面 索引網(wǎng)頁數(shù)據(jù)由于用戶不能直接對(duì)抓取的數(shù)據(jù)進(jìn)行檢索,所以在提供數(shù)據(jù)檢索功能之前,需要進(jìn)行數(shù)據(jù)索引操作。 (new Field(title, dr[Title].ToString(), , ))。 } ()。數(shù)據(jù)檢索主界面如圖54所示。KeyWord = [keyword].ToString()。Query query = (KeyWord)。 (title)。 for (int i = 0。 myrow[0] = (title).ToString()。 ()。}()。以下將詳細(xì)介紹本系統(tǒng)的測(cè)試過程。動(dòng)態(tài)測(cè)試一般用兩種方法:一是黑盒測(cè)試法,一是白盒測(cè)試法。(1) 中文分詞模塊測(cè)試通過對(duì)中文算法的測(cè)試,基本上實(shí)現(xiàn)了預(yù)期的效果。經(jīng)過一系列測(cè)試后結(jié)果基本無誤。通過多線程的方式,提高了數(shù)據(jù)抓取的速度。這些都是還有待進(jìn)一步改善的地方。最后,敬請(qǐng)老師和同學(xué)們多多
點(diǎn)擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1