freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

互聯(lián)網信息檢索系統(tǒng)的研究與實現本科畢業(yè)論文-預覽頁

2025-07-21 22:31 上一頁面

下一頁面
 

【正文】 Web形式,通過索引找到相關信息的網頁數據,返回給用戶。Internet上的信息資源隨著Internet的發(fā)展而呈現出以下特點:(1) 信息量大而且分散(2) 自治性強(3) 信息資源多種多樣(4) 不一致和不完整性為了獲取所需的信息,用戶需要借助一定的工具,他們通常使用以下兩類網站:第一類是目錄系統(tǒng),其典型代表是Yahoo!。這類自動更新的搜索引擎優(yōu)點是涵蓋的網頁數量巨大,同時擁有基于關鍵字的全文索引,它為所有網上沖浪的用戶提供了一個入口,用戶可以從搜索引擎出發(fā)到達自己想去的網上任何一個地方。作為IR領域中最重要的會議之一,TREC(Text REtrieval Conference)從1999年11月的第8屆開始增加Web Track競賽項目,考察Web文檔與其它類型文檔在性質上的不同之處,測試在大規(guī)模的Web文檔集上進行信息檢索的算法性能。IBM Almaden研究中心研制了Clever系統(tǒng),提出了類似于PageRank的HITS算法,主要不同是將網頁分為Authority和Hub兩類,并就HITS算法在相關度評價、網頁分類、主題搜索等方面的作用進行了研究。國內先后有北京大學、清華大學、華南理工大學、國家智能研究中心等高校和研究單位對搜索引擎技術進行了研究,開發(fā)出了幾個實用的系統(tǒng)。在功能、性能、查準率、查全率等方面基本達到了實用。目前系統(tǒng)收集約50萬網頁。(1) 智能化搜索智能化是搜索引擎未來的發(fā)展方向。(2) 個性化搜索個性化搜索引擎的核心是通過跟蹤分析用戶的搜索行為,充分地利用這些信息來提高用戶的搜索效率。即通過各種方法獲得用戶沒有在查詢語句中表達出來的真正用途,實現自然語言的智能查詢功能。d)進行站點類聚或內容類聚,減少信息的總量。雖然該技術日前還處于初步研究階段,其難點在于語言之間在表達方式和語義對應上的不確定性,但也是一種發(fā)展方向。搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇?,F在有很多搜索引擎已經提供了網頁、新聞、圖片、音樂等資源搜索,當然范圍還可以更廣,再如可以搜索視頻、音頻等。搜索引擎脫離瀏覽器是一個發(fā)展趨勢,Google、 Yahoo等己經推出桌面型搜索軟件,而微軟在2005年也同樣有了自己的桌面搜索軟件。巨大的使用需求推動了搜索引擎技術的發(fā)展,各種新技術紛紛應用到搜索引擎中。使用C進行代碼的編寫。第六章:對互聯(lián)網信息檢索系統(tǒng)進行測試,總結整個論文的完成情況,對研究工作進行總結和展望。 CrawlerCrawler負責頁面信息的采集,它的工作實現基于以下設想:既然所有網頁都可能鏈接到其他網站,那么從一個網站開始,跟蹤所有網頁上的所有鏈接,就有可能檢索整個互聯(lián)網。Crawler利用HTTP協(xié)議讀取Web頁面并沿著HTML文檔中的超鏈接自動獲取WWW資源。(2) 網頁評估在抓取網頁時存在一定的取舍,一般只會抓20%左右的網頁。 Indexer搜索引擎在完成用戶查詢請求時,并不是即時檢索互聯(lián)網上的數據,搜索的數據實際是預先采集的網頁數據。反過來,如果按關鍵詞建立到頁面的索引,便可以根據關鍵詞快速地檢索到相關頁面。頁面數據服務器中間數據索引數據圖23 Indexer索引數據結構圖Indexer首先從頁面存儲器中獲取頁面數據,對其進行分析,通過詞典識別網頁中的詞,通過停用詞(stop words)表刪除其中的停用詞,生成檢索詞序列,并最后生成索引數據。(2) 索引更新頁面數據更新時,索引數據必須相應的更新。(4) 網頁相似性支持索引的結構還必須為網頁相似性分析提供支持。Searcher基本結構如圖24所示。一些新的嘗試,比如對用戶偏好的分析技術都可以運用到這里,對不同的用戶采用不同的排序策略。(3) 檢索結果的相似性分析主要用在類似網頁功能中,需要在索引結構中提供支持。 搜索引擎的性能指標我們可以將Web信息的搜索看作一個信息檢索問題,即在由web網頁組成的文檔庫中檢索出與用戶查詢相關的文檔。對于搜索引擎系統(tǒng)來講,因為沒有一個搜索引擎系統(tǒng)能夠搜集到所有的Web網頁,所以召回率很難計算。研究搜索引擎的頁面優(yōu)先度算法,需要從客觀和主觀兩方面進行研究。例如,英文句子“I am a student”,用中文則為:“我是一個學生”。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。實現流程如圖26所示。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也較少。一種方法是改進掃描方式,稱為特征掃描或標志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。 基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞?;ガF信息體現了漢字之間結合關系的緊密程度。實際應用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優(yōu)點。圖27 Google體系結構圖與其他搜索引擎類似,Google在整體結構上也主要有Crawler,Indexer,Searcher等部分組成,在模塊設計上更為細致。URL Server向Crawler提供待抓取的URL列表。Hits中記錄了關鍵字、關鍵字在文檔中的出現位置和字體大小、大小寫等信息。URL Resolve讀取Anchors中內容,并把相對的URL轉換成絕對的URL,再轉換成docID。同時,將生成的關鍵字列表與先前由Indexer產生的關鍵字表結合生成新的詞典(lexicon)提供給Searcher使用。根據各網頁的匹配程度,結合網頁的Page Rank值對檢索結果進行排序后返回給用戶。方便的在目標系統(tǒng)中實現全文檢索的功能,或是以此為基礎建立起完整的全文檢索引擎。使用C進行編寫。圖32 各個模塊是使用符合MDA規(guī)則的,方便用戶選擇有效的接口,也為用戶定制自己所需的各個模塊提供高可擴展性。Corpus(語料庫)中是需要被解析的文檔。Index(索引)模塊提供2種訪問協(xié)議。RAM存儲接口可以批量地索引文件,加快標引速度。首先,引入了對索引文件的操作的封裝,其次完成了索引核心的抽象,在索引核心的基礎上開始設計對外的接口。:提供一個全文索引引擎的架構,而不是實現。 圖33 。文檔是提取了某個文件中的所有信息之后的結果,這些組成了段,或者稱為一個子索引,子索引可以組合為索引,也可以合并為一個新的包含了所有合并項內部元素的子索引,可以清楚的看出。 索引文件功能表索引文件索引文件含義.f(n)規(guī)格化文件.fdt包含各個域數據(field的特性)信息.fdx。而域集合與項集合之間則通過域的在域記錄文件()中所記錄的域記錄號維持對應關系。以上所闡述的。其中詞典文件不僅保存有每個關鍵詞,還保留了指向頻率文件和位置文件的指針,通過指針可以找到該關鍵字的頻率信息和位置信息。例如:當前文檔序列號是17983,上一文章號是17970,在不壓縮的情況下,要用3個字節(jié)才能保存,壓縮后只需保存13,使用一個字節(jié)就可以了。,如圖34所示。文本流表示了對于索引目標和交互控制的抽象,即用文本流表示了將要索引的文件,用文本流向用戶輸出信息;在實際的實現中,以達到適應多種語言文字的處理的目的。 通過以上的系統(tǒng)結構分析和數據流分析。用戶自定義功能….用戶自定義功能圖35 自定義擴展功能對其開發(fā)的關鍵工作如下:(1) (按照空格進行分詞,并去除了常用的語法詞,如英文中的is,are等等)。在實際應用中,設計具體的搜索器,包括默認域的指定,搜索域的接收,索引庫位置的接收,以及多個查詢通過布爾操作符連接起來形成復雜的查詢語句的功能。,之后就可以考慮其上的應用程序開發(fā)。pwd=sagao。 try { SqlConnection conn = new SqlConnection(ConString)。 writer = new IndexWriter(Index_Path, new StandardAnalyzer(), true)。 (new Field(indexcontent, dr[Title].ToString() + dr[Content].ToString(), , ))。 ()。 } return writer。系統(tǒng)使用C語言進行開發(fā), Framework下,主要支持Windows操作系統(tǒng),同時也可以移植到其他平臺。 使用Microsoft SQL 2005對采集的網頁數據進行保存。 。 使用Log4net實現日志功能模塊。各模塊在實現上具有高度可隔離性。 數據抓取模塊數據抓取模塊主要提供對Internet網頁數據的采集,數據的保存,網頁文件的下載。在數據庫操作方面,這里使用Microsoft SQL 2005對數據進行保存,當然也可以使用Oracle等數據庫。最終生成deletable文件、segment文件和數據索引文件。通過Web的形式向用戶提供檢索的功能,接收用戶的查詢請求。日志管理模塊采用Log4net進行日志的操作。EarthSearch系統(tǒng)整體結構如圖41所示。初始化線程池開啟空閑線程獲取入口URL地址網頁獲取網頁分析獲取網頁中所有超鏈接,同時存儲網頁數據添加到待解析的超鏈接隊列中添加到已解析的超鏈接隊列中判斷是否已解析?是否開始停止啟動功能選擇結束圖42 網頁數據抓取流程圖 數據索引處理流程;,對document對象進行索引數據的寫入,保存在內存中;最后輸出內存數據生成索引文件數據索引執(zhí)行過程如圖43所示??蛻舳溯斎霗z索關鍵詞服務器端等待接收關鍵詞將關鍵詞發(fā)送到服務器在索引數據庫中進行查找,并將結果返回給用戶對關鍵詞進行中文分詞結束結束顯示查詢結果發(fā)送關鍵詞返回查詢結果圖44 數據檢索通信流程圖 5 系統(tǒng)實現本章討論信息檢索系統(tǒng)功能的實現方法。 數據抓取主界面設計由于網頁數據抓取程序需要通過配置文件進行參數的初始化,所以在數據抓取界面上應對下載文件保存路徑,抓取入口,線程數等進行相應的設置。一般可使用如下的代碼創(chuàng)建并運行一個線程:在C中使用線程的代碼:private void fun(){// 線程要執(zhí)行的代碼}public void testThread(){ Thread thread。至于如何使用多線程來下載,各個版本的網絡蜘蛛不盡相同。//實例化計時器 ()。 = this。 threads[i].Start()。 if (waitTimes == 10) { (Name)。 } else { waitTimes = 0。 break。 lock (manager) { (url)。 } } End()。 Stream stream = null。 stream = ()。 reader = new StreamReader(stream, )。 } catch (WebException e) { (下載錯誤: + () + | + ())。 if (stream != null) ()。文件體(BODY)是HTML文檔的主要部分,描述的是在瀏覽器中顯示的內容。代碼實現如下:從HTML中獲取節(jié)點TITLE的值。 if ( == 0) { return 。圖52 索引參數設置界面 索引網頁數據由于用戶不能直接對抓取的數據進行檢索,所以在提供數據檢索功能之前,需要進行數據索引操作。 (new Field(title, dr[Title].ToString(), , ))。 } ()。數據檢索主界面如圖54所示。KeyWord = [keyword].ToString()。Query query = (KeyWord)。 (title)。 for (int i = 0。 myrow[0] = (title).ToString()。 ()。}()。以下將詳細介紹本系統(tǒng)的測試過程。動態(tài)測試一般用兩種方法:一是黑盒測試法,一是白盒測試法。(1) 中文分詞模塊測試通過對中文算法的測試,基本上實現了預期的效果。經過一系列測試后結果基本無誤。通過多線程的方式,提高了數據抓取的速度。這些都是還有待進一步改善的地方。最后,敬請老師和同學們多多
點擊復制文檔內容
數學相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1