freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

互聯(lián)網(wǎng)信息檢索系統(tǒng)的研究與實現(xiàn)本科畢業(yè)論文(完整版)

2025-08-02 22:31上一頁面

下一頁面
  

【正文】 詢、模糊查詢等多種查詢方式。其目的是建立一個網(wǎng)上圖書館,只收集科技人員廣泛使用的PDF和Postscript文件,用“PDF”,“ Postscript”等檢索項組成查詢送往其他著名的搜索引擎,對返回的結(jié)果進行信息提取(主題、摘要、作者、引用文獻等),組成了一個27萬篇文獻的索引庫,供科技人員查詢。 搜索引擎技術(shù)現(xiàn)狀及發(fā)展動向 搜索引擎技術(shù)現(xiàn)狀由于搜索引擎巨大的商業(yè)價值和學術(shù)研究價值,各大公司都在投巨資進行搜索引擎的研制開發(fā),不斷地涌現(xiàn)出新的具有不同特色的搜索引擎產(chǎn)品。 互聯(lián)網(wǎng)信息檢索系統(tǒng)的市場需求隨著信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)得到了飛速的發(fā)展,成為人們學習、工作、生活中的最重要的知識和信息來源。傳統(tǒng)的信息檢索技術(shù)是從一定規(guī)模的文檔庫中獲取用戶需求的信息,其核心是重要文本信息的索引和檢索。Data Storage。從理論上對這些關(guān)鍵技術(shù)進行了詳細的討論。文章從下面幾個方面進行了討論:首先,本文介紹搜索引擎的市場需求和研究狀態(tài)。Information Retrieval51畢業(yè)設(shè)計(論文)原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾:所呈交的畢業(yè)設(shè)計(論文),是我個人在指導教師的指導下進行的研究工作及取得的成果。在信息量不大的情況下,傳統(tǒng)的信息檢索能夠滿足需求。關(guān)于網(wǎng)頁的數(shù)目沒有具體的統(tǒng)計數(shù)據(jù),但根據(jù)CNNIC第23次報道,中國當前擁有的網(wǎng)頁數(shù)己經(jīng)超過160億。同時,各大科研機構(gòu)和大學紛紛展開對搜索引擎技術(shù)相關(guān)領(lǐng)域的學術(shù)研究?,F(xiàn)在,NEC開始致力于下一代元搜索引擎Inquirus的開發(fā)。FTP檢索實現(xiàn)基于文件主要屬性的結(jié)構(gòu)查詢,以及模糊匹配等。這其中也包含了對服務(wù)多項化、個性化,結(jié)果精確化,交叉語言檢索等方面的功能。c)用正文分類技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。用戶可以輸入簡單的疑問句,比如“how can kill virus of puter?”。它完全越過傳統(tǒng)的搜索模式,越過瀏覽器,真正實現(xiàn)讓搜索無處不在。本文在深入分析網(wǎng)頁獲取、索引生成、級別系統(tǒng)、索引檢索等搜索引擎核心技術(shù)的基礎(chǔ)上,設(shè)計并實現(xiàn)互聯(lián)網(wǎng)信息檢索系統(tǒng)。Crawler日志分析器控制器原始數(shù)據(jù)庫索引數(shù)據(jù)庫IndexerSearcher用戶接口用戶日志數(shù)據(jù)庫圖21 搜索引擎體系結(jié)構(gòu)圖(1) Crawler從Web中采集網(wǎng)頁數(shù)據(jù);(2) Indexer對Crawler采集數(shù)據(jù)進行分析生成索引;(3) Searcher接受查詢請求,通過一定的檢索算法獲取查詢結(jié)果,排序后返回給用戶。由于Web信息具有的分布性,非結(jié)構(gòu)化,不穩(wěn)定性等特點,Crawler存在以下的關(guān)鍵問題:(1) 多線程抓取時的任務(wù)調(diào)度問題搜索引擎會產(chǎn)生多個Crawler同時對網(wǎng)頁進行抓取,這里需要一個好的分布式算法,使得既不重復抓取網(wǎng)頁,又不漏掉重要的站點。只要找到頁面,便可以找到其中的關(guān)鍵詞。Google存儲索引的服務(wù)器大概有1000多臺。 SearcherSearcher是直接與用戶進行交互的模塊,在接口上有多種實現(xiàn)方式,常見的主要是Web方式,另外還可以通過無線接入方式(如手機)進行查詢。搜索引擎需要在其中作出權(quán)衡。對于一個檢索系統(tǒng)來講,召回率和精度不可能兩全其美,召回率高時,精度低,精度高時,召回率低。 中文分詞算法眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。S是否為單字S2=S2+S+”/”S1=S1S是是是否否否帶切分字符 S1,輸出字符 S2最大詞長 MaxLenS1是否為空輸出 S2最大詞長 MaxLen從S1左側(cè)開始,取出候選字符串S,S的長度不大于MaxLan查看字典,判斷S是否在字典中將S最右邊一個字去掉最大詞長 MaxLen開始結(jié)束圖25正向最大匹配法實現(xiàn)流程圖(2) 逆向最大匹配法(由右到左的方向)首先將待拆分的字符串從右向左進行分詞,然后將分詞與機器字典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。由于漢語語言知識的籠統(tǒng)、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。URL數(shù)據(jù)由URL Server模塊負責維護。解壓后的頁面數(shù)據(jù)被轉(zhuǎn)換成一組稱為hits的結(jié)構(gòu)。Sorter讀取barrels中內(nèi)容,重新排序后產(chǎn)生以關(guān)鍵字(worded)為索引的倒排索引(inverted index)。提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。,如圖32所示。需要對被索引的文件進行分析,對于搜索過程而言,用戶輸入的查詢條件,也需要通過解析(Analysis),通過相同的解析過程后,用戶的查詢信息才能和從文本解析出的信息相匹配,才能返回給用戶正確的結(jié)果。從面向?qū)ο蟮挠^點來考察,:引入額外的抽象層以降低耦合性。,以字節(jié)為基礎(chǔ),定義了數(shù)據(jù)類型,由于它們都以字節(jié)為基礎(chǔ)定義而來,因此保證了平臺無關(guān)的特性。每個段包含一組文件,它們的文件擴展名不同,但是文件名均稱為記錄在文件segments中段的名字。這樣,整個段的索引信息就通過這些文檔有機的組成。其次是對數(shù)字的壓縮,數(shù)字只保存與上一個值的差值,這樣可以減小數(shù)字的長度,從而減少保存該數(shù)字需要的字節(jié)數(shù)。圖中共存在4種數(shù)據(jù)流,分別是文件流,token流,字節(jié)流與查詢語句對象流。如圖35所示。比如改進其索引的效率,設(shè)置權(quán)重,操作索引庫,改進其返回結(jié)果時候的緩沖機制等等。 IndexWriter writer = null。 (new Field(title, dr[Title].ToString(), , ))。 } catch (Exception ex) { ()。使用SOAP格式的XML進行相關(guān)配置的保存,C對XML的操作具有很好的支持,可以高效的實現(xiàn)對XML節(jié)點、屬性等方面的操作。,索引時使用單獨的線程,可以同數(shù)據(jù)抓取線程互相不干擾。日志管理模塊提供了一種安全操作數(shù)據(jù)記錄的機制。數(shù)據(jù)抓取執(zhí)行過程如圖42所示。最廉價和快捷的方法就是使用多線程。}一般來說,網(wǎng)絡(luò)蜘蛛都是使用多線程來下載網(wǎng)絡(luò)資源的。 i++) { Spider worker = new Spider()。具體代碼如下:private void Run(){ while (!) { if ( == 0) { (Name + waiting 1000)。 ++。 ()。 response = ()。 ProcessPage(buffer)。文件頭(TITLE)包含文檔的標題,以及其它相關(guān)屬性,這些內(nèi)容不顯示在瀏覽器的頁面中。 string title = (html, title, title, )。數(shù)據(jù)庫待索引數(shù)據(jù)生成field對象,暫存在SqlDataReader中內(nèi)存文件系統(tǒng)索引文件圖53 生成索引文件基本流程代碼實現(xiàn)如下:public void AddDocument(SqlDataReader dr){ try { while (()) { Document doc = new Document()。 }} 數(shù)據(jù)的檢索 數(shù)據(jù)檢索主界面設(shè)計根據(jù)數(shù)據(jù)檢索的功能需求可知,其界面需有客戶端輸入關(guān)鍵詞的文本框,并且提供查詢按鈕。QueryParser q = new QueryParser(indexcontent, new StandardAnalyzer())。 ()。 (myrow)。系統(tǒng)要想正確穩(wěn)定的運行,必須經(jīng)過嚴格測試。 模塊測試模塊測試就是把各個模塊看成一個小整體,采用靜態(tài)測試和白盒測試法來測試各模塊是否滿足要求。本系統(tǒng)基本上達到了預(yù)期想要完成的效果,實現(xiàn)了網(wǎng)頁數(shù)據(jù)的抓取、數(shù)據(jù)的索引、數(shù)據(jù)的檢索等功能,并且在HTML文件解析方面研究了多種解決方案,實現(xiàn)了對網(wǎng)頁關(guān)鍵內(nèi)容的提取。在軟件的開發(fā)過程中,知道了許多編程的技巧,積累了許多設(shè)計方面的經(jīng)驗。 致 謝在這次畢業(yè)設(shè)計的整個過程中,雖然遇到了一些技術(shù)上的難題但在與老師、同學和網(wǎng)友的交流下都及時的解決了問題。為檢索模塊提供數(shù)據(jù)來源。 測試用例預(yù)期測試結(jié)果實際測試結(jié)果測試結(jié)論我是中國人我是/中國/中國人我是/中國人基本正確中國是社會主義國家中國/是/社會/主義/國家/社會主義中國/是/社會主義國家基本正確每個人都應(yīng)孝敬父母每個/人/都應(yīng)/孝敬/父母/孝敬父母每個人/都/應(yīng)/孝敬父母基本正確(2) 網(wǎng)頁超鏈接獲取模塊測試網(wǎng)頁超鏈接的獲取是網(wǎng)頁抓取模塊的關(guān)鍵功能,通過測試,基本上實現(xiàn)了預(yù)期的效果。 測試基礎(chǔ)(1) 測試的目的測試的目的,是想以最少的人力、物力和時間找出軟件中潛在的各種錯誤和缺陷,通過修正各種錯誤和缺陷提高軟件質(zhì)量,回避軟件發(fā)布后由于潛在的產(chǎn)品缺陷和錯誤造成的隱患所帶來的風險。 } = mytab。 i ()。h = (query)。圖54 數(shù)據(jù)檢索主界面 檢索索引數(shù)據(jù)客戶端將要檢索的關(guān)鍵詞傳遞到服務(wù)器,服務(wù)器端處理程序首先對關(guān)鍵詞進行分析,然后從索引文件中進行查找,將符合匹配的結(jié)果返回給客戶端。 (new Field(url, dr[Url].ToString(), , ))。 } else { return title。網(wǎng)絡(luò)蜘蛛在爬行到每一個網(wǎng)頁時,都需要對HTML文檔進行分析,主要需要完成兩個操作:(1) 分析出頁面中所有HREF的值,并將這些URL添加到待爬行的URL隊列中,以供網(wǎng)絡(luò)蜘蛛接下來爬行使用。 return。 if (!().StartsWith(text/)) { SaveBinaryFile(response)。} 網(wǎng)頁文件下載通過WebResponse,HttpWebRequest對象對文件進行下載,數(shù)據(jù)可以是二進制格式,也可以是文本類型數(shù)據(jù)。 } } else { break。 waitTimes = 0。 threads[i] = new Thread(new ThreadStart())。本文我們采用線程數(shù)組的形式來實現(xiàn)多線程操作。網(wǎng)頁抓取界面如圖51所示。以document對象形式傳入數(shù)據(jù)庫待索引數(shù)據(jù)生成field對象生成document對象,調(diào)用add方法加入field對象加入document對象生成小段分析文檔寫入索引信息排序位置信息內(nèi)存文件系統(tǒng)索引文件準備階段索引構(gòu)建階段字節(jié)流輸入合并輸出開始結(jié)束圖43 網(wǎng)頁數(shù)據(jù)索引流程圖 數(shù)據(jù)檢索處理流程以網(wǎng)站的形式提供數(shù)據(jù)檢索功能??梢詫⑷罩痉植煌募墑e,不同的樣式,保存到不同的媒介中。 數(shù)據(jù)檢索模塊數(shù)據(jù)檢索模塊主要為用戶提供數(shù)據(jù)檢索的功能。實現(xiàn)搜索引擎中的Crawler模塊。 系統(tǒng)總體結(jié)構(gòu)設(shè)計系統(tǒng)在功能上采用分層方式,盡量減少層與層之間的耦合度,同時通過對模塊功能進行精心劃分,取得了很好的可配置性。}當然。 (doc)。 if ( == ) { ()。如果系統(tǒng)也使用C語言開發(fā),作為一個API集來調(diào)用。因此我們需要按照目標語言的詞法結(jié)構(gòu)來構(gòu)建相應(yīng)的詞法分析邏輯。是對傳統(tǒng)文字中的詞的概念進行抽象,;簡單的講Token就是一個詞和所在域值的組合。 數(shù)據(jù)流分析?;旧隙裕且粋€倒排索引,比如使用索引/信息文件的方式,從文件安排的形式上提高查找的效率。.fnm各個域的名字信息.frq詞元(term)的頻率信息.prxterm在文檔中的位置信息.tis包含term數(shù)據(jù)信息,指向位置文件與頻率文件的指針.tii,.tvd保存有document信息,用詞元向量(TermVector)方式保存field的信息,同它包含一個指針表,deletable包含要刪除的文檔信息保存了相關(guān)段的信息每個段的文件中,主要記錄了兩類的信息:域集合和項集合。(index)由若干段(segment)組成,每一段由若干的文檔(document)組成,每一個文檔由若干的域(field)組成,每一個域由若干的項(term)組成。在每個局部細節(jié)上,比如某些常用的數(shù)據(jù)結(jié)構(gòu)與算法上。一種為搜索提供訪問,另一種協(xié)議為維護索引提供服務(wù)。各個模塊之間保持固定的協(xié)
點擊復制文檔內(nèi)容
數(shù)學相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1