freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎畢業(yè)設(shè)計論文-資料下載頁

2024-12-03 20:50本頁面

【導(dǎo)讀】①(美)克羅夫特.搜索引擎-信息檢索實踐[M].北京:機械工業(yè)出版社,.②盧亮等.搜索引擎原理、實踐與應(yīng)用[M].北京:電子工業(yè)出版社..④施平安等,Java程序設(shè)計教程(第5版)[M].北京:清華大學(xué)出版社,.⑤其他Java方面的資料.⑥充分利用網(wǎng)絡(luò)資源.②搜索引擎策略研究;③分析網(wǎng)絡(luò)機器人;④基于Java技術(shù)實現(xiàn)一個搜索引擎,要求操作方便,界面友好.①可以正確運行的軟件一套及其源代碼;②符合畢業(yè)設(shè)計規(guī)范的畢業(yè)論文一篇。[主要對學(xué)生畢業(yè)設(shè)計(論文)的工作態(tài)度,研究內(nèi)容與方法,工作量,文獻應(yīng)用,創(chuàng)新性,實用性,信息進行組織和處理后,并將處理后的信息顯示給用戶,是為用戶提供檢索服務(wù)的系統(tǒng)。本文對搜索引擎的原理、組成、數(shù)據(jù)結(jié)構(gòu)、工作流程等方面做了深入而細致地研究。部分借助Lucene全文搜索引擎庫中的Java類進行實現(xiàn)。最后采用JSP技術(shù)設(shè)計了一個簡易的搜索引擎客

  

【正文】 的身份。例如 Google網(wǎng)絡(luò)機器人的標識 Google Bots,Baidu 網(wǎng)絡(luò)機器人的標識為 Baidu Spider。如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)機器人過來過,什么時候過來的,以及讀了多少數(shù)據(jù)等等。如 果網(wǎng)站管理員發(fā)現(xiàn)某個機器人有問題,就通過其標識來和其 所有者聯(lián)系。 [3] 網(wǎng)頁抓取應(yīng)該考慮的問題 在網(wǎng)頁抓取的過程中,有一些相關(guān)的問題需要考慮。例如如何來決定網(wǎng)頁的抓取頻率,如何處理不同類型的網(wǎng)頁以及網(wǎng)站與網(wǎng)絡(luò)蜘蛛之間的關(guān)系等等。 抓取周期分析 : 由于網(wǎng)站的內(nèi)容經(jīng)常在變化,因此網(wǎng)絡(luò)蜘蛛也需不斷的更新其抓取網(wǎng)頁的內(nèi)容,這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經(jīng)過期的死鏈接。搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長,則總會有一部分新生成的網(wǎng)頁搜索不到;周期過 短,技術(shù)實現(xiàn)會有一定難度,而且會對帶寬、服務(wù)器的資源都有浪費。搜索引擎的網(wǎng)絡(luò)機器人并不是對所有的網(wǎng)站都采用同一個周期進行更新,對于一些重要的更新量大的網(wǎng)站,更新的周期短,如有些新聞網(wǎng)站,幾個小時就更新一次;相反對于一些不重要的網(wǎng)站,更新的周期就長,可能一兩個月才更新一次。一般來說,網(wǎng)絡(luò)湖南科技大學(xué)本科生畢業(yè)設(shè)計(論文) 12 蜘蛛在更新網(wǎng)站內(nèi)容的時候,不用把網(wǎng)站網(wǎng)頁重新抓取一遍,對于大部分的網(wǎng)頁,只需要判斷網(wǎng)頁的屬性 ( 主要是日期 ) ,把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。 搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段 時間(比如Google 一般是 28 天),搜索引擎主動派出 “ 蜘蛛 ” 程序,對一定 IP 地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。 網(wǎng)絡(luò)蜘蛛的排斥機制 : 為了限制網(wǎng)絡(luò)蜘蛛在網(wǎng)站內(nèi)的訪問 范圍,一般網(wǎng)站都采用了一個網(wǎng)絡(luò)機器人排斥機制來完成這方面的工作 。網(wǎng)絡(luò)蜘蛛進入一個網(wǎng)站,一般會訪問一個特殊的文本文件 ,這個文件一般放在網(wǎng)站 服務(wù)器的根目錄下。網(wǎng)站管理員可以通過 來定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問,或者哪些目錄對于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時文件目錄不希望被搜索引擎搜索到,那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。 網(wǎng) 頁的不重復(fù)抓取 : 網(wǎng)絡(luò)蜘蛛對那些已經(jīng)抓取過的網(wǎng)頁 不再抓取,或者在原來網(wǎng)頁的基礎(chǔ)上進行小范圍的修改即可 ,這就是網(wǎng)頁的不重復(fù)抓取。 WebLech 簡介 WebLech 是一個功能強大的 Web 站點下載與鏡像工具。它支持按功能需求來下載web 站點并能夠盡 可能模仿標準 Web 瀏覽器的行為。 WebLech 有一個功能控制臺并采用多線程操作。 數(shù)據(jù)解析 世界上存在許許多多的二進制文件,如: Word、 PDF 等。搜索引擎如果需要從這些文件里面提取出純文本,則就需要多這些各種各樣的文件進行解析。 HTML 的解析 網(wǎng)絡(luò)上最常見的文檔格式就是 HTML 文檔。 Htmlparser 是一個著名的 Java 開源組件的,它是專門用來解析 HTML 文檔的。 Htmlparser 是一個純的 java 寫的 HTML 解析的庫,Htmlparser 不依賴于其它的 java 庫, Htmlparser 主要用于改造或提取 HTML。 Htmlparser能超高速解析 HTML,而且不會出錯。毫不夸張地說, Htmlparser 就是目前最好的 HTML解析和分析的工具。由于 Htmlparser 結(jié)構(gòu)設(shè)計精良,所以擴展 Htmlparser 非常便利。 Word 的解析 Microsoft 的 Office 系列產(chǎn)品擁有大量的用戶, Word、 Excel 也成為辦公文件的首選。在 Java 中,已經(jīng)有很多對于 Word、 Excel 的開源的解決方案,其中比較出色的是 Apache的 Jakata 項目的 POI 子項 目。 POI 提供對 Word 的 DOC 格式文件的讀取。但在它的發(fā)行版本中沒有發(fā)布對 Word 支持的模塊,需要另外下載一個 POI 的擴展的 Jar 包。用戶可以湖南科技大學(xué)本科生畢業(yè)設(shè)計(論文) 13 到 : //,下載后把該包加入工程的 Build Path 中,讀取一個 DOC 文件并返回文本。函數(shù)內(nèi)容很簡單,就是調(diào)用WordExtractor 的 API 來提取 DOC 的內(nèi)容到字符串 。 Excel 的解析 Jakarta 的 POI 項目提供了一組操 縱 Windows 文檔的 Java API,如下幾個類提供了操作 Excel 文件的方便的途徑: HSSFWorkbook、 HSSFSheet、 HSSFRow、 HSSFCell,分別代表了 Excel 電子表格中的 Book、 Sheet、行和單元格。 HSSFWorkbook wb = new HSSFWorkbook(); 讀取 Excel 文件時,首先生存一個 POIFSFileSystem 對象,由POIFSFileSystem 對象構(gòu)造一個 HSSFWorkbook,該 HSSFWorkbook 對象就代表了 Excel文檔。 PDF 的解析 PDF 全稱 Portable Document Format,是 Adobe 公司開發(fā)的電子文件格式。這種文件格式與操作系統(tǒng)平臺無關(guān),可以在 Windows、 Unix 或 Mac OS 等操作系統(tǒng)上通用。 PDF文件格式將文字、字型、格式、顏色及獨立于設(shè)備和分辨率的圖形圖像等封裝在一個文件中。如果要抽取其中的文本信息,需要根據(jù)它的文件格式來進行解析。 PDFBox 是 Java 實現(xiàn)的開源的 PDF 文檔協(xié)作類庫,這個庫允許你訪問 PDF 文件的各項信息 , 提供 PDF 文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能,也包含了一些命 令行實用工具。 本章小結(jié) 用戶 是通過 關(guān)鍵字來 搜索他所需要的信息,搜索引擎其實就是先將網(wǎng)絡(luò)上的網(wǎng)頁抓取下來解析,然后建立索引提供給用戶搜索。 本章首先介紹了數(shù)據(jù)的抓取, 從數(shù)據(jù)抓取策略、 Spider 協(xié)議、 抓取周期、網(wǎng)絡(luò)蜘蛛的排斥機制、網(wǎng)頁的不重復(fù)抓取等方面 對網(wǎng)絡(luò)蜘蛛進行了分析。然后簡單介紹了數(shù)據(jù)解析的概念, 并且分別介紹了 HTML 文件的解析、Word 文件的解析、 Excel 文件的解析和 PDF 文件的解析。 湖南科技大學(xué)本科生畢業(yè)設(shè)計(論文) 14 第 四 章 索引 與搜索 技術(shù) 探究 網(wǎng)絡(luò)蜘蛛把網(wǎng)絡(luò)上的文件爬取 下來后,然后 解析 提取網(wǎng)頁中的文字 , 提取出來文 字后再用分詞工具對文字進行分詞、索引, 最后再供用戶查詢。 Lucene 不是一個完整的全文索引應(yīng)用,而是一個用 Java 寫的全文索引引擎工具包,它可以方便的嵌入到各種應(yīng)用中實現(xiàn)針對應(yīng)用的全文索引 /檢索功能。 Lucene 的 API 接口設(shè)計的比較通用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫的表 ?記錄 ?字段,所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫等都可以比較方便的映射到 Lucene 的存儲結(jié)構(gòu) /接口中??傮w上看:可以先把 Lucene 當成一個支持全文索引的數(shù)據(jù)庫系統(tǒng) 。 建立索引 建立索引的目的就是要實現(xiàn)用戶能夠在很短的時間之 內(nèi)搜索到所需要的信息 , 而一般的搜索引擎都是用倒排索引文件來組織索引的。 在建立索引之前要先對解析提取出來的文字分詞。本設(shè)計的索引是用 Lucene 的 IndexWriter 類 來建立索引的。 中文分詞 眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。 所以中文分詞就比英文分詞難度大一些。 中文分詞技術(shù) 中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是 分詞算法。 現(xiàn)有的分詞算法可分為 兩 大類:基于字符串匹配的分詞方法 和 基于統(tǒng)計的分詞方法。 ( 1) 、基于字符串匹配的分詞方法 這種方法又叫做機械分詞方法,它是按照一定的策略將 等 待分析的漢字串與一個充分大的機器詞典中的詞條進行 匹 配,若在詞典中找到某個字符串,則匹配成功 ( 識別出一個詞 ) 。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配 ; 按照不同長度優(yōu)先匹配的情況,可以分為最大匹配和最小匹配 ; 按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下: 1) 正向最大匹配法 ( 由左到右的方向 ) ; 2) 逆向最大匹配法 ( 由右到左的方向 ) ; 3) 最少切分 ( 使每一句中切出的詞數(shù)最小 ) 。 ( 2) 、基于統(tǒng)計的分詞方法 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的湖南科技大學(xué)本科生畢業(yè)設(shè)計(論文) 15 可信度。可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算兩個漢字 X、 Y 的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值 時,便可認為此字組可能構(gòu)成了一個詞。 ( 3) 、兩種分詞方法的比較 基于字符串匹配的分詞方法 是需要有詞庫的,而 基于統(tǒng)計的分詞方法 只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但基于統(tǒng)計的分詞方法 也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如 “ 這一 ” 、 “ 之一 ” 、 “ 有的 ” 、 “ 我的 ” 、 “ 許多的 ” 等,并且對常用詞的識別精度差,時空開銷大。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典 ( 常用詞詞典 ) 進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即 將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。 現(xiàn)有的中文分詞問題 有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢 ? 事實遠非如此。中文是一種十分復(fù)雜的語言,讓計算機理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。 ( 1) 、歧義識別 歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因為 “ 表面 ” 和 “ 面的 ” 都是詞,那么這個短語就可以分成 “ 表面的 ” 和 “ 表 面的 ” 。這種稱為交叉歧義。由于 沒有人的知識去理解,計算機很難知道到底哪個方案正確。 交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個句子來判斷了。例如,在句子 “ 這個門把手壞了 ” 中, “ 把手 ” 是個詞,但在句子 “ 請把手拿開 ”中, “ 把手 ” 就不是一個詞 。 ( 2) 、新詞識別 新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。最典型的是人名 。 新詞中除了人名以外,還有機構(gòu)名、地名、產(chǎn)品名、商標名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng)中的 新詞識別十分重要。目前新詞識別準確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標志之一。 [4] JE 分詞 JE(Job Estimate)分詞是一套由 java 寫的分詞軟件, JE 識別很多的詞,而且可以去掉很多的忽略詞,如 “ 的 ” 、 “ 在 ” 等。另外 JE 分詞還提供了很多的功能:它提供了分詞粒度的參數(shù),即可以設(shè)定正向最大匹配的字數(shù),例如: MMAnalyzer analyzer=new MMAnalyzer(4); 這個代碼表示當正向最大匹配到 4 個字的時候,就不再嘗試第 5 個字和湖南科技大學(xué)本科生畢業(yè)設(shè)計(論文) 16 前 4 個字是否組成新詞了。還有, JE 分 詞 還 可 以 添 加 新 詞。其中,(String word) 表 示 可 以 向 詞 庫 中 添 加 單 個 的 詞 。 而(Reader reader)則表示可以從 Reader 中讀取新詞。 Lucene 索引 Lucene 的索引的相關(guān)術(shù)語 索引的建立, Lucene 提供了五個基礎(chǔ)類,分別是 Document, Field, IndexWriter, Analyzer, Directory。以下是他們的用途 。 Document : 字面意思是文檔,這里的文檔可以是一個 HTML, 一封電子郵件,文本文件, doc 文檔。一個 Document 對象由多個 Field 組成的??梢园岩粋€ Document 對象想象成數(shù)據(jù)庫中的一個記錄,而每個 Field 對象就是記錄的一個字段。 Field 對象是用來描述一個文檔的某個屬性的,比如一封電子郵件的標題和內(nèi)容可以用兩個 Field 對象分別描述。 Analyzer: 在一個文檔被索引之前,首先需要對文檔內(nèi)容進行分詞處理,這部分工作就是由 Analyzer 來做的。 Analyzer 類是一個抽象類,它有多個實現(xiàn)。針對不同的語言和應(yīng)用需要選 擇適合的 Analyzer。 Analyzer 把分詞后的內(nèi)容交
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1