正文內容

一個java搜索引擎的實現(xiàn)論文(編輯修改稿)

2025-07-23 18:45 本頁面

　

【文章內容簡介】有的 java 版本實現(xiàn)或者使用本教程提供的源碼下載中的 MD5 類。對于 MD5，我們知道其功能，能使用就可以，具體的每個步驟的意義不需要深入理解。[正文信息抽取]PageGetter在正文信息抽取之前，我們首先需要一個簡單的工具類，該工具類可以取出數(shù)據(jù)庫中的內容并且去原始網(wǎng)頁集中獲得網(wǎng)頁信息，對于該功能的實現(xiàn)在中，該類通過 URL 從數(shù)據(jù)庫中獲得該 URL 對應的網(wǎng)頁數(shù)據(jù)的所在網(wǎng)頁庫名以及偏移，然后就可以根據(jù)偏移來讀取該網(wǎng)頁的數(shù)據(jù)內容，同樣以原始網(wǎng)頁集中各記錄間的空行作為數(shù)據(jù)內容的結束標記，讀取內容之后，通過 MD5 計算當前讀取的內容的摘要，校驗是否與之前的摘要一致。對于偏移的使用，BufferedReader 類提供一個 skip(int offset) 的函數(shù)，其作用是跳過文檔中，從當前開始計算的 offset 個字符，用這個函數(shù)我們就可以定位到我們需要的記錄。清單 3. 獲取原始網(wǎng)頁庫中內容 public String getContent(String fileName, int offset) { String content = 。 try { FileReader fileReader = new FileReader(fileName)。 BufferedReader bfReader = new BufferedReader(fileReader)。 (offset)。 readRawHead(bfReader)。 content = readRawContent(bfReader)。 } catch (Exception e) {()。} return content。 } 上述代碼中，省略了 readRawHead 和 readRawContent 的實現(xiàn)，這些都是基本的 I/O 操作，詳見所附源碼。[正文抽取]對于獲得的單個網(wǎng)頁數(shù)據(jù)，我們就可以進行下一步的處理，首先要做的就是正文內容的抽取，從而剔除網(wǎng)頁中的標簽內容，這一步的操作主要采用正則表達式來完成。我們用正則表達式來匹配 html 的標簽，并且把匹配到的標簽刪除，最后，剩下的內容就是網(wǎng)頁正文。限于篇幅，我們以過濾 script 標簽為示例，其代碼如下 :清單 4. 標簽過濾 public String html2Text(String inputString) { String htmlStr = inputString。 // 含 html 標簽的字符串 Pattern p_script。 Matcher m_script。 try { String regEx_script = script[^]*?[\\s\\S]*?/script。 p_script = (regEx_script,)。 m_script = (htmlStr)。 htmlStr = ()。 // 過濾 script 標簽 }catch(Exception e) {()。} return htmlStr。// 返回文本字符串 }通過一系列的標簽過濾，我們可以得到網(wǎng)頁的正文內容，就可以用于下一步的分詞了。[分詞]中文分詞是指將一個漢字序列切分成一個一個單獨的詞，從而達到計算機可以自動識別的效果。中文分詞主要有三種方法：第一種基于字符串匹配，第二種基于語義理解，第三種基于統(tǒng)計。由于第二和第三種的實現(xiàn)需要大量的數(shù)據(jù)來支持，所以我們采用的是基于字符串匹配的方法?；谧址ヅ涞姆椒ㄓ纸凶鰴C械分詞方法，它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配，若在詞典中找到某個字符串，則匹配成功（識別出一個詞）。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優(yōu)先匹配的情況，可以分為最大（最長）匹配和最?。ㄗ疃蹋┢ヅ?。常用的幾種機械分詞方法如下：1. 正向減字最大匹配法（由左到右的方向）；2. 逆向減字最大匹配法（由右到左的方向）；3. 最少切分（使每一句中切出的詞數(shù)最?。?；4. 雙向最大減字匹配法（進行由左到右、由右到左兩次掃描）；我們采用其中的正向最大匹配法。算法描述如下：輸入值為一個中文語句 S，以及最大匹配詞 n1. 取 S 中前 n 個字，根據(jù)詞典對其進行匹配，若匹配成功，轉 3，否則轉 2；2. n = n – 1：如果 n 為 1，轉 3；否則轉 1；3. 將 S 中的前 n 個字作為分詞結果的一部分，S 除去前 n 個字，若 S 為空，轉 4；否則，轉 1；4. 算法結束。需要說明的是，在第三步的起始，n 如果不為 1，則意味著有匹配到的詞；而如果 n 為 1，我們默認 1 個字是應該進入分詞結果的，所以第三步可以將前 n 個字作為一個詞而分割開來。還有需要注意的是對于停用詞的過濾，停用詞即漢語中“的，了，和，么”等字詞，在搜索引擎中是忽略的。分詞的結果對于搜索的精準性有著至關重要的影響，好的分詞策略經(jīng)常是由若干個簡單算法拼接而成的，所以您也可以試著實現(xiàn)雙向最大減字匹配法來提高分詞的準確率。而如果遇到歧義詞組，可以通過字典中附帶的詞頻來決定哪種分詞的結果更好。倒排索引這個章節(jié)我們?yōu)槟v解預處理模塊的最后兩個步驟，索引的建立和倒排索引的建立。有了分詞的結果，我們就可以獲得一個正向的索引，即某個網(wǎng)頁以及其對應的分詞結果。如下圖所示：圖 2. 正向索引圖 3. 倒排索引我們建立了索引網(wǎng)頁庫，用于通過 URL 可以直接定位到原始網(wǎng)頁庫中該 URL 對應的數(shù)據(jù)的位置；而現(xiàn)在的正向索引，我們可以通過某個網(wǎng)頁的 URL 得到該網(wǎng)頁的分詞信息。獲得正向索引看似對于我們的即將進行的查詢操作沒有什么實際的幫助，因為查詢服務是通過關鍵詞來獲得網(wǎng)頁信息，而正向索引并不能通過分詞結果反查網(wǎng)頁信息。其實，我們建立正向索引的目的就是通過翻轉的操作建立倒排索引。所謂倒排就是相對于正向索引中網(wǎng)頁——分詞結果的映射方式，采用分詞——對應的網(wǎng)頁這種映射方式。與圖 2 相對應的倒排索引如上圖 3 所示。接下來我們分析如何從正向索引來得到倒排索引。算法過程如下：1. 對于網(wǎng)頁 i，獲取其分詞列表 List；2. 對于 List 中的每個詞組，查看倒排索引中是否含有這個詞組，如果沒有，將這個詞組插入倒排索引的索引項，并將網(wǎng)頁 i 加到其索引值中；如果倒排索引中已經(jīng)含有這個詞組，直接將網(wǎng)頁 i 加到其索引值中；3. 如果還有網(wǎng)頁尚未分析，轉 1；否則，結束建立倒排索引的算法不難實現(xiàn)，主要是其中數(shù)據(jù)結構的選用，在 dySE 中，正向索引和倒排索引都是采用 HashMap 來存儲，映射中正向索引的鍵是采用網(wǎng)頁 URL 對應的字符串，而倒排索引是采用分詞詞組，映射中的值，前者是一個分詞列表，后者是一個 URL 的字符串列表。這里可以采用一個優(yōu)化，分別建立兩個表，按照標號存儲分詞列表和 URL 列表，這樣，索引中的值就可以使用整型變量列表來節(jié)省空間。第 3 部分: 查詢服務查詢服務的整體結構查詢服務的整體結構如下：圖 1. 查詢服務整體結構在前面兩部分的敘述中，我們有了放在文件中的原始網(wǎng)頁庫、放在數(shù)據(jù)庫中的網(wǎng)頁索引 ( 指示某個網(wǎng)頁所在原始網(wǎng)頁庫的位置 )、倒排索引，以及一些小工具：分詞器。在這些部件的基礎上，我們開始搭建我們搜索引擎的界面并且實現(xiàn)信息的輸入和輸出。以下的章節(jié)安排如下：首先我們完善后臺服務，使得程序能夠在控制臺輸入查詢的情況下，在控制臺中返回需要的結果信息，這些結果將在后續(xù)的部分中返回給網(wǎng)頁進行顯示；其次，我們搭建 Web 服務器，進行網(wǎng)頁編程，使得查詢服務與后臺服務程序能夠交互；最后我們介紹網(wǎng)頁結果返回時的一些優(yōu)化，比如網(wǎng)頁排名的實現(xiàn)。[簡單查詢]在第二部分預處理之后，我們現(xiàn)有的待用數(shù)據(jù)如下：原始網(wǎng)頁庫，網(wǎng)頁索引，倒排索引，分詞器。為了方便您對于后文的理解，我們再次說明這些資源的用途：原始網(wǎng)頁庫記錄了爬蟲獲取的各個網(wǎng)頁信息，按照一定的格式保留在本地；然而這些網(wǎng)頁信息不便于隨機的進行訪問，所以我們通過網(wǎng)頁索引記錄某個網(wǎng)頁在原始網(wǎng)頁庫中的位置，以方便查詢；倒排索引是一個關鍵字和包含這個關鍵字的網(wǎng)頁 URL 集合的映射，通過倒排索引可以方便的得到哪些網(wǎng)頁包含確定的關鍵詞；分詞器的作用在于可以對用戶輸入的文字進行分詞，因

點擊復制文檔內容

環(huán)評公示相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

一個java搜索引擎的實現(xiàn)論文(編輯修改稿)

搜索引擎及搜索技巧-資料下載頁

nuwaaa搜索引擎-資料下載頁

kegaaa搜索引擎-資料下載頁

搜索引擎優(yōu)化-資料下載頁

搜索引擎(3)-資料下載頁

外文搜索引擎-資料下載頁

ftp搜索引擎設計-資料下載頁

搜索引擎銷售協(xié)議-資料下載頁

全文搜索引擎的設計與實現(xiàn)本科畢業(yè)論文-資料下載頁

搜索引擎設計學士學位論文-資料下載頁

搜索引擎服務條款-資料下載頁

搜索引擎服務協(xié)議-資料下載頁

基于lucene的圖書搜索引擎的設計與實現(xiàn)-資料下載頁

多媒體搜索引擎-資料下載頁

如何使用搜索引擎-資料下載頁

一個java搜索引擎的實現(xiàn)論文-閱讀頁

一個java搜索引擎的實現(xiàn)論文(文件)

一個java搜索引擎的實現(xiàn)論文-全文預覽

一個java搜索引擎的實現(xiàn)論文-預覽頁

一個java搜索引擎的實現(xiàn)論文-免費閱讀