freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

全文搜索引擎技術(shù)研究與實(shí)現(xiàn)(完整版)

2025-01-18 23:11上一頁面

下一頁面
  

【正文】 .........................................................................................................18 系統(tǒng)總體結(jié)構(gòu) ............................................................................................................18 網(wǎng)絡(luò)爬蟲模塊設(shè)計 .....................................................................................................18 索引系統(tǒng)模塊設(shè)計 .....................................................................................................19 檢索系統(tǒng)模塊設(shè)計 .....................................................................................................20 數(shù)據(jù)庫表設(shè)計 .............................................................................................................20 6 系統(tǒng)實(shí)現(xiàn) ...........................................................................................................................23 系統(tǒng)界面實(shí)現(xiàn) ............................................................................................................23 爬蟲程序模塊實(shí)現(xiàn) .....................................................................................................25 索引系統(tǒng)模塊實(shí)現(xiàn) .....................................................................................................26 信息檢索系統(tǒng)模塊實(shí)現(xiàn) ..............................................................................................28 7 系統(tǒng)測試 ...........................................................................................................................30 系統(tǒng)測試的目的 .........................................................................................................30 系統(tǒng)測試的原則 .........................................................................................................31 測試環(huán)境 ...................................................................................................................31 測試記錄 ...................................................................................................................31 8 結(jié)論 ..................................................................................................................................40 致謝 .......................................................................................................................................41 參考文獻(xiàn) ................................................................................................................................42 重慶理 工大學(xué)畢業(yè)論文 搜索引擎技術(shù)研究與實(shí)現(xiàn) I 摘要 隨著互聯(lián)網(wǎng)的不斷發(fā)展和日益普及, 網(wǎng)絡(luò)成為信息 極其重要的來源地,越來越多的人從網(wǎng)絡(luò)上獲取自己所 需要的信息, 網(wǎng)上的信息量在爆炸式增長,如何在最短時間內(nèi)找到我們所需要的資料就成了一個非常關(guān)鍵的問題。 搜索引擎恰好 解決了這一難題。 搜索引擎 通過采集 眾多網(wǎng)絡(luò)站點(diǎn) 信息 , 將 萬維網(wǎng)( World Wide Web) 中所有信息資源 整理和分類后作為 一個完整的集合, 以此 來提供全局性網(wǎng)絡(luò)資源檢索服務(wù) , 方便用戶查找所需信息的網(wǎng)絡(luò)檢索軟件。傳統(tǒng)的搜索引擎如 Hotbot 和 Lycos 等當(dāng)前使用的是元素搜索技術(shù),即使用網(wǎng)頁中的關(guān) 鍵詞進(jìn)行搜索,而 Google 則 使用一種包含對整個網(wǎng)絡(luò)的鏈接結(jié)構(gòu)進(jìn)行分析和大規(guī)模資料挖掘的技術(shù), Google 不僅掃描搜索關(guān)鍵詞,還閱讀頁面全文,考慮到圖像和所有鏈接,然后把該頁面與類似頁面區(qū)分開來。自然語言的優(yōu)勢在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。我認(rèn)為,垂直主題有著極大的發(fā)展空間。元搜索引擎 (metasearch engining)是將用戶提交的檢索請求到多個獨(dú)立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。 當(dāng)抓取完這些網(wǎng)頁后,由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析, 將其中的輔助部分 (如各種 HTML 標(biāo)簽、腳本程序 )去掉 , 提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容、包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小等),再 根據(jù)一定的 算法計算每 一個關(guān)鍵詞針對 每一個網(wǎng)頁的權(quán)重, 然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫, 形成本地查詢數(shù)據(jù)庫 。其中,最重要的就是提 取關(guān)鍵詞,建立索引文件。一般說來在網(wǎng)頁搜索引擎中,用詞組搜索來縮小范圍從而找到搜索結(jié)果是最好的辦法。 搜索引擎的分類 搜索引擎按照信 息搜集方法和服務(wù)提供方式的不同大致可分為以下四類: 重慶理 工大學(xué)畢業(yè)論文 搜索引擎技術(shù)研究與實(shí)現(xiàn) 8 全文索引 全文索引引擎是名副其實(shí)的搜索引擎,國外代表有 Google,國內(nèi)知名的百度搜索。著名的元搜索引擎有 InfoSpace、 Dogpile、 Vivisimo 等,中文元搜索引擎中具代表性的是搜星搜索引擎。每當(dāng)靜態(tài)方法 遇到以“ ”或“ ”開頭的 URI 時,在默認(rèn)情況下將返回這些從 WebRequest 和 WebResponse 派生的類。 問題解決方法:通過正則表達(dá)式的使用,來匹配 HTML 文檔中有用的標(biāo)簽部分,并提取標(biāo) 簽中間中的文字信息進(jìn)行另存,通過直接分析這些有用的文字信息部分來實(shí)現(xiàn)倒排索引,這樣大大提高了索引建立的效率。 命名空間包含一些類,重慶理 工大學(xué)畢業(yè)論文 搜索引擎技術(shù)研究與實(shí)現(xiàn) 11 這些類提供對 .NET Framework 正則表達(dá)式引擎的訪問。索引表也要記錄索引項在文檔中出現(xiàn)的位置,以便檢索系統(tǒng) 計算索引項之間的相鄰關(guān)系或接近關(guān)系,并以特定的數(shù)據(jù)結(jié)構(gòu)存儲在硬盤上 ,為檢索系統(tǒng)服務(wù) ,因此倒排索引的存儲結(jié)構(gòu)對之后的檢索系統(tǒng)的檢索效率有 著 重要的作用和影響 。 TF越大說明越重要。 Query = {term1, term 2, ?? , term N} Query Vector = {weight1, weight2, ?? , weight N} 我們把所有索引 的文檔向量及查詢向量放到一個 N 維空間中,每個詞 (term)是一維,得到如下的關(guān)系圖: 圖 32 文檔向量與查詢語句向量關(guān)系圖 因此, 我們認(rèn)為兩個向量之間的夾角越小,相關(guān)性越大, 所以我們計算夾角的余弦值作為相關(guān)性的打分,夾角越小,余弦值越大, 評 分越高,相關(guān)性越大。 應(yīng)提供完整的交互功能,對于有先后次序的工作,通過提示消息的方式提示用戶操作 。 可行性分析 必要性分析 在商業(yè)化的,利益驅(qū)動的當(dāng)今社會,為了能在 競爭中取的優(yōu)勢,各個商家不能將自己的“秘密武器”、自己的內(nèi)部資料公布出來供大家學(xué)習(xí)交流。 C語言還有以下的優(yōu)點(diǎn): 1) 簡潔的語法 語法中的冗余是 C++中的常見的問題,比如 const和 define、各種各樣的字符類型等等。 C消除 了軟件開發(fā)中的許多常見錯誤,并提供了包括類型安全在內(nèi)的完整的安全性能。應(yīng)用軟件均可免費(fèi)獲得,并且系統(tǒng) 安裝及操作都很簡單,易擴(kuò)充,維護(hù)成本也較低。得到了初始的 url 以后,就可以下載網(wǎng)頁的內(nèi)容了 ,爬蟲并行地進(jìn)行網(wǎng)頁的抓取,向服務(wù)器發(fā)送 HTTP 請求,得到服務(wù)器的 HTTP 響應(yīng),在 HTTP 響應(yīng)中包含了網(wǎng)頁的各種信息,取其中源碼信息進(jìn)行 URL提取,加入待訪問隊列,抓取完本頁以后在從待訪問 URL 隊列中取出地址進(jìn)行抓取,如此循環(huán),直到達(dá)到特定目標(biāo)層數(shù)。 文檔 N 維向量創(chuàng)建 創(chuàng)建文檔 N維向量,對于每一個 N 維向量模型, 橫向為對應(yīng)的詞項在該文檔中的權(quán)重,縱向為包含查詢詞的文檔數(shù),若文檔中不存在一詞項,則此文檔對應(yīng)該此項的位置補(bǔ)零, public void MakeVectorModelN()函數(shù)實(shí)現(xiàn)文檔 N維向量的創(chuàng)建功能 。 系統(tǒng)測試的目的 因為在程序中往往存在著許多預(yù)料不到的問題,可能會被疏漏,許多隱藏的錯誤只有在特定的環(huán)境下才可能暴露出來。多余的工作會帶來副作用,影響程序的效率,有時會帶來潛在的危害或錯誤。 輸入:空的索引文件保存路徑 期望的輸出: 錯誤消息提示框提示 文件夾路徑無效 實(shí)際的輸出 : 錯誤消息提示框提示文件夾路徑無效 ,如圖 : 圖 74 消息提示 測試結(jié)果 :達(dá)到預(yù)期測試結(jié)果 ,結(jié)果正確 索引文件詞頻文件保存到硬盤測試 模塊名稱:索引建立模塊 功能:將數(shù)據(jù)庫中 HTML 文檔域信息取出,分詞后將各個分詞項進(jìn)行索引,包括詞項的文檔頻率計算,詞頻計算,并形成格式化的索引文檔信息和詞頻 文件信息。 輸入: 索引文件“ “和詞頻文件 ” ” 期望的輸出: richTextBox 顯示 格式化的索引文件項和詞頻文件項 實(shí)際的輸出 : richTextBox 顯示格式化的索引文件項和詞頻文件項,如下圖: 圖 76 索引文件項 測試結(jié)果 :達(dá)到預(yù)期測試結(jié)果 ,結(jié)果正確 重慶理 工大學(xué)畢業(yè)論文 搜索引擎技術(shù)研究與實(shí)現(xiàn) 35 無索引詞頻文件情況下讀入文件測試 模塊名稱:索引建立模塊 功能:將數(shù)據(jù)庫中 HTML 文檔域信息取出,分詞后將各個分詞項進(jìn)行索引,包括詞項的文檔頻率計算,詞頻計算,并形成格式化的索引文檔信息和詞頻文件信息。 6) 生成測試報告。系統(tǒng)測試是保證系統(tǒng)質(zhì)量和可靠性的關(guān)鍵步驟,是對系統(tǒng)開發(fā)過程中的系統(tǒng)分析系統(tǒng)設(shè)計和實(shí) 施的最后復(fù)查。 最后計算查詢詞向量和每個相關(guān)文檔向量的夾角余弦值,兩向量的余弦值計算公式如下: 重慶理 工大學(xué)畢業(yè)論文 搜索引擎技術(shù)研究與實(shí)現(xiàn) 29 VdVqVdVqdqs c o r e???? )c o s (),( ? GetCos()函數(shù)實(shí)現(xiàn)夾角余弦值的計算, GetProduct()函數(shù)實(shí)現(xiàn)兩向量的內(nèi)積的計算, GetMod()函數(shù)實(shí)現(xiàn)向量模的計算,計算得兩向量的夾角余弦值,然后與文檔的中查詢詞的相關(guān)度的乘積,即為此篇文檔的得分,最后根據(jù)文檔的得分進(jìn)行排序,講結(jié)果集返回界面呈現(xiàn)給用戶。 Thread類包含在 命名空間 (該命名空間 提供一些使得可以進(jìn)行多線程編程的類和接口 )中, 該類 創(chuàng)建并控制線程 和 設(shè)置其優(yōu)先級并獲取其狀態(tài) 的方法。 可行性分析結(jié)論 經(jīng)過以上分析, 本系統(tǒng)從需求、技術(shù)、經(jīng)濟(jì)等方面來看都是可行的,可以實(shí)施開發(fā)。變量是類型安全的。 2) 精心設(shè)計面向?qū)ο? 在 C的類型系統(tǒng)中,每種類型都可以看作一個對象。而又有很多初學(xué)者對搜索引擎要很感興趣,想深入的研究搜索引擎的奧秘。 要求程序具有 可靠性 ,可以應(yīng)付種種由于系統(tǒng)問題產(chǎn)生的錯誤,比如爬蟲配置文件讀取失敗,突然退出程序等。 重慶理 工大學(xué)畢業(yè)論文 搜索引擎技
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1