freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ftp搜索引擎設計-資料下載頁

2024-12-07 10:16本頁面

【導讀】隨著信息的快速速增長,讓搜索引擎成了人們查找信息的首要工具。中文搜索引擎領域,國內(nèi)搜索引擎已經(jīng)同國外搜索引擎效果上相差不大了。不相同,其中在計算機涉及的技術就是中文分詞技術。術,拆分成一項項的詞條,并存儲到本地,供后期檢索使用。系統(tǒng)中的分詞算法。析的中文句子與字典中的詞條進行匹配,從而把中文句子拆分成一個個詞。結合正向最大匹配法和逆向最大匹配法也能把句子比較正確的分成需要

  

【正文】 。 Path 文件是一個用來存放原始數(shù)據(jù)文件名、文件夾名以及目錄記錄的如圖 。他主要是為了提高在建立索引時掃描和劃分文件(夾)名的效率和在檢索數(shù)據(jù)時返回結果的效率。 圖 42path文件 attr 文件是用來存放原始數(shù)據(jù)各個文件、文件夾屬性,包括文件類型、大小、最后修改時間、文件名的長度、 所在路徑在對應的 path 文件中的偏移 、 文件名在對應的 path 文件中的偏移 這幾項如圖 。 attr 文件的存在是為了減小在建立索引時的數(shù)據(jù)量。得到這兩個文件后就進入下一步。 第 29 頁 西華大學畢業(yè)設計說明書 圖 43attr文件 匯總屬性文件 設計思路 文件的 IO 操作通常會耗費大量的時間,由于源文件分散在各個目錄中,因此在讀取是不可避免的會頻 繁的打開和關閉文件進行操作。因此我在這里將屬性文件匯總,這樣所有的有效數(shù)據(jù)都集中在了一個文件中,最大限度的減少了 IO操作的發(fā)生。 實現(xiàn)方法 為什么要把屬性文件匯總?這是因為,上面曾提到每一個索引文件存放的是一個一個的 32位整數(shù),而這個 32位整數(shù)的高 24位就是該雙字母所在文件名的屬性項在匯總文件中的索引編號,所以匯總就是為了取得這個索引編號,同時匯總在一起也會省去重復打開關閉文件浪費的時間。 由于整個 attr 文件存儲位置的特殊性,所以在匯總時是比較容易的。最后得到的文件 存放在 /Index/這個目錄里既是索引所在目錄如圖: 第 30 頁 西華大學畢業(yè)設計說明書 圖 44InfoIndex文件 雙字母建立索引 設計思路 如何才能快速有效的從原始數(shù)據(jù)中找出用戶需要的數(shù)據(jù),這是索引部分索要解決的最大問題,經(jīng)過查詢資料,倒排索引是目前各大搜索引擎所常用的索引建立方式。在數(shù)據(jù)檢索時,用戶常采用關鍵字搜索的方式,因此,在建立索引時我們采用了同樣的方式建立了索引數(shù)據(jù)庫。 實現(xiàn)方法 將爬蟲模塊中獲得的原始文件路徑字段以及屬性進行字段分離操作,分別保存在 文件和 文件中,建立一個匯總屬性文件,為索引的建立做好準備。 由于我們采用 ASCII 碼建立索引,而漢字編碼 GB2312 編碼長度為 ASCII 碼的 第 31 頁 西華大學畢業(yè)設計說明書 兩倍。因此若建立索引時讀入整個漢字的編碼,在程序中會自動分別兩個部分處理,在檢索時不可避免的帶來誤差,因此,為了保持檢索的準確性,我們只讀入漢字編碼的一半(即一個字節(jié))。 比如某個文件名中含有“圓周”兩個漢字,“圓”和“周”的 ASCII 碼分別為 21 178,21 220。那么我們只對 212 和 220 這兩個數(shù)字建立索引,跳過 178,214。這是因為 178 和 214 組成了一個新的字“倉”,如果我們以連續(xù)的兩個 ASCII 碼建立索引,當搜索“倉”時含有圓周的項將顯示出來,然而圓周里面并不含有倉字。現(xiàn)在的處理方法是:如果是單字節(jié)字符和單字節(jié)字符,則直接取 ASCII 碼建立索引;如果是單字節(jié)字符與漢字,則取單字節(jié)字符的 ASCII 碼和漢字的第二個 ASCII 碼建立索引;如果是漢字與漢字,則取第一個漢字的第一個 ASCII 碼與第二個漢字的第二個 ASCII 碼建立索引;如果是漢字與單字節(jié)字符,則取漢字的第一個 ASCII 碼和單字節(jié) ASCII 碼建立索引。 獲取這些信 息之后,在索引文件中插入一個 32位整數(shù),這個數(shù)中的高 24位即為一個在匯總文件的索引編號,低 8位則對應了該關鍵字的相對偏移量。如 “文件夾 A”(各個字符對應的 ASCII碼分別為: 20 196, 18 254, 18 208,65)那么第一個雙字母為“文件”,則在 Index/206/ 32位整數(shù)值為 256如圖 ,它的高 24位值為 1(文件夾 A這個文件的屬性對應于InfoIndex文件中的索引編號 ), 低 8位的值為 0(“文件”在“文件夾 A”中的偏移 量); 第 32 頁 西華大學畢業(yè)設計說明書 圖 45 索引文件中的偏移量 第二個雙字母為“件夾”,則在 Index/188/ 32位整數(shù)值為 258如圖 ,高 24為 1(“文件夾 A” 這個文件的屬性對應于 InfoIndex文件中的索引編號 ) ,低 8位為 2(“件夾”在“文件夾 A中的偏移量)。以此類推直到掃描完整個 path文件。 索引數(shù)據(jù)庫 設計思路 搜索引擎是對大量的數(shù)據(jù)進行處理,因此用到數(shù)據(jù)庫是必然的。 數(shù)據(jù)庫的重點功能在存儲 。查看資料發(fā)現(xiàn)某些搜索引擎是采用標準的數(shù)據(jù)庫來存放索引數(shù)據(jù) ,但是當 數(shù)據(jù)量達到千萬級的時候再執(zhí)行 SQL語句, 速度將會變得很慢, 特別是 執(zhí)行 含有 like的 select語句 時 。 比如一個采用 MySQL存儲的客戶信息表數(shù)據(jù)記錄達到 500萬行以上時,就算增加再多的索引,采用標準 select語句執(zhí)行查詢時,所需時間至少也在 2分鐘以上, Oracle數(shù)據(jù)庫雖然可以采用分區(qū),或采用 Oracle的內(nèi)置函數(shù)來輔助查詢, 但 時間也在 1分鐘以上。 而使用文件系統(tǒng)來存儲時,這樣的查詢耗時一般就是零點幾秒。 第 33 頁 西華大學畢業(yè)設計說明書 實現(xiàn)方法 目前全球做的最好的搜索引擎 Google的存儲 方式 為 GFS(Google file system)分布式存儲文件系統(tǒng) ,使用文件系統(tǒng)最大的好處就是速度快。因此,本 FTP搜索引擎對數(shù)據(jù)的存儲也采用了文件系統(tǒng)的形式,全部數(shù)據(jù)都以文檔的形式存儲在硬盤上。這次次設計中,利用雙字幕建立了一個文件系統(tǒng),達到了快速搜索的要求。 字符編碼 設計思路 由于 ASCII 編碼并不支持漢字,因此不能選用其作為索引文件的編碼。 UTF8的編碼方式雖然應用廣泛,但是其編碼的方式較為特殊,因此最后我選用了GB2312 的編碼方式作為搜索引擎文件的同意編碼。 實現(xiàn)方法 非數(shù)值信息和控制信息包括了字母、各種控制符號、圖形符號等 ,它們都以二進制編碼方式存入計算機并得以處理,這種對字母和符號進行編碼的二進制代碼稱為字符 編碼 ( Character Code) [15]。字符的編碼有多種包括 ASCII編碼 、 EBCDIC編碼、 GB2312編碼、 Unicode編碼、 UTF8編碼、以及 Base64編碼。 如果不對編碼進行統(tǒng)一或者進行轉換, 就會出現(xiàn) 編碼不匹配引的問題,比如網(wǎng)頁 亂碼 、郵件亂碼 等會引起很多不必要的麻煩。所以對編碼進行統(tǒng)一是很有必要的。 由于,一般情況下 DOS 和 Windows 系統(tǒng)都使用了 ANSI 碼 ,而 GB2312 兼容 ANSI編碼。我們的搜索引擎一般也是針對這些平臺上的文件,為了使搜索引擎對數(shù)據(jù) 第 34 頁 西華大學畢業(yè)設計說明書 的處理更為有效,我們將此 FTP 搜索引擎文件的編碼統(tǒng)一為 GB2312。 在文件讀入時我們以 GB2312 的格式將文件讀入,由于爬蟲部分的數(shù)據(jù)是按照 GB2312 保存的,因此在此處不需要特殊的處理。在索引建立之后,我仍然以GB2312 的方式寫入數(shù)據(jù),這樣保持了整個系統(tǒng)的編碼格式的統(tǒng)一。 第 35 頁 西華大學畢業(yè)設計說明書 1 開發(fā)環(huán)境和結論 硬件環(huán)境 處理器: Intel(R) Core(TM) i5 CPU M480 內(nèi)存( RAM): 2GB 軟件環(huán)境 操作系統(tǒng): Windows 7 professional (Service Pack1) 系統(tǒng)類型: 32 位操作系統(tǒng) 編程語言: C 開發(fā)工具: Visual Studio 2021 旗艦版 (Service Pack1) 運行環(huán)境 軟件要求: Windows XP(須安裝 Microsoft .NET Framework SDK), Windows 7( Microsoft .NET Framework SDK), Linux(須安裝 Mono) 硬件要求: CPU : Intel Pentium IV(或更高) 內(nèi)存: 512MB(或更高) 第 36 頁 西華大學畢業(yè)設計說明書 運行結果 經(jīng)過多次的測試,該程序不管原始數(shù)據(jù)的大小與否都能夠準確的建立索引,能夠實現(xiàn)任務書要求的功能,基本滿足 FTP 搜索引擎的整體要求,運行結果如圖 。 圖 11 索引運行結果 經(jīng)過該程序的運行在 /Index/目錄下自動生成了 文件。 存在的問題和不足 由于在設計之初考慮不足,前期編寫的大量核心代碼不支持多線程運行。造成在后期修改時需要改動大量的核心代碼,編碼和調試的時間均不充足。造成程序運行的效率不高。在以后的設計中對這類問題應該盡可能的避免。 第 37 頁 西華大學畢業(yè)設計說明書 總結 此次畢業(yè)設計的題目在此之前雖然有所了解,但是我卻從來也沒有深入的學習思考搜索引擎爬蟲模塊的實現(xiàn)方式,如何從浩如煙海的站點中找到提供 FTP 服務 的站點, FTP 站點如何匿名登錄等等一系列的問題在此之前,都沒有進行系統(tǒng)的了解。因此,在本次畢業(yè)設計開始時,我也曾懷疑自己能否順利的完成此次畢業(yè)設計。畢竟平時一直認為網(wǎng)絡爬蟲的實現(xiàn)都是一些高手才能實現(xiàn)的,而我自己僅僅是一個在校的大學生。 然而通過網(wǎng)上查閱資料和查看劉老師提供的資料,漸漸發(fā)現(xiàn)網(wǎng)絡爬蟲其實并沒有自己想象中那么神秘,經(jīng)過自己的不斷學習和摸索以及劉老師耐性的指導,F(xiàn)TP 搜索引擎爬蟲模塊的框架漸漸在我的腦海中清晰起來,如何獲取 FTP 站點地址,如何從 FTP 站點獲取文件,如何實現(xiàn) Linux 和 Windows 下 FTP 站點的兼容,甚至如何利用 IIS 和 ServU 配置一個自己的 FTP 站點,這些問題一個一個被解決。從最初的實現(xiàn)功能到后來的完善功能,在這個過程中自己不斷的學習和成長,直到后來,發(fā)現(xiàn)一個基本的網(wǎng)絡爬蟲的實現(xiàn)其實并不困難,難的是如何讓這個網(wǎng)絡爬蟲能夠高效率并且穩(wěn)定的工作。對于各個 FTP 服務器的兼容也是一個巨大的困難,這些在設計之初,都是被我忽略的細節(jié)。 總的來說,這次畢業(yè)設計完成之后,不但學到了書本以外的知識,而且還增長了自己發(fā)現(xiàn)問題解決問題的能力,同時也提高了團隊合作的意識,對以后的工作和生活將起來很大的作 用,對于所做任務網(wǎng)絡爬蟲的認識也有了很大的提高,已經(jīng)做到了不再糾結于如何去實現(xiàn)它,而是在思考如何能夠對其在有基本功能的基礎上進行改進。 第 38 頁 西華大學畢業(yè)設計說明書 致謝 在劉老師的耐心指導下,經(jīng)過長三個月的漫長實踐,我順利的完成了這次畢業(yè)設計任務。劉老師倡導我們的獨立思考,不懂的問題自己親自動手查資料,實在是解決不了的問他會細心耐心的給我們講解。劉老師在這段時間給予了我很大的幫助,使我得到很大的提高,這些對于我以后的工作和學習都是一種巨大的幫助,感謝他耐心的輔導。在本次畢業(yè)設計中,我從對任務書上的要求完全陌生到最后能夠的完成本次畢業(yè) 設計,讓我體會到不懂不會并不可怕,通過自我學習,我們已經(jīng)能夠解決一些我們現(xiàn)在不會的問題。這次畢業(yè)設計對我的自學能力也是一個驗證,大學四年,最大的收獲就是老師培養(yǎng)了我們自我的學習的能力,在此對老師們表示感謝。 同樣, FTP 搜索引擎由多個同學協(xié)同完成,沒有這個團隊的協(xié)作,最終也不能完成本次設計,在這里也對在本次設計中給與我?guī)椭凸膭畹耐瑢W表示感謝。 第 39 頁 西華大學畢業(yè)設計說明書 參考文獻 [1] Andrew Troelsen . C與 .NET 高級程序設計 [M].人民郵電出版社 . [2] 百度百科 .FTP 搜 索引擎 [OL]. [3] Jeffrey Richter . CLR via C[M]. 清華大學出版社 . [4] Mark Michaelis . C本質論 [M]. 人民郵電出版社 . [5] 百度百科 .后綴數(shù)組 [OL]. [6] 百度百科 .字符編碼 [OL]. [7] 蔡智澄 ,王志華 .搜索引擎的主要特點及其檢索策略 [J].現(xiàn)代情報 .2021年 5月 .第 5 期: 150152 [8] 克羅福特 . 搜索引擎:信息檢索實踐 [M]. 機械工業(yè)出版社 [9] 內(nèi)格爾 . C高級編程 [M]. 清華大學出版社 . [10] 昝輝 . SEO 實戰(zhàn)編碼 [M]. 電子工業(yè)出版社 .
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1