freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ftp搜索引擎設(shè)計(專業(yè)版)

2025-02-01 10:16上一頁面

下一頁面
  

【正文】 對于各個 FTP 服務(wù)器的兼容也是一個巨大的困難,這些在設(shè)計之初,都是被我忽略的細(xì)節(jié)。所以對編碼進(jìn)行統(tǒng)一是很有必要的。 獲取這些信 息之后,在索引文件中插入一個 32位整數(shù),這個數(shù)中的高 24位即為一個在匯總文件的索引編號,低 8位則對應(yīng)了該關(guān)鍵字的相對偏移量。 圖 42path文件 attr 文件是用來存放原始數(shù)據(jù)各個文件、文件夾屬性,包括文件類型、大小、最后修改時間、文件名的長度、 所在路徑在對應(yīng)的 path 文件中的偏移 、 文件名在對應(yīng)的 path 文件中的偏移 這幾項如圖 。 if ( != 0) { ( + ( / 1024 0 ? / 1024 : 1) + KB)。 break。 } } if (j == 3){ dirName = (i).Replace(\r, )。 IIS 回傳數(shù)據(jù)的開頭始終是日期,而ServU 的開頭始終是 Linux 風(fēng)格的權(quán)限標(biāo)識。下面簡要介紹一下這兩款服務(wù)器軟件。,39。 下面為該部分的主要代碼: 圖 37 初始化文件讀取類 privatevoid GetInfo() { String strTmp。 if (bytes ) { break。 if (!(retValue == 150 || retValue == 125 || retValue == 226)) { thrownewIOException((4))。 if (!(retValue == 331 || retValue == 230)){ cleanup()。 } FtpWebRequest request = (FtpWebRequest)(serverUri)。 } 第 10 頁 西華大學(xué)畢業(yè)設(shè)計說明書 誤信息。轉(zhuǎn)換方式為(以 為例)192*2563+168*2562+0*256+1=3232235521。 3) 在所有操作完成之后,會生成該站點的目錄和源文件。相互出現(xiàn)概率表現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。這就要求在對中文字段進(jìn)行分析之前,先要將句子切割成一個個的詞的序列,這就是中文分詞。通過使用中文分詞技術(shù)實現(xiàn)一個中文分詞軟件,把中文的詞條切分成有意義的一個一個詞,最后可以把切取的詞條保存下來,供以后使用。如今在中文搜索引擎領(lǐng)域,國內(nèi)搜索引擎已經(jīng)同國外搜索引擎效果上相差不大了。 生成站點列表 .................................................... 錯誤 !未定義書簽。 第 2 頁 西華大學(xué)畢業(yè)設(shè)計說明書 1 中文分詞概述 隨著搜索引擎的發(fā)展,分詞技術(shù)也是運用而生。因此字和字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的準(zhǔn)確度。 第 5 頁 西華大學(xué)畢業(yè)設(shè)計說明書 2 FTP 搜索引擎概要設(shè)計 工作原理 用戶對在完成對 FTP 搜索引擎的爬蟲模塊配置文件的配置,便可執(zhí)行爬蟲程序。 2) IP 地址分為四段(如: ),每一段的長度為 256,由于系統(tǒng)本身并不支持 256 進(jìn)位的方式,雖然編程可以對其進(jìn)行認(rèn)為的進(jìn)位控制,但是仍然帶來一些不必要的麻煩。 i++) { resultIP = (())。 Socket 的 SendTimeOut 屬性中可以支持設(shè)置等待時間。 return。通過回傳字符串中的標(biāo)志位,獲取回傳的字符串中的目錄。 } mes = 。若匹配成功則返回類型編號,若失敗,則返回一個默認(rèn)編號。)。而且這些亂碼也可在數(shù)據(jù)獲取完成后使用轉(zhuǎn)碼的方式進(jìn)行修正。 第 20 頁 西華大學(xué)畢業(yè)設(shè)計說明書 IIS: 圖 39 IIS返回的數(shù)據(jù) ServU: 圖 310 ServU返 回的數(shù)據(jù) 如上面所示,兩個服務(wù)其回傳的數(shù)據(jù)的差距是十分巨大的。 i++) { if (!flag){ if (blank == chars[i]) flag = true。 } else{ if (blank != chars[i]){ flag = false。 ()。 圖 41source文件存放路徑 那么現(xiàn)在就對這個文件進(jìn)行處理,之后將得到一個 第 28 頁 西華大學(xué)畢業(yè)設(shè)計說明書 文件,他們也都存放在 的目錄下。那么我們只對 212 和 220 這兩個數(shù)字建立索引,跳過 178,214。 實現(xiàn)方法 非數(shù)值信息和控制信息包括了字母、各種控制符號、圖形符號等 ,它們都以二進(jìn)制編碼方式存入計算機并得以處理,這種對字母和符號進(jìn)行編碼的二進(jìn)制代碼稱為字符 編碼 ( Character Code) [15]。畢竟平時一直認(rèn)為網(wǎng)絡(luò)爬蟲的實現(xiàn)都是一些高手才能實現(xiàn)的,而我自己僅僅是一個在校的大學(xué)生。劉老師倡導(dǎo)我們的獨立思考,不懂的問題自己親自動手查資料,實在是解決不了的問他會細(xì)心耐心的給我們講解。 在文件讀入時我們以 GB2312 的格式將文件讀入,由于爬蟲部分的數(shù)據(jù)是按照 GB2312 保存的,因此在此處不需要特殊的處理。 索引數(shù)據(jù)庫 設(shè)計思路 搜索引擎是對大量的數(shù)據(jù)進(jìn)行處理,因此用到數(shù)據(jù)庫是必然的。 第 29 頁 西華大學(xué)畢業(yè)設(shè)計說明書 圖 43attr文件 匯總屬性文件 設(shè)計思路 文件的 IO 操作通常會耗費大量的時間,由于源文件分散在各個目錄中,因此在讀取是不可避免的會頻 繁的打開和關(guān)閉文件進(jìn)行操作。 ( + )。由于前期已經(jīng)將實現(xiàn)將爬取的數(shù)據(jù)分目錄暫時存在內(nèi)存中。 } 第 22 頁 西華大學(xué)畢業(yè)設(shè)計說明書 ServU 部分的解析代碼: 圖 312 解析 ServU返回字符串 生成數(shù)據(jù)文件 生成的數(shù)據(jù)源文件主 要用于為后面的建立索引做準(zhǔn)備。經(jīng)過分析,各組數(shù)據(jù)都有一個共同的特點,就是其中的間隔數(shù)是相同的,利用這一點, 可以從字符串的指定位置提取出需要的數(shù)據(jù)。通過使用 ServU,用戶能夠?qū)⑷魏我慌_ PC 設(shè)置成一個 FTP 服務(wù)器,這樣,用戶或其他使用者就能夠使用 FTP 協(xié)議,通過在同一網(wǎng)絡(luò)上的任何一臺 PC 與 FTP 第 19 頁 西華大學(xué)畢業(yè)設(shè)計說明書 服務(wù)器連接,進(jìn)行文件或目錄的復(fù)制,移動,創(chuàng)建,和刪除等。 i 。 styleLength = (strTmp)。同樣,使用Socket 提供的命令 Receive,接收指定字節(jié)數(shù)的數(shù)據(jù),并將數(shù)據(jù)存如緩沖區(qū),此處指定的緩沖區(qū)大小為 512 個字節(jié)。 mes += (buffer, 0, bytes)。 sendCommand(PASS + remotePass)。 (Delete status: {0},)。因此后來放棄了這種方法,改用套接字的方式實現(xiàn),向指定站點發(fā)送 FTP 命令,然后獲取其回傳的數(shù)據(jù),由于這種方法可以自由的使用所有 FTP 命令,所以相對原有的方法更為靈活。在使用時,我們需要將這些數(shù)字再次轉(zhuǎn)化為 IP 地址。圖 21 搜索引擎系統(tǒng)工作圖 第 6 頁 西華大學(xué)畢業(yè)設(shè)計說明書 工作流程圖 圖 22 FTP 搜索引擎工作流程圖 第 7 頁 西華大學(xué)畢業(yè)設(shè)計說明書 3 FTP 搜索引爬蟲模塊擎詳細(xì)設(shè)計 設(shè) 計目的 如今很多企業(yè)和個人都建立了自己的 FTP 站點,在各個 FTP 站點中包含有大量的資源,如何才能快速的在浩如煙海的資源中找到自己需要的資源,已經(jīng)成為一個需要我們不得不解決的難題。但是這類方法也是有一定的局限性的,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不能構(gòu)成詞的常用字組,例如 “之一 ”、 “這一 ”、 “我的 ”、 “有的 ”、 “許多的 ”等等。按照掃描方向來區(qū)分,又可以分為正向匹配法和逆向匹配法;按照不同長 度優(yōu)先匹配的情況,可以分為最大匹配法和最小匹配法;按照與詞性標(biāo)注過程是否相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。 中文是由連續(xù)文字組成 ,缺乏有效的間隔,雖然有句、段分隔,但在進(jìn)行機器語言學(xué)習(xí)、文本語義理解分析過程中都需以詞組為最小單位的。系統(tǒng)中的分詞算法采用基于分詞詞典的機械分詞方法,這種方法是按照正向最大匹配的方法將要分析的中文句子與字典中的詞條進(jìn)行匹配,從而把中 文句子拆分成一個個詞。 獲取數(shù)據(jù) ............................................................ 錯誤 !未定義書簽。將該分詞器應(yīng)用到搜索引擎中不但可以實現(xiàn)對中文的搜索,提高搜索信 息的功能,還可以對中文進(jìn)行分詞,提高搜索精度。但是由于漢語語言知識的籠統(tǒng)性和復(fù)雜性,不好對各類語言信息變成機器可直接讀取的形式,所以暫時基于理解的分詞系統(tǒng)還處在試驗階段。 第 4 頁 西華大學(xué)畢業(yè)設(shè)計說明書 中文分詞技術(shù)在 翻譯中 的應(yīng)用 這里所說的中外文翻譯是指機器對中外文進(jìn)行翻譯,而不是人工進(jìn)行翻譯。 實現(xiàn)方法 根據(jù)網(wǎng)段生成 IP 地址的方法多種多樣,在本次設(shè)計時,我考慮過以下兩種方法。 resultIP。(如 ListDirectory 對應(yīng)的是FTP 命令中的 NLIST 命令, ListDirectoryDetails 對應(yīng)的是 FTP 命令中的 LIST命令)下面簡要介紹一下這種方法的使用方式(以下代碼執(zhí)行了一次文件刪除操作) 第 11 頁 西華大學(xué)畢業(yè)設(shè)計說明書 圖 32FtpWebRequest 方式 2) 使用套接字( Socket)方式: 如果編寫過網(wǎng)絡(luò)程序,那么您對這種實現(xiàn)方法一定并不陌生,在 . 中Socket 類為網(wǎng)絡(luò)提供了一套豐富的方法和屬性。 } catch (Exception ex) { thrownewIOException()。 在此處遇到了一個服務(wù)其兼容的問題,測試時發(fā)現(xiàn) FTP 服務(wù)器返回的數(shù)據(jù)格式風(fēng)格不同,如 IIS 和 ServU, IIS 返回的數(shù)據(jù)為 Windows 風(fēng)格,而 ServU返回的數(shù)據(jù)則是 Linux 風(fēng)格,因此這里對于返回數(shù)據(jù)的處理不可能用同樣的方法,具體解決方法請參見 服務(wù)器兼容中的描述。 下面是用于獲取數(shù)據(jù)的主要代碼: 圖 35 獲取目錄列表 Socket cSocket = createDataSocket()。 } else{ thrownewIOException((4))。因為 ASCII 編碼不支持漢字,而 GB2312 支持漢字。由于改動這個FTP 類會對本程序造成較大的改動,所 以我仍然決定在現(xiàn)有的基礎(chǔ)上對程序進(jìn)行修改。 解決方法 如何解決兼容性問題是程序開發(fā)中的一個難題,在本次設(shè)計開始之初,我就考慮過這個問題,盡量的 使用了標(biāo)準(zhǔn)的命令來對服務(wù)器進(jìn)行操作。 Char[] chars = ()。 for (Int32 i = 0。 privatevoid show(DocumentData dd) { if (key) { key = false。因此,提前執(zhí)行一次數(shù)據(jù)處理,這樣在后面建立文件索引時效率會有效的提高。 由于我們采用 ASCII 碼建立索引,而漢字編碼 GB2312 編碼長度為 ASCII 碼的 第 31 頁 西華大學(xué)畢業(yè)設(shè)計說明書 兩倍。這次次設(shè)計中,利用雙字幕建立了一個文件系統(tǒng),達(dá)到了快速搜索的要求。在以后的設(shè)計中對這類問題應(yīng)該盡可能的避免。這次畢業(yè)設(shè)計對我的自學(xué)能力也是一個驗證,大學(xué)四年,最大的收獲就是老師培養(yǎng)了我們自我的學(xué)習(xí)的能力,在此對老師們表示感謝。 圖 11 索引運行結(jié)果 經(jīng)過該程序的運行在 /Index/目錄下自動生成了 文件。 比如一個采用 MySQL存儲的客戶信息表數(shù)據(jù)記錄達(dá)到 500萬行以上時,就算增加再多的索引,采用標(biāo)準(zhǔn) select語句執(zhí)行查詢時,所需時間至少也在 2分鐘以上, Ora
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1