freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ftp搜索引擎設(shè)計-預(yù)覽頁

2025-01-08 10:16 上一頁面

下一頁面
 

【正文】 ................................. 錯誤 !未定義書簽。 掃描站點 ............................................................ 錯誤 !未定義書簽。結(jié)合正向最大匹配法和逆向最大匹配法也能把句子比較正確的分成需要的一個個詞條。能形成現(xiàn)在這樣的局面,是有一個重要的原因:英文和中文兩種語言自身的書寫方式不相同,其中在計算機涉及的技術(shù)就是中文分詞技術(shù)。如今在中文搜索引擎領(lǐng)域,國內(nèi)搜索引擎已經(jīng)同國外搜索引擎效果上相差不大了。 通過使用該分詞軟件可以自動的把中文句子比較準(zhǔn)確的拆分成詞,并且拆分速度快。 設(shè)計步驟 ...................................................................... 錯誤 !未定義書簽。 生成源文件 ........................................................ 錯誤 !未定義書簽。通過使用中文分詞技術(shù)實現(xiàn)一個中文分詞軟件,把中文的詞條切分成有意義的一個一個詞,最后可以把切取的詞條保存下來,供以后使用。因此實現(xiàn)中文分詞相對英語來講,更加的復(fù)雜、困難。通過使用詞典 將要分析的中文語句與詞典中的詞條進行匹配來提高分詞速度。 。這就要求在對中文字段進行分析之前,先要將句子切割成一個個的詞的序列,這就是中文分詞。常用的幾種機械分詞方法如下: ( 1)正向最大匹配法; ( 2)逆向最大匹配法; ( 3)最少切分法。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)能獲取有 關(guān)的詞、句子等的句法以及語義信息用以對分詞歧義實現(xiàn)判斷,也就是它模擬了人對一個句子的理解過程。 基于統(tǒng)計的分詞方法 單從形式上看,詞是穩(wěn)定的字的結(jié)合,所以在上下文中,相鄰的字一起出現(xiàn)的次數(shù)越多,就會越有可能是一個詞。相互出現(xiàn)概率表現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。 中文分詞技術(shù)的應(yīng)用 要對中文信息進行處理,就必須有中文分詞 技術(shù)。系統(tǒng)查找用戶需要的內(nèi)容時,把查詢內(nèi)容分為索引項,然后再進行信息檢索。不然,翻譯將沒辦法進行。 3) 在所有操作完成之后,會生成該站點的目錄和源文件。要解決這一問題,需要我們建立一個有效的FTP 搜索引擎,而實現(xiàn)搜索引擎的第一個問題就是如何獲取各個站點提供的資源信息。一方面, 程序一開始會讀取系統(tǒng)的配置文件,獲知本次掃描的網(wǎng)段范圍,在對配置文件進行數(shù)據(jù)效驗通過之后,程序會調(diào)用相應(yīng)模塊生成該網(wǎng)段中所有的等待訪問的 IP 地址。用循環(huán)的方式,每次為最低位執(zhí)行加 1操作,并驗證其是否需要執(zhí)行進位操作,即可實現(xiàn)對于網(wǎng)段中 IP 地址的生成操作 這種方法雖然能夠較好的實現(xiàn)網(wǎng)段中 IP 地址的生成操作,但是由于要人工編寫代碼實現(xiàn)數(shù)據(jù)的進位操作,實現(xiàn)較為繁瑣,而且由于種種原因的 綜合影響,不能夠完全保證代碼的穩(wěn)定性。轉(zhuǎn)換方式為(以 為例)192*2563+168*2562+0*256+1=3232235521。利用 . Framework 中提供的 IPAddress 第 9 頁 西華大學(xué)畢業(yè)設(shè)計說明書 類中的 Parse 方法,可方便的將我們獲取的十進制數(shù)據(jù)再次轉(zhuǎn)換為類型為IPAddress 類型的 IP 地址數(shù)據(jù),最后我們使用 ToString()方法將其轉(zhuǎn)化為字符串,方便以后的使用 有上面的描述可以看出,在目前的狀況下方法 2)優(yōu)于方法 1),因此本次設(shè)計我選 用了方法 2)進行實現(xiàn)。 startIP = frs_num[0] * 256 * 256 * 256 + frs_num[1] * 256 * 256 + frs_num[2] * 256 + frs_num[3]。 i = endIP。 } 第 10 頁 西華大學(xué)畢業(yè)設(shè)計說明書 誤信息。下面是兩種方法的設(shè)計思路。 使用 FtpWebRequest 類可以完成對 FTP 服務(wù)器的多種操作,如獲取服務(wù)器文件簡短列表、獲取服務(wù)器上文件大小等。 IP 地址和端口號使用 IPEndPoint 表示。 } FtpWebRequest request = (FtpWebRequest)(serverUri)。 ()。 = 5000。 if (retValue != 220){ close()。 if (!(retValue == 331 || retValue == 230)){ cleanup()。 if (!(retValue == 230 || retValue == 202)){ cleanup()。 chdir(remotePath)。同樣,使用Socket 提供的命令 Receive,接收指定字節(jié)數(shù)的數(shù)據(jù),并將數(shù)據(jù)存如緩沖區(qū),此處指定的緩沖區(qū)大小為 512 個字節(jié)。 if (!(retValue == 150 || retValue == 125 || retValue == 226)) { thrownewIOException((4))。 if (bytes ) { break。同樣,使用Socket 提供的命令 Receive,接收指定字節(jié)數(shù)的數(shù)據(jù),并將數(shù)據(jù)存如緩沖區(qū),此處指定的緩沖區(qū)大小為 512 個字節(jié)。 if (!(retValue == 150 || retValue == 125 || retValue == 226)) { thrownewIOException((4))。 if (bytes ) { break。使用 SIZE 命令 獲得的文件大小單位是字節(jié),通過將返回數(shù)據(jù)除以 1024 獲得將單位轉(zhuǎn)換為 KB。 long size = 0。 } 第 16 頁 西華大學(xué)畢業(yè)設(shè)計說明書 文件分類 1) 設(shè)計思路: 在配置文件中建立一個文件分類列表,由于文件的類型劃分是根據(jù)文件的后綴名進行的,因此單獨將文件的后綴名分離出來,對照文件分類表進行類型匹配。 下面為該部分的主要代碼: 圖 37 初始化文件讀取類 privatevoid GetInfo() { String strTmp。 styleNames = newString[styleLength]。 } } 第 17 頁 西華大學(xué)畢業(yè)設(shè)計說明書 圖 38返回文件類型 關(guān)于編碼問題的解決 問題描述 在最初使用 Socket 方式獲取數(shù)據(jù)時,對于英文,數(shù)據(jù)傳遞沒有問題,當(dāng)出現(xiàn)中文文件時,發(fā)現(xiàn)獲得的數(shù)據(jù)中,所有的漢字都變?yōu)椤??”,更為?yán)重的問題是當(dāng)利用獲取的文件名發(fā)送 SIZE 等命令時, FTP 站點不能正確解析這些帶有漢字的編碼,造成此次數(shù)據(jù)獲取失敗。.39。,39。 i++) { if (tmp[i].CompareTo(extensionName) == 0) { return tmp[0]。如果 FTP 搜索引擎的爬蟲部分不能有效的獲取帶有漢字的文件數(shù)據(jù),那么它的實用性將大大的降低。經(jīng)此修改,雖然在有些服務(wù)器上仍會出現(xiàn)漢字的亂碼,但是卻能成功的使用這些獲取的數(shù)據(jù)向 FTP 服務(wù)器發(fā)送請求。下面簡要介紹一下這兩款服務(wù)器軟件。這里提到的FTP 協(xié)議是專門被用來規(guī)定計算機之間進行文件傳輸?shù)臉?biāo)準(zhǔn)和規(guī)則,正是因為有了像 FTP 這樣的專門協(xié)議,才使得人們能夠通過不同類型的計算機,使用不同類型的操作系統(tǒng),對不同類型的文件進行相互傳遞。這直接造成程序不能夠正常的解析從 FTP 站點獲取的數(shù)據(jù)。 因此不得不回傳的字符串進行分析。 IIS 回傳數(shù)據(jù)的開頭始終是日期,而ServU 的開頭始終是 Linux 風(fēng)格的權(quán)限標(biāo)識。下面給出這部分的核心代碼。 bool flag = false。 i 。 } } if (j == 3){ dirName = (i).Replace(\r, )。 privateString getDirName(String mess){ String dirName = 。 Int32 j = 0。 i++) { if (!flag){ if (blank == chars[i]) flag = true。 break。因此這部分的工作主要就是將內(nèi)存中的數(shù)據(jù)按約定格式寫入文件。 下面給出這部分的核心代碼: 第 25 頁 西華大學(xué)畢業(yè)設(shè)計說明書 圖 315 生成原始數(shù)據(jù)代碼 生成站 點列表 設(shè)計思路 將連接成功的 FTP站點保存在一個 ListString類型中,在程序執(zhí)行完成之后,所有成功獲取到數(shù)據(jù)的站點存到一個名為 ipList 的文件中。 } ()。 if ( != 0) { ( + ( / 1024 0 ? / 1024 : 1) + KB)。 } foreach (DocumentData t in ) { show(t)。 第 27 頁 西華大學(xué)畢業(yè)設(shè)計說明書 4 FTP 搜索 引擎索引模塊詳細(xì)設(shè)計 格式化數(shù)據(jù) 設(shè)計思路 在得到倒排索引前,首先就要對原始數(shù)據(jù)進行特殊的處理。如站點 IP為 21,那么這個站點的原始數(shù)據(jù)就存放在 /Sou_data/,原始數(shù)據(jù)在 。 圖 42path文件 attr 文件是用來存放原始數(shù)據(jù)各個文件、文件夾屬性,包括文件類型、大小、最后修改時間、文件名的長度、 所在路徑在對應(yīng)的 path 文件中的偏移 、 文件名在對應(yīng)的 path 文件中的偏移 這幾項如圖 。因此我在這里將屬性文件匯總,這樣所有的有效數(shù)據(jù)都集中在了一個文件中,最大限度的減少了 IO操作的發(fā)生。在數(shù)據(jù)檢索時,用戶常采用關(guān)鍵字搜索的方式,因此,在建立索引時我們采用了同樣的方式建立了索引數(shù)據(jù)庫。 比如某個文件名中含有“圓周”兩個漢字,“圓”和“周”的 ASCII 碼分別為 21 178,21 220。 獲取這些信 息之后,在索引文件中插入一個 32位整數(shù),這個數(shù)中的高 24位即為一個在匯總文件的索引編號,低 8位則對應(yīng)了該關(guān)鍵字的相對偏移量。 數(shù)據(jù)庫的重點功能在存儲 。 第 33 頁 西華大學(xué)畢業(yè)設(shè)計說明書 實現(xiàn)方法 目前全球做的最好的搜索引擎 Google的存儲 方式 為 GFS(Google file system)分布式存儲文件系統(tǒng) ,使用文件系統(tǒng)最大的好處就是速度快。 UTF8的編碼方式雖然應(yīng)用廣泛,但是其編碼的方式較為特殊,因此最后我選用了GB2312 的編碼方式作為搜索引擎文件的同意編碼。所以對編碼進行統(tǒng)一是很有必要的。在索引建立之后,我仍然以GB2312 的方式寫入數(shù)據(jù),這樣保持了整個系統(tǒng)的編碼格式的統(tǒng)一。造成在后期修改時需要改動大量的核心代碼,編碼和調(diào)試的時間均不充足。因此,在本次畢業(yè)設(shè)計開始時,我也曾懷疑自己能否順利的完成此次畢業(yè)設(shè)計。對于各個 FTP 服務(wù)器的兼容也是一個巨大的困難,這些在設(shè)計之初,都是被我忽略的細(xì)節(jié)。劉老師在這段時間給予了我很大的幫助,使我得到很大的提高,這些對于我以后的工作和學(xué)習(xí)都是一種巨大的幫助,感謝他耐心的輔導(dǎo)。 第 39 頁 西華大學(xué)畢業(yè)設(shè)計說明書 參考文獻 [1] Andrew Troelsen . C與 .NET 高級程序設(shè)計 [M].人民郵電出版社 . [2] 百度百科 .FTP 搜 索引擎 [OL]. [3] Jeffrey Richter . CLR via C[M]. 清華大學(xué)出版社 . [4] Mark Michaelis . C本質(zhì)論 [M]. 人民郵電出版社 . [5] 百度百科 .后綴數(shù)組 [OL]. [6] 百度百科 .字符編碼 [OL]. [7] 蔡智澄 ,王志華 .搜索引擎的主要特點及其檢索策略 [J].現(xiàn)代情報 .2021年 5月 .第 5 期: 150152 [8] 克羅福特 . 搜索引擎:信息檢索實踐 [M]. 機械工業(yè)出版社 [9] 內(nèi)格爾 . C高級編程 [M]. 清華大學(xué)出版社 . [10] 昝輝 . SEO 實戰(zhàn)編碼 [M]. 電子工業(yè)出版社 .
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1