freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

ftp搜索引擎設(shè)計(jì)-文庫(kù)吧

2025-11-03 10:16 本頁(yè)面


【正文】 ............. 39 第 1 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 前言 本設(shè)計(jì)主要是研究中文分詞技術(shù)的實(shí)現(xiàn)。通過(guò)使用中文分詞技術(shù)實(shí)現(xiàn)一個(gè)中文分詞軟件,把中文的詞條切分成有意義的一個(gè)一個(gè)詞,最后可以把切取的詞條保存下來(lái),供以后使用。 分詞技術(shù)發(fā)展至今,也已經(jīng)有十幾年的歷史。目前在中文分詞領(lǐng)域,已經(jīng)有很多成熟的分詞技術(shù)。 中文是由連續(xù)文字組成 ,缺乏有效的間隔,雖然有句、段分隔,但在進(jìn)行機(jī)器語(yǔ)言學(xué)習(xí)、文本語(yǔ)義理解分析過(guò)程中都需以詞組為最小單位的。因此實(shí)現(xiàn)中文分詞相對(duì)英語(yǔ)來(lái)講,更加的復(fù)雜、困難。 這其中對(duì)于計(jì)算機(jī)涉及的技術(shù)就是中文分詞技術(shù)。 國(guó)內(nèi)和國(guó)外的科研院校,例如北京大學(xué)、清華大學(xué)、中科院、北京語(yǔ)言學(xué)院、等都一直關(guān)注并研究中文分詞技術(shù)。 研究中文分詞技術(shù)的主要目的是服務(wù)于搜索引擎。通過(guò)使用詞典 將要分析的中文語(yǔ)句與詞典中的詞條進(jìn)行匹配來(lái)提高分詞速度。通過(guò)使用正向最大匹配法提高分詞的準(zhǔn)確度。將該分詞器應(yīng)用到搜索引擎中不但可以實(shí)現(xiàn)對(duì)中文的搜索,提高搜索信 息的功能,還可以對(duì)中文進(jìn)行分詞,提高搜索精度。也可惜應(yīng)用到其它領(lǐng)域, 使得計(jì)算機(jī)能快速準(zhǔn)確的處理中文信息。 。 第 2 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 1 中文分詞概述 隨著搜索引擎的發(fā)展,分詞技術(shù)也是運(yùn)用而生。在早期搜索引擎一直只是用于對(duì)英文的檢索,而如今搜索引擎已經(jīng)運(yùn)用在各個(gè)領(lǐng)域,當(dāng)然其中也有實(shí)現(xiàn)對(duì)中文的搜索,而要對(duì)中文搜索就必須要使用中文分詞技術(shù)。 中文分詞簡(jiǎn)介 在英文的行文當(dāng)中,單詞與單詞之間是以空格符作為自然分界符的,但是中文只是字、句和段能夠通過(guò)明顯的分界符來(lái)簡(jiǎn)單分開(kāi),詞卻沒(méi)有一個(gè)表面上的分界符,雖然英文也同樣存在短語(yǔ)的劃分問(wèn)題 ,但是在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。這就要求在對(duì)中文字段進(jìn)行分析之前,先要將句子切割成一個(gè)個(gè)的詞的序列,這就是中文分詞。 中文分詞算法的分類 現(xiàn)有的分詞算法大致可以分成三類:基于字符串匹配的分詞法、基于理解的分詞法和基于詞頻統(tǒng)計(jì)的分詞法 。 基于字符串匹配的分詞方法 這種分詞方法又叫機(jī)械分詞法,它是按照一定的方法把需要分析的句段與一個(gè)大的機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功,分出那個(gè)詞。按照掃描方向來(lái)區(qū)分,又可以分為正向匹配法和逆向匹配法;按照不同長(zhǎng) 度優(yōu)先匹配的情況,可以分為最大匹配法和最小匹配法;按照與詞性標(biāo)注過(guò)程是否相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下: ( 1)正向最大匹配法; ( 2)逆向最大匹配法; ( 3)最少切分法。 基于 理 解的分詞方法 第 3 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子意思的理解,來(lái)完成識(shí)別詞的效果。它的基本思想就是在分詞的同時(shí)進(jìn)行句法和語(yǔ)義分析,利用句法和語(yǔ)義的信息來(lái)排除歧義現(xiàn)象。它通常分為三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)能獲取有 關(guān)的詞、句子等的句法以及語(yǔ)義信息用以對(duì)分詞歧義實(shí)現(xiàn)判斷,也就是它模擬了人對(duì)一個(gè)句子的理解過(guò)程。這種分詞方法需要充足的語(yǔ)言知識(shí)和信息。但是由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)性和復(fù)雜性,不好對(duì)各類語(yǔ)言信息變成機(jī)器可直接讀取的形式,所以暫時(shí)基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。等待更好的完善。 基于統(tǒng)計(jì)的分詞方法 單從形式上看,詞是穩(wěn)定的字的結(jié)合,所以在上下文中,相鄰的字一起出現(xiàn)的次數(shù)越多,就會(huì)越有可能是一個(gè)詞。因此字和字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的準(zhǔn)確度。因此我們可以對(duì)字段中相鄰共現(xiàn)的各個(gè)字的結(jié)合的頻率進(jìn) 行統(tǒng)計(jì),計(jì)算它們的出現(xiàn)次數(shù)。定義兩個(gè)字的相互出現(xiàn)次數(shù),計(jì)算兩個(gè)漢字相鄰共同出現(xiàn)的概率。相互出現(xiàn)概率表現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。如果緊密程度高于某一個(gè)概率時(shí),就可以認(rèn)為這兩個(gè)字可能構(gòu)成了一個(gè)詞了。這個(gè)方法只是需要對(duì)字段中的字組頻度進(jìn)行統(tǒng)計(jì),不用切分詞典,所以又稱作無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。但是這類方法也是有一定的局限性的,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不能構(gòu)成詞的常用字組,例如 “之一 ”、 “這一 ”、 “我的 ”、 “有的 ”、 “許多的 ”等等。 中文分詞技術(shù)的應(yīng)用 要對(duì)中文信息進(jìn)行處理,就必須有中文分詞 技術(shù)。在所有中文信息處理系統(tǒng)中,都需要用到中文分詞技術(shù)。在中文搜索引擎、信息檢索、同音字識(shí)別、中分校對(duì)、中外文對(duì)譯等,也有著廣泛的應(yīng)用。 中文分詞技術(shù)在中文信息檢索的應(yīng)用 在信息檢索系統(tǒng)中,人們是用自然語(yǔ)言輸入查詢信息的。系統(tǒng)查找用戶需要的內(nèi)容時(shí),把查詢內(nèi)容分為索引項(xiàng),然后再進(jìn)行信息檢索。分詞技術(shù)在信息檢索系統(tǒng)的運(yùn)用在系統(tǒng)的索引項(xiàng)實(shí)現(xiàn)了按詞索引,在系統(tǒng)和用戶的接口上,完成了自然語(yǔ)言的查詢。 第 4 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 中文分詞技術(shù)在 翻譯中 的應(yīng)用 這里所說(shuō)的中外文翻譯是指機(jī)器對(duì)中外文進(jìn)行翻譯,而不是人工進(jìn)行翻譯。把中 文翻譯成外文,最基礎(chǔ)的條件就是分詞要正確,才可以明白中文句段,然后才能做出正確的翻譯。不然,翻譯將沒(méi)辦法進(jìn)行。 第 5 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 2 FTP 搜索引擎概要設(shè)計(jì) 工作原理 用戶對(duì)在完成對(duì) FTP 搜索引擎的爬蟲(chóng)模塊配置文件的配置,便可執(zhí)行爬蟲(chóng)程序。 FTP 搜索引擎的工作模式大概如下: 1) 爬蟲(chóng)程序會(huì)自動(dòng)生成用戶指定 IP 網(wǎng)段中包含的所有 IP 地址,對(duì)它們逐一進(jìn)行掃描,已確認(rèn)哪些站點(diǎn)提供了匿名的 FTP 服務(wù)。 2) 當(dāng)程序成功登錄某個(gè) FTP 站點(diǎn)之后,程序會(huì)自動(dòng)獲取其各級(jí)目錄下的文件和目錄列表,并且會(huì)獲取各個(gè)文件的大小、最后修改時(shí)間,最后程序會(huì)根據(jù)對(duì)照表 對(duì)獲取的各個(gè)文件進(jìn)行分類。 3) 在所有操作完成之后,會(huì)生成該站點(diǎn)的目錄和源文件。在掃描完用戶配置的站點(diǎn)之后,掃描成功的站點(diǎn)會(huì)寫(xiě)入一個(gè)站點(diǎn)列表的文件,以便以后使用。 在索引模塊中,會(huì)根據(jù)爬蟲(chóng)模塊獲取的數(shù)據(jù),進(jìn)行處理,建立索引數(shù)據(jù)庫(kù)。圖 21 搜索引擎系統(tǒng)工作圖 第 6 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 工作流程圖 圖 22 FTP 搜索引擎工作流程圖 第 7 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 3 FTP 搜索引爬蟲(chóng)模塊擎詳細(xì)設(shè)計(jì) 設(shè) 計(jì)目的 如今很多企業(yè)和個(gè)人都建立了自己的 FTP 站點(diǎn),在各個(gè) FTP 站點(diǎn)中包含有大量的資源,如何才能快速的在浩如煙海的資源中找到自己需要的資源,已經(jīng)成為一個(gè)需要我們不得不解決的難題。要解決這一問(wèn)題,需要我們建立一個(gè)有效的FTP 搜索引擎,而實(shí)現(xiàn)搜索引擎的第一個(gè)問(wèn)題就是如何獲取各個(gè)站點(diǎn)提供的資源信息。本次設(shè)計(jì)的題目為 FTP 搜索引擎爬蟲(chóng)模塊,其用途就是搜集各個(gè) FTP 站點(diǎn)的數(shù)據(jù)信息,并且組織成一個(gè)特定的數(shù)據(jù)格式,索引模塊得去這組數(shù)據(jù)之后,利用再次處理這些數(shù)據(jù),建立索引數(shù)據(jù)庫(kù)。 功能模塊設(shè)計(jì) 網(wǎng)段掃描 設(shè)計(jì)思路 經(jīng)過(guò)查閱 資料,由于 Ftp 搜索引擎與 WWW 搜索引擎最大的區(qū)別就在于 Ftp 站點(diǎn)內(nèi)沒(méi)有與 WWW 頁(yè)面相對(duì)應(yīng)的超鏈接,因而 Ftp 搜索引擎的站點(diǎn)獲得策略就不能模仿搜索引擎業(yè)非常時(shí)興的超鏈分析技術(shù)。在本次 Ftp 搜索引擎爬蟲(chóng)模塊的設(shè)計(jì)里,我采用了 IP 掃描技術(shù)和手工添加技術(shù)的中和。一方面, 程序一開(kāi)始會(huì)讀取系統(tǒng)的配置文件,獲知本次掃描的網(wǎng)段范圍,在對(duì)配置文件進(jìn)行數(shù)據(jù)效驗(yàn)通過(guò)之后,程序會(huì)調(diào)用相應(yīng)模塊生成該網(wǎng)段中所有的等待訪問(wèn)的 IP 地址。另一 第 8 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 方面,程序本身維護(hù)有一個(gè) IP 站點(diǎn)列表,該列表中會(huì)保存用戶手工配置的以及上一次掃描成功 的 IP 站點(diǎn)性息,該 IP 列表中包含有提供 FTP 服務(wù)站點(diǎn)的 IP 地址和端口號(hào)。 實(shí)現(xiàn)方法 根據(jù)網(wǎng)段生成 IP 地址的方法多種多樣,在本次設(shè)計(jì)時(shí),我考慮過(guò)以下兩種方法。 1) IP 地址分為四段(如: )每一段可能出現(xiàn)的值為 0~255,用程序控制 IP 地址段的進(jìn)位( 256 進(jìn) 1)。用循環(huán)的方式,每次為最低位執(zhí)行加 1操作,并驗(yàn)證其是否需要執(zhí)行進(jìn)位操作,即可實(shí)現(xiàn)對(duì)于網(wǎng)段中 IP 地址的生成操作 這種方法雖然能夠較好的實(shí)現(xiàn)網(wǎng)段中 IP 地址的生成操作,但是由于要人工編寫(xiě)代碼實(shí)現(xiàn)數(shù)據(jù)的進(jìn)位操作,實(shí)現(xiàn)較為繁瑣,而且由于種種原因的 綜合影響,不能夠完全保證代碼的穩(wěn)定性。 2) IP 地址分為四段(如: ),每一段的長(zhǎng)度為 256,由于系統(tǒng)本身并不支持 256 進(jìn)位的方式,雖然編程可以對(duì)其進(jìn)行認(rèn)為的進(jìn)位控制,但是仍然帶來(lái)一些不必要的麻煩。由十進(jìn)制和二進(jìn)制之間的轉(zhuǎn)換得到啟發(fā)。在實(shí)現(xiàn)是我 IP 地址轉(zhuǎn)換為十進(jìn)制進(jìn)行操作。轉(zhuǎn)換方式為(以 為例)192*2563+168*2562+0*256+1=3232235521。同樣使用循環(huán)的方式,每次對(duì)轉(zhuǎn)換為十進(jìn)制的 IP 地址進(jìn)行加一操作,這樣就避免了人工編寫(xiě)代碼控制進(jìn)位的麻煩,程 序的穩(wěn)定性和代碼編寫(xiě)的效率都大大提高。 在上面的循環(huán)操作執(zhí)行完成之后,我們可以得到一個(gè) IP 地址表,注意,此時(shí) IP 地址表中的 IP 地址均以十進(jìn)制的數(shù)字方式保存。在使用時(shí),我們需要將這些數(shù)字再次轉(zhuǎn)化為 IP 地址。利用 . Framework 中提供的 IPAddress 第 9 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 類中的 Parse 方法,可方便的將我們獲取的十進(jìn)制數(shù)據(jù)再次轉(zhuǎn)換為類型為IPAddress 類型的 IP 地址數(shù)據(jù),最后我們使用 ToString()方法將其轉(zhuǎn)化為字符串,方便以后的使用 有上面的描述可以看出,在目前的狀況下方法 2)優(yōu)于方法 1),因此本次設(shè)計(jì)我選 用了方法 2)進(jìn)行實(shí)現(xiàn)。 核心代碼 圖 31 IP網(wǎng)段生成 獲取數(shù)據(jù) 設(shè)計(jì)思路 這一部分的實(shí)現(xiàn)雖然比較復(fù)雜,但是設(shè)計(jì)思路卻較為簡(jiǎn)單,首先需要向目標(biāo)站點(diǎn)發(fā)送數(shù)據(jù)請(qǐng)求。 FTP 站點(diǎn)會(huì)根據(jù)請(qǐng)求回傳的數(shù)據(jù),若請(qǐng)求有誤,則會(huì)回傳錯(cuò) publicListString newGetIPList() { ListString listIP = newListstring()。 long startIP, endIP。 startIP = frs_num[0] * 256 * 256 * 256 + frs_num[1] * 256 * 256 + frs_num[2] * 256 + frs_num[3]。 endIP = tos_num[0] * 256 * 256 * 256 + tos_num[1] * 256 * 256 + tos_num[2] * 256 + tos_num[3]。 resultIP。 for (long i = startIP。 i = endIP。 i++) { resultIP = (())。 (())。 } eturn listIP。 } 第 10 頁(yè) 西華大學(xué)畢業(yè)設(shè)計(jì)說(shuō)明書(shū) 誤信息。 實(shí)現(xiàn)方法 在前期準(zhǔn)備工作結(jié)束之后,由于使用的開(kāi)發(fā)語(yǔ)言為 C,因此考慮使用 . Framework 中提供的 FtpWebRequest 類庫(kù)實(shí) 現(xiàn)該功能。但是后來(lái)發(fā)現(xiàn)FtpWebRequest 類庫(kù)中提供的功能并不能很好的滿足本次設(shè)計(jì)的需要,并且對(duì)目標(biāo) FTP 站點(diǎn)的配置有一定的要求。因此后來(lái)放棄了這種方法,改用套接字的方式實(shí)現(xiàn),向指定站點(diǎn)發(fā)送 FTP 命令,然后獲取其回傳的數(shù)據(jù),由于這種方法可以自由的使用所有 FTP 命令,所以相對(duì)原有的方法更為靈活。下面是兩種方法的設(shè)計(jì)思路。 1) 使用 FtpWebRequest 類: 用此方法,首先需要取得 FtpWebRequest 的實(shí)例。注意,這里 必須擁有服務(wù)器的有效用戶名和密碼,或者服務(wù)器必須允許匿名登錄 。當(dāng)需要指定用戶名和密 碼是,可通過(guò)設(shè)置 Credentials 屬性來(lái)制定用于連接服務(wù)器的憑據(jù), 也可以將它們包含在傳遞給 Create 方法的 URI 的 UserInfo 部分中 。 使用 FtpWebRequest 類可以完成對(duì) FTP 服務(wù)器的多種操作,如獲取服務(wù)器文件簡(jiǎn)短列表、獲取服務(wù)器上文件大小等。經(jīng)過(guò)查閱資料,發(fā)現(xiàn)其內(nèi)部的實(shí)現(xiàn)方式仍然是使用 FTP 命令實(shí)現(xiàn)。(如 ListDirectory 對(duì)應(yīng)的是FTP 命令中的 NLIS
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1