freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

internet電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文-資料下載頁(yè)

2025-06-23 05:41本頁(yè)面
  

【正文】 立的哈希表 hashtable_probability 可以計(jì)算(|iPAt得知新到的郵件為垃圾郵件的可能性。當(dāng)接收到新的郵件時(shí),根據(jù)步驟②產(chǎn)生 Token 串。對(duì)比 hashtable_probability 的得到值,其為 Token 串的鍵值。為郵件共得到 N 個(gè) Token 串, 為12,.nt 1212,.,(|,.)nnPAthashtable_probability 中的對(duì)應(yīng)的值。其表示在郵件中同時(shí)出現(xiàn)多個(gè) Token 串 時(shí),12,.nt那么它為垃圾郵件的概率 [31]。綜合后的概率公式可得 ()121212*.(|,.)*.().*(1)nnn nPPAtt P????當(dāng) 的結(jié)果大于預(yù)定閾值(例如 )時(shí),其為垃圾郵件。12|,.ntt2. 應(yīng)用舉例設(shè)有一封垃圾郵件 B 含有“法輪功”的字樣和一封合法郵件 C 含有“法律”的字樣,參照上一節(jié)中貝葉斯過(guò)濾算法的基本步驟,根據(jù)郵件 B 生成 hashtableb_bad,該哈希表中的存儲(chǔ)為:Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 18 法:1 次輪:1 次功:1 次計(jì)算得在本表中:法出現(xiàn)的概率為 輪出現(xiàn)的概率為 功出現(xiàn)的概率為 根據(jù)郵件 C 生成 hashtable_good。所以該哈希表中的存儲(chǔ)為:法:1律:1計(jì)算得在本表中:法出現(xiàn)的概率為 律出現(xiàn)的概率為 根據(jù)哈希表,有四個(gè) Token 串:法 輪 功 律郵件中含有“法”時(shí),其概率為: =.75+P?出現(xiàn)“輪”時(shí): .103出現(xiàn)“功”時(shí): .=+P?出現(xiàn)“律”時(shí): 由此可得第三個(gè)哈希表可能性的數(shù)據(jù)為:法:輪:功:律:當(dāng)郵件有“功律”時(shí),計(jì)算得兩個(gè) Token 串,功律查詢哈希表的概率為:P(垃圾郵件|功)=Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 19 P(垃圾郵件|律)=根據(jù)樸素貝葉斯算法得出其為垃圾郵件的可能性為: *9=.()(.1)P???若預(yù)定閾值為 ,則由此可推出該郵件為合法郵件。 本章小結(jié)當(dāng)前在郵件過(guò)濾領(lǐng)域被廣泛研究和引用的是貝葉斯技術(shù),依據(jù)基于統(tǒng)計(jì)的原則,把用戶認(rèn)為的垃圾郵件和合法郵件進(jìn)行統(tǒng)計(jì)然后計(jì)算,具有循序漸進(jìn)的功能,可以逐漸取得好的效果。本章首先介紹了貝葉斯技術(shù)的相關(guān)背景知識(shí)和基本原理、公式,使我們對(duì)其有了大體的了解;接著,本章著重介紹了其中的樸素貝葉斯算法及其實(shí)際應(yīng)用。Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 20 4 郵件過(guò)濾系統(tǒng)的總體設(shè)計(jì) 系統(tǒng)設(shè)計(jì)及流程從目前的反垃圾郵件技術(shù)分析,基于內(nèi)容的反垃圾郵件技術(shù)效果最為理想,而在基于內(nèi)容的文本分類處理方法中,樸素貝葉斯算法明顯優(yōu)于其他文本分類算法。首先,在效率上樸素貝葉斯分類算法掃描所有訓(xùn)練樣本一遍,然后統(tǒng)計(jì)每個(gè)單詞在正常郵件和垃圾郵件中出現(xiàn)的次數(shù),之后只需要再對(duì)每個(gè)Token查詢一次,最后對(duì)每個(gè)Token進(jìn)行乘積或加和,而SVM方法、Boosting方法和遺傳方法都需要掃描多次訓(xùn)練樣本;其次,在存儲(chǔ)方面,樸素貝葉斯分類算法只需要存儲(chǔ)單詞的數(shù)目,而不是實(shí)際的郵件,這樣,占用的存儲(chǔ)空間很少,同時(shí)結(jié)果數(shù)據(jù)也可以在用戶之間共享而不必考慮郵件的私密性;再次,樸素貝葉斯分類方法隨著不斷地收到單個(gè)郵件進(jìn)行增量更新,可以適應(yīng)垃圾郵件形式的進(jìn)化。所以在本系統(tǒng)中,我們選取了樸素貝葉斯分類算法來(lái)構(gòu)造一個(gè)基于內(nèi)容的垃圾郵件過(guò)濾系統(tǒng)。本過(guò)濾系統(tǒng)的主要工作流程是將己知類別的郵件集(包括垃圾郵件集和正常郵件集)作為訓(xùn)練樣本集,分類器根據(jù)訓(xùn)練樣本集訓(xùn)練出特征詞庫(kù),特征詞庫(kù)包括特征詞及其權(quán)重;當(dāng)有未知類別的郵件到來(lái)時(shí),運(yùn)用分類器,將該郵件中的特征詞提取出來(lái),與特征詞庫(kù)中的特征詞進(jìn)行比對(duì),如果匹配成功,那么就記錄該詞的權(quán)重,然后選出一定數(shù)目的單詞從未知郵件中存在于特征詞庫(kù)的所有特征詞中,最后將其權(quán)重相乘,得到該郵件屬于垃圾郵件的權(quán)重,若權(quán)重值大于給定閾值,則該郵件為垃圾郵件,否則為正常郵件。過(guò)濾器構(gòu)造過(guò)程具體包括以下三大部分:① 預(yù)處理過(guò)程,包括郵件內(nèi)容提取、郵件解碼、中文分詞、特征詞提取、生成特征詞庫(kù)等過(guò)程。② 訓(xùn)練過(guò)程,根據(jù)分類算法生成分類器,該分類器的輸入為己知類別的郵件文本集,輸出為分類器的特征詞庫(kù)。③ 分類過(guò)程,輸入為待分類郵件集,根據(jù)訓(xùn)練過(guò)程所生成的特征詞庫(kù)進(jìn)行匹配,輸出為每封郵件的類別信息(垃圾郵件/正常郵件)。具體流程圖如圖 41 所示:Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 21 是訓(xùn)練郵件集S t a r t S t a r t測(cè)試郵件集文本表示特征選擇學(xué)習(xí)特征詞庫(kù)分類器郵件類別是否有待分郵件 ?E N D否圖 41 基于內(nèi)容垃圾郵件系統(tǒng)的整體流程 主要模塊設(shè)計(jì)垃圾郵件過(guò)濾系統(tǒng)主要有三個(gè)模塊:郵件預(yù)處理模塊、訓(xùn)練模塊和分類模塊下面分別就這三個(gè)模塊進(jìn)行簡(jiǎn)要介紹。 郵件預(yù)處理模塊1. 郵件內(nèi)容的提取本模塊通過(guò)分析電子郵件的字段值得到該郵件的郵件體內(nèi)容,內(nèi)容都是 text 文本文檔類型。2. 郵件解碼本系統(tǒng)處理的電子郵件來(lái)源是從網(wǎng)絡(luò)上抓取的郵件數(shù)據(jù)包,然后在 Snorts 環(huán)境下就行數(shù)據(jù)包重組而來(lái)的原始郵件,該郵件是未經(jīng)解碼的郵件,要對(duì)郵件進(jìn)行文本分析必須先將對(duì)郵件進(jìn)行解碼,翻譯成用戶能夠識(shí)別的文本文件,然后才能開(kāi)展后繼的中文分詞,特征提取等。Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 22 電子郵件在傳送過(guò)程中一般都要對(duì)文件進(jìn)行編碼,因?yàn)殡娮余]件僅能夠傳輸 7bit 編碼格式的字符信息,即 ASCII 碼格式。而對(duì)于非 7 位編碼格式的字符信息則必須經(jīng)過(guò)編碼處理,使其能夠正常傳輸。編碼以后的文本內(nèi)容會(huì)顯示為不可識(shí)別的字符串信息,接收方必須將接收到的字符串信息進(jìn)行解碼才能得到用戶可識(shí)別的正常文本信息。若非如此就很可能出現(xiàn)截取 8 位編碼的前 7 位進(jìn)行傳送,而將最后一位與下一字符的編碼歸并在一起,這樣會(huì)導(dǎo)致出現(xiàn)用戶不可是別的亂碼,不能正確傳送所要表達(dá)的信息,最常見(jiàn)的 8 位編碼格式的字符是漢字,必須要經(jīng)過(guò)編碼處理才能夠正確傳輸。本系統(tǒng)主要設(shè)計(jì)了 MIMEdecoder,MBCSdecoder , MBCSinterpreter 三個(gè)類來(lái)實(shí)現(xiàn)一個(gè)郵件解碼器的功能。① MIMEdecoder 的作用是處理郵件中各種編碼格式,包括 Base64 編碼和 QuotedPrintable 編碼。它的輸入是編碼后的字符流,輸出時(shí)解碼后的二進(jìn)制值,終止條件是當(dāng)遇到 MIME 編碼中的 Boundary 行式的字符流。本類針對(duì)具體的編碼格式派生出了幾個(gè)子類,主要包括IdentityMIMEdecoder;SinkMIMEdecoder,Base64MIMEdecoder ,QuotedprintableMIMEdecoder。其中 IdentityMIMEdecoder 是用來(lái)處理不需解碼的字符流的,即以 7bit 編碼的字符流;SinkMIMEdecoder 是用來(lái)跳過(guò)我們并不感興趣的字符流的;Base64MIMEdecode:是用來(lái)對(duì) Base64 編碼格式的字符流進(jìn)行解碼的;QuotedprintableMIQuotedprintableMIMEdecoder 是用來(lái)對(duì) Qutotedprintable 格式的字符流進(jìn)行解碼的。② MBCSdecoder 的作用是根據(jù)具體的文本采用的字符集來(lái)對(duì) MIMEdecoder 解碼后的二進(jìn)制流進(jìn)行解碼。常用的字符集有 GB2312(2 字節(jié))、GBK(2 字節(jié))、UTF8(3 字節(jié))、UTF16(2 字節(jié) )、Big5(2 字節(jié) )等。MBCSdecoder 根據(jù)這些字符集的編碼格式從字符流中選取適當(dāng)長(zhǎng)度的字節(jié),然后運(yùn)用十六進(jìn)制表示。③ MBCSinterpreter 是將 MBCSdecoder 解碼后的十六進(jìn)制字串與相應(yīng)字符集的字符集編碼表進(jìn)行對(duì)應(yīng),從中查找該字串對(duì)應(yīng)的漢字字符。至此,郵件中經(jīng)過(guò)編碼以后的用戶不可識(shí)別的字符串就轉(zhuǎn)化為用戶可以理解的漢字,郵件也被成功的轉(zhuǎn)化為文本文件,可以對(duì)文本文件進(jìn)行接下來(lái)的分詞處理了。3. 中文分詞文本分詞方法與特定的語(yǔ)言相關(guān),常見(jiàn)的有中文和英文兩種。對(duì)英文進(jìn)行分詞,主要是以非字母符號(hào)隔開(kāi)的,如標(biāo)點(diǎn)符號(hào)、空格等,其分詞方法是連續(xù)讀字母字符直至出現(xiàn)非字母字符;對(duì)于中文分詞來(lái)說(shuō),情形就相對(duì)復(fù)雜多了,中文詞是沒(méi)有明顯界限的,并且中文詞具有詞性、同義詞、多義詞、上下文干擾等特征,所以中文分詞的難度要更Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 23 大。采用不同的分詞方法,也會(huì)有不同的效果,查全率、準(zhǔn)確率等指標(biāo)也會(huì)受影響。分詞的精度也會(huì)影響到系統(tǒng)準(zhǔn)確率。為了能夠選擇分詞效果較好的算法,本系統(tǒng)對(duì)常用的分詞算法的優(yōu)缺點(diǎn)進(jìn)行了分析與總結(jié),分析如下:1) 最大匹配分詞法本算法是一種基于分詞詞典的分詞算法,簡(jiǎn)單易懂,易于實(shí)現(xiàn)。分詞過(guò)程基本上不涉及詞性、語(yǔ)義或者上下文語(yǔ)境等因素。最大匹配分詞算法又分為正向最大匹配算法和逆向最大匹配算法,這兩種算法的基本思想是一樣的,只不過(guò)他們切分字串的方向不同。正向最大匹配法是從左到右進(jìn)行切分的,而逆向最大匹配法是從右到左進(jìn)行切分的。正向最大匹配算法的基本原理為:設(shè)分詞詞典中含有的最長(zhǎng)詞的長(zhǎng)度為 N,從待分詞文本中按序讀取含有 N 個(gè)漢字的字串,然后在分詞詞典中去查找,如果找到該字串,則分詞完成,繼續(xù)處理剩下的待分詞文;否則,去掉該字串的最后一個(gè)字作為新的匹配字串,繼續(xù)在分詞詞典中查找,若找到,分詞完成,否則再去掉匹配字串的最后一個(gè)字,如此下去直到找到該詞或者待分類文本為空。2) 全切分全切分算法的基本思想是列舉出所有可能的切分結(jié)果,但是這種方法運(yùn)用起來(lái)不容易實(shí)現(xiàn),尤其是當(dāng)待分詞的文本很長(zhǎng)時(shí),全切分的結(jié)果會(huì)變得極其巨大,分詞速度也會(huì)非常慢,并且全切分所產(chǎn)生的分詞結(jié)果中大多數(shù)都是無(wú)用信息,對(duì)生成正確結(jié)果并沒(méi)有太大幫助,所以,本方法并不實(shí)用。3) 最大概率分詞法該分詞方法是一種統(tǒng)計(jì)的方法。通過(guò)計(jì)算相鄰字出現(xiàn)的次數(shù)信息,當(dāng)其超過(guò)某個(gè)閾值時(shí),這兩個(gè)字可能就組成一個(gè)詞的詞頻相乘求得最后的結(jié)果。經(jīng)過(guò)對(duì)以上分詞技術(shù)的分析與比較,正向匹配算法效率較高,并且實(shí)現(xiàn)起來(lái)也比較簡(jiǎn)單,所以本系統(tǒng)采用了正向匹配算法作為分詞算法。4. 特征詞提取電子郵件經(jīng)過(guò)分詞處理后的詞的數(shù)量一般很大,可以利用特征提取技術(shù),它的優(yōu)點(diǎn)是可以降低詞的維數(shù),選擇對(duì)文本類別分別效率較大的詞,提高過(guò)濾效率。本系統(tǒng)為了選擇合適的特征詞提取算法對(duì)常見(jiàn)特征詞提取算法的效率進(jìn)行了分析:1) 互信息互信息是指詞條和文本類之間的相關(guān)度,當(dāng)互信息量越大的時(shí)候,詞條和文本類都出現(xiàn)的程度越大。但是它沒(méi)有考慮單詞的頻度及發(fā)生的頻度,而是傾向于稀有單詞,所以精度不是很高。2) 信息增益Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 24 該方法存在的問(wèn)題是如果一個(gè)單詞在類 C1 中出現(xiàn),而在類 C2 中不出現(xiàn),這個(gè)單詞原本是很重要,但是根據(jù)要求,需要對(duì)各個(gè) log 值求和后相互抵消,結(jié)果為 0,與某些詞無(wú)法區(qū)分,而解決這個(gè)問(wèn)題的方法有兩種,分別為:一是對(duì)如 log 值取絕對(duì)值,二是省略 log 值小于 0 的情況。3) 基于文檔 頻度的特征選擇算法基于文檔頻度的特征選擇算法是指將文檔中出現(xiàn)的所有關(guān)鍵詞作為候選特征詞,并計(jì)算該詞在所有文檔中出現(xiàn)的次數(shù),當(dāng)次數(shù)小于某個(gè)閾值時(shí)表示該詞對(duì)文檔的類別特征影響較小,不用作特征詞。這種算法是最簡(jiǎn)單的特征選擇算法。通過(guò)對(duì)以上特征提取方法的分析得出,基于文檔頻度的算法簡(jiǎn)單高效、易于實(shí)現(xiàn),因此本系統(tǒng)采用了這種算法來(lái)進(jìn)行特征詞提取。 訓(xùn)練模塊本模塊的作用是主要是訓(xùn)練出特征詞庫(kù)。首先將郵件樣本集分為正常郵件集和垃圾郵件集,再通過(guò)統(tǒng)計(jì)特征詞在每個(gè)郵件集中出現(xiàn)的頻率來(lái)計(jì)算該詞的先驗(yàn)信息,然后將所有特征詞及先驗(yàn)信息寫(xiě)入數(shù)據(jù)字典,最后導(dǎo)出到二進(jìn)制文件形成特征詞庫(kù)。 分類模塊本模塊的作用是對(duì)待分類郵件進(jìn)行分類。當(dāng)新來(lái)一封郵件時(shí),先對(duì)郵件進(jìn)行預(yù)處理,然后將分詞結(jié)果在特征詞庫(kù)中進(jìn)行查找并記錄先驗(yàn)信息,按一定算法選取特定數(shù)量的詞作為特征詞,再根據(jù)貝葉斯算法計(jì)算,計(jì)算得出此郵件屬于垃圾郵件的概率,若概率值超過(guò)特定的閾值,則為垃圾郵件;否則為正常郵件。 本章小結(jié)本章主要介紹了郵件過(guò)濾系統(tǒng)的總體設(shè)計(jì),第一節(jié)介紹了系統(tǒng)設(shè)計(jì)及流程,第二節(jié)主要介紹了本過(guò)濾系統(tǒng)的主要構(gòu)成模塊包括郵件預(yù)處理模塊、訓(xùn)練模塊、分類模塊。Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 25 5 郵件過(guò)濾系統(tǒng)的實(shí)現(xiàn) 郵件樣本集的選取在對(duì)郵件進(jìn)行分類前,分類器要先學(xué)習(xí)一個(gè)預(yù)先被人工正確分類的郵件集,提取出垃圾郵件類和正常郵件類的特征。這個(gè)供分類器學(xué)習(xí)的郵件集,叫做訓(xùn)練樣本集。在測(cè)試分類器的性能時(shí),還需要測(cè)試樣本集。測(cè)試集中的郵件輸入到分類器,獲得分類器對(duì)該郵件的分類結(jié)果,將該分類結(jié)果與該郵件的實(shí)際類別進(jìn)行比較。通過(guò)統(tǒng)計(jì)分類器對(duì)測(cè)試集所有郵件的分類結(jié)果與人工分類結(jié)果的比較,評(píng)價(jià)出該分類器的性能指標(biāo)。系統(tǒng)中對(duì)于訓(xùn)練樣本集和測(cè)試樣本集的選取,來(lái)源于中國(guó)教育科研網(wǎng)絡(luò)中心計(jì)算機(jī)緊急響應(yīng)小組(CCERT)提供的 10000 封垃圾郵件和 9042 封正常郵件,系統(tǒng)從中提取出有代表性的 100 封郵件作為語(yǔ)料庫(kù)。將其中 100 封郵件(包括 50 封正常郵件 50 封垃圾郵件) 做為樣本訓(xùn)練集。 過(guò)濾模型的設(shè)計(jì)通過(guò)以上對(duì)于基于貝葉斯算法的分析,結(jié)合中文郵件過(guò)濾的特性,我們提出了基于樸素貝葉斯的算法模型,意在進(jìn)一步提高中文郵件的全查率,這一模型系統(tǒng)圖如圖 51所示:基于樸素貝葉斯算法電子郵件訓(xùn)練樣本集郵件解碼
點(diǎn)擊復(fù)制文檔內(nèi)容
物理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1