freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

internet電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文(參考版)

2025-06-26 05:41本頁(yè)面
  

【正文】 將其中 100 封郵件(包括 50 封正常郵件 50 封垃圾郵件) 做為樣本訓(xùn)練集。通過(guò)統(tǒng)計(jì)分類器對(duì)測(cè)試集所有郵件的分類結(jié)果與人工分類結(jié)果的比較,評(píng)價(jià)出該分類器的性能指標(biāo)。在測(cè)試分類器的性能時(shí),還需要測(cè)試樣本集。Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 25 5 郵件過(guò)濾系統(tǒng)的實(shí)現(xiàn) 郵件樣本集的選取在對(duì)郵件進(jìn)行分類前,分類器要先學(xué)習(xí)一個(gè)預(yù)先被人工正確分類的郵件集,提取出垃圾郵件類和正常郵件類的特征。當(dāng)新來(lái)一封郵件時(shí),先對(duì)郵件進(jìn)行預(yù)處理,然后將分詞結(jié)果在特征詞庫(kù)中進(jìn)行查找并記錄先驗(yàn)信息,按一定算法選取特定數(shù)量的詞作為特征詞,再根據(jù)貝葉斯算法計(jì)算,計(jì)算得出此郵件屬于垃圾郵件的概率,若概率值超過(guò)特定的閾值,則為垃圾郵件;否則為正常郵件。首先將郵件樣本集分為正常郵件集和垃圾郵件集,再通過(guò)統(tǒng)計(jì)特征詞在每個(gè)郵件集中出現(xiàn)的頻率來(lái)計(jì)算該詞的先驗(yàn)信息,然后將所有特征詞及先驗(yàn)信息寫入數(shù)據(jù)字典,最后導(dǎo)出到二進(jìn)制文件形成特征詞庫(kù)。通過(guò)對(duì)以上特征提取方法的分析得出,基于文檔頻度的算法簡(jiǎn)單高效、易于實(shí)現(xiàn),因此本系統(tǒng)采用了這種算法來(lái)進(jìn)行特征詞提取。3) 基于文檔 頻度的特征選擇算法基于文檔頻度的特征選擇算法是指將文檔中出現(xiàn)的所有關(guān)鍵詞作為候選特征詞,并計(jì)算該詞在所有文檔中出現(xiàn)的次數(shù),當(dāng)次數(shù)小于某個(gè)閾值時(shí)表示該詞對(duì)文檔的類別特征影響較小,不用作特征詞。但是它沒(méi)有考慮單詞的頻度及發(fā)生的頻度,而是傾向于稀有單詞,所以精度不是很高。4. 特征詞提取電子郵件經(jīng)過(guò)分詞處理后的詞的數(shù)量一般很大,可以利用特征提取技術(shù),它的優(yōu)點(diǎn)是可以降低詞的維數(shù),選擇對(duì)文本類別分別效率較大的詞,提高過(guò)濾效率。通過(guò)計(jì)算相鄰字出現(xiàn)的次數(shù)信息,當(dāng)其超過(guò)某個(gè)閾值時(shí),這兩個(gè)字可能就組成一個(gè)詞的詞頻相乘求得最后的結(jié)果。2) 全切分全切分算法的基本思想是列舉出所有可能的切分結(jié)果,但是這種方法運(yùn)用起來(lái)不容易實(shí)現(xiàn),尤其是當(dāng)待分詞的文本很長(zhǎng)時(shí),全切分的結(jié)果會(huì)變得極其巨大,分詞速度也會(huì)非常慢,并且全切分所產(chǎn)生的分詞結(jié)果中大多數(shù)都是無(wú)用信息,對(duì)生成正確結(jié)果并沒(méi)有太大幫助,所以,本方法并不實(shí)用。正向最大匹配法是從左到右進(jìn)行切分的,而逆向最大匹配法是從右到左進(jìn)行切分的。分詞過(guò)程基本上不涉及詞性、語(yǔ)義或者上下文語(yǔ)境等因素。分詞的精度也會(huì)影響到系統(tǒng)準(zhǔn)確率。對(duì)英文進(jìn)行分詞,主要是以非字母符號(hào)隔開的,如標(biāo)點(diǎn)符號(hào)、空格等,其分詞方法是連續(xù)讀字母字符直至出現(xiàn)非字母字符;對(duì)于中文分詞來(lái)說(shuō),情形就相對(duì)復(fù)雜多了,中文詞是沒(méi)有明顯界限的,并且中文詞具有詞性、同義詞、多義詞、上下文干擾等特征,所以中文分詞的難度要更Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 23 大。至此,郵件中經(jīng)過(guò)編碼以后的用戶不可識(shí)別的字符串就轉(zhuǎn)化為用戶可以理解的漢字,郵件也被成功的轉(zhuǎn)化為文本文件,可以對(duì)文本文件進(jìn)行接下來(lái)的分詞處理了。MBCSdecoder 根據(jù)這些字符集的編碼格式從字符流中選取適當(dāng)長(zhǎng)度的字節(jié),然后運(yùn)用十六進(jìn)制表示。② MBCSdecoder 的作用是根據(jù)具體的文本采用的字符集來(lái)對(duì) MIMEdecoder 解碼后的二進(jìn)制流進(jìn)行解碼。本類針對(duì)具體的編碼格式派生出了幾個(gè)子類,主要包括IdentityMIMEdecoder;SinkMIMEdecoder,Base64MIMEdecoder ,QuotedprintableMIMEdecoder。① MIMEdecoder 的作用是處理郵件中各種編碼格式,包括 Base64 編碼和 QuotedPrintable 編碼。若非如此就很可能出現(xiàn)截取 8 位編碼的前 7 位進(jìn)行傳送,而將最后一位與下一字符的編碼歸并在一起,這樣會(huì)導(dǎo)致出現(xiàn)用戶不可是別的亂碼,不能正確傳送所要表達(dá)的信息,最常見(jiàn)的 8 位編碼格式的字符是漢字,必須要經(jīng)過(guò)編碼處理才能夠正確傳輸。而對(duì)于非 7 位編碼格式的字符信息則必須經(jīng)過(guò)編碼處理,使其能夠正常傳輸。2. 郵件解碼本系統(tǒng)處理的電子郵件來(lái)源是從網(wǎng)絡(luò)上抓取的郵件數(shù)據(jù)包,然后在 Snorts 環(huán)境下就行數(shù)據(jù)包重組而來(lái)的原始郵件,該郵件是未經(jīng)解碼的郵件,要對(duì)郵件進(jìn)行文本分析必須先將對(duì)郵件進(jìn)行解碼,翻譯成用戶能夠識(shí)別的文本文件,然后才能開展后繼的中文分詞,特征提取等。具體流程圖如圖 41 所示:Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 21 是訓(xùn)練郵件集S t a r t S t a r t測(cè)試郵件集文本表示特征選擇學(xué)習(xí)特征詞庫(kù)分類器郵件類別是否有待分郵件 ?E N D否圖 41 基于內(nèi)容垃圾郵件系統(tǒng)的整體流程 主要模塊設(shè)計(jì)垃圾郵件過(guò)濾系統(tǒng)主要有三個(gè)模塊:郵件預(yù)處理模塊、訓(xùn)練模塊和分類模塊下面分別就這三個(gè)模塊進(jìn)行簡(jiǎn)要介紹。② 訓(xùn)練過(guò)程,根據(jù)分類算法生成分類器,該分類器的輸入為己知類別的郵件文本集,輸出為分類器的特征詞庫(kù)。本過(guò)濾系統(tǒng)的主要工作流程是將己知類別的郵件集(包括垃圾郵件集和正常郵件集)作為訓(xùn)練樣本集,分類器根據(jù)訓(xùn)練樣本集訓(xùn)練出特征詞庫(kù),特征詞庫(kù)包括特征詞及其權(quán)重;當(dāng)有未知類別的郵件到來(lái)時(shí),運(yùn)用分類器,將該郵件中的特征詞提取出來(lái),與特征詞庫(kù)中的特征詞進(jìn)行比對(duì),如果匹配成功,那么就記錄該詞的權(quán)重,然后選出一定數(shù)目的單詞從未知郵件中存在于特征詞庫(kù)的所有特征詞中,最后將其權(quán)重相乘,得到該郵件屬于垃圾郵件的權(quán)重,若權(quán)重值大于給定閾值,則該郵件為垃圾郵件,否則為正常郵件。首先,在效率上樸素貝葉斯分類算法掃描所有訓(xùn)練樣本一遍,然后統(tǒng)計(jì)每個(gè)單詞在正常郵件和垃圾郵件中出現(xiàn)的次數(shù),之后只需要再對(duì)每個(gè)Token查詢一次,最后對(duì)每個(gè)Token進(jìn)行乘積或加和,而SVM方法、Boosting方法和遺傳方法都需要掃描多次訓(xùn)練樣本;其次,在存儲(chǔ)方面,樸素貝葉斯分類算法只需要存儲(chǔ)單詞的數(shù)目,而不是實(shí)際的郵件,這樣,占用的存儲(chǔ)空間很少,同時(shí)結(jié)果數(shù)據(jù)也可以在用戶之間共享而不必考慮郵件的私密性;再次,樸素貝葉斯分類方法隨著不斷地收到單個(gè)郵件進(jìn)行增量更新,可以適應(yīng)垃圾郵件形式的進(jìn)化。本章首先介紹了貝葉斯技術(shù)的相關(guān)背景知識(shí)和基本原理、公式,使我們對(duì)其有了大體的了解;接著,本章著重介紹了其中的樸素貝葉斯算法及其實(shí)際應(yīng)用。所以該哈希表中的存儲(chǔ)為:法:1律:1計(jì)算得在本表中:法出現(xiàn)的概率為 律出現(xiàn)的概率為 根據(jù)哈希表,有四個(gè) Token 串:法 輪 功 律郵件中含有“法”時(shí),其概率為: =.75+P?出現(xiàn)“輪”時(shí): .103出現(xiàn)“功”時(shí): .=+P?出現(xiàn)“律”時(shí): 由此可得第三個(gè)哈希表可能性的數(shù)據(jù)為:法:輪:功:律:當(dāng)郵件有“功律”時(shí),計(jì)算得兩個(gè) Token 串,功律查詢哈希表的概率為:P(垃圾郵件|功)=Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 19 P(垃圾郵件|律)=根據(jù)樸素貝葉斯算法得出其為垃圾郵件的可能性為: *9=.()(.1)P???若預(yù)定閾值為 ,則由此可推出該郵件為合法郵件。綜合后的概率公式可得 ()121212*.(|,.)*.().*(1)nnn nPPAtt P????當(dāng) 的結(jié)果大于預(yù)定閾值(例如 )時(shí),其為垃圾郵件。為郵件共得到 N 個(gè) Token 串, 為12,.nt 1212,.,(|,.)nnPAthashtable_probability 中的對(duì)應(yīng)的值。當(dāng)接收到新的郵件時(shí),根據(jù)步驟②產(chǎn)生 Token 串。到此,學(xué)習(xí)過(guò)程結(jié)束。(|)iPtit設(shè):,在 hashtable_good 中的值(也就是 Token 串 ,在合法郵件中的概率)iit? it,在 hashtable_bad 中的值(也就是 Token 串 ,在垃圾郵件中的概率)2()則: ()21()(|)iiPtAt??⑥ 根據(jù)公式計(jì)算得到的 ,然后對(duì)其進(jìn)行平滑處理,當(dāng)值為 0 時(shí),將其值替|it換為 (為了計(jì)算簡(jiǎn)便,此處簡(jiǎn)單處理),當(dāng)值為 1 時(shí),將其值替換為 。④ 分別計(jì)算每個(gè)哈希表中 Token 串出現(xiàn)的概率。按照這個(gè)方法,分別處理垃圾郵件集和合法郵件集中的所有郵件。貝葉斯過(guò)濾算法的步驟為 [30]:① 搜集一些垃圾郵件和合法郵件,創(chuàng)建垃圾郵件集和合法郵件集。|xjd 樸素貝葉斯技術(shù)在郵件過(guò)濾中的應(yīng)用1. 算法的流程和步驟以內(nèi)容的角度看,垃圾郵件過(guò)濾可以看作是一個(gè)二值分類問(wèn)題 [28],可以把郵件分為兩類:一類是垃圾郵件,另一類為合法郵件類。它的原理是:計(jì)首先算文本 屬于某個(gè)類別的概率 ,然后dx |)jxPcd把文本放入到概率最大的類別中去。所以用戶需要給出一定量的垃圾郵件和合法郵件,在垃圾郵件過(guò)濾器中訓(xùn)練自己準(zhǔn)備的郵件,這樣用戶就有了自己郵件的特性。垃圾郵件內(nèi)容過(guò)濾中樸素貝葉斯分類器是比較廣泛應(yīng)用的一種方法。因?yàn)樗且环N比較簡(jiǎn)單并且有效的概率分類方法。其次是根據(jù)概率的方法估計(jì)某一事件未來(lái)可能發(fā)生的概率。1,23,.nBS且 則1()()0niiiP???1,? ()11221()()|()|()|).()|)nii nniABPABPABPAB? ??貝葉斯公式(Bayes Formula):設(shè)測(cè)試 的樣本空間為 , 為 的事件,ESE為 的一個(gè)劃分,且 ,則1,23,.nBS()0,()ii?1,.i? ()1()| |(| ()iiiii niiiPBAPBA???,貝葉斯概率是指:先根據(jù)先驗(yàn)的知識(shí)。即:B ()()()PAPB??乘法規(guī)則(Product Rule): 0? ()()(|)(|)ABA公式 稱為乘法公式也叫聯(lián)合概率公式 [22],其含義為:兩個(gè)任意事件發(fā)生的概率,進(jìn)行乘積計(jì)算得到的結(jié)果,這個(gè)結(jié)果稱為交事件發(fā)生的概率。A加法規(guī)則 [21](Sum Rule)任意兩個(gè)事件和(并)的概率,首先,將二事件的概率做和,然后用其和減去二事件同時(shí)發(fā)生的概率。對(duì)于 的每一事件 賦值,給它一SA個(gè)實(shí)數(shù),記為 ,稱為事件 發(fā)生的概率。試驗(yàn) 的樣本空間 的子集為 的SEES隨機(jī)事件,簡(jiǎn)稱為事件。 的每個(gè)結(jié)果。貝葉斯相關(guān)概率公式為 [29]:定義 :對(duì)隨機(jī)事件發(fā)生的情況進(jìn)行觀測(cè)稱作隨機(jī)實(shí)驗(yàn)。它可以適用于垃圾郵件發(fā)送者的各種改變,并且可以保護(hù)合法電子郵件。而貝葉斯過(guò)濾技術(shù)就可以完成我們的要求。他們只要稍微留心研究一下,就可以知道現(xiàn)在使用哪一種靜態(tài)過(guò)濾垃圾郵件技術(shù),根據(jù)此技術(shù)改變一下垃圾郵件的格式,或者是發(fā)送方式,就可以成功的發(fā)送給用戶。所以,其效果更好,誤報(bào)的更少。貝葉斯算法的過(guò)濾器運(yùn)用的實(shí)質(zhì)是通過(guò)計(jì)算郵件中的內(nèi)容中詞頻來(lái)判斷其是否為垃圾郵件。目前,計(jì)算機(jī)行業(yè)中貝葉斯理論的應(yīng)用相當(dāng)廣泛 [27]。貝葉斯算法是一種基于概率分析的的推理理論。Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 13 3 垃圾郵件過(guò)濾相關(guān)技術(shù) 基于內(nèi)容過(guò)濾的貝葉斯分類算法 貝葉斯技術(shù)簡(jiǎn)介貝葉斯算法是以托馬斯③ 基于內(nèi)容的垃圾郵件過(guò)濾技術(shù),它可以更為準(zhǔn)確的過(guò)濾郵件,并且可以自動(dòng)獲得垃圾郵件的特征,而且能夠及時(shí)得到垃圾郵件的特征的變化。本章還主要對(duì)目前常見(jiàn)的幾種垃圾郵件過(guò)濾技術(shù)進(jìn)行研究,通過(guò)簡(jiǎn)單分析得出結(jié)論:① 不同的垃圾郵件在一定程度上都可以幫助用戶阻隔垃圾郵件。 本章小結(jié)本章主要研究和總結(jié)了電子郵件的相關(guān)原理,電子郵件過(guò)濾的基礎(chǔ)知識(shí)、電子郵件相關(guān)協(xié)議( 主要包括 SMTP 協(xié)議,POP3 協(xié)議、IMAP 協(xié)議等重要協(xié)議) 和電子郵件編碼格式(MIME 編碼、 Base64 編碼、QP 編碼等)等。其本質(zhì)是,假設(shè) 由d互相獨(dú)立的多個(gè)特征 ( =1,2,...N ,N是 中不同特征數(shù))產(chǎn)生,所以jw又可以總結(jié)為求 。而兩個(gè)概率可以訓(xùn)練語(yǔ)料得到其結(jié)果。其原理是通過(guò)計(jì)算文本 屬于每個(gè)類別 ( =1,2,…M,M為類別個(gè)數(shù))的概率 ,并將它們排序取diC(|)iPCd其最大值來(lái)得到 所屬的類別。雖然這個(gè)計(jì)算方?法簡(jiǎn)單并且占用時(shí)間比較短,但是其過(guò)濾的效果比較差。上式計(jì)算可以得到垃??圾郵件類的類別向量。形式地表示為: (21)i iiixDxDaC???????????其中D +表示正例集合,D 表示反例集合,|D +|表示正例集合大小,|D |反例集合的大小。2) Rocchio方法Rocchio方法是一種經(jīng)常用于信息檢索的方法。它是通過(guò)計(jì)算文本間的相似度,找出訓(xùn)練集合中預(yù)測(cè)是否為文本最相似的K篇文本,然后定義其類別。重點(diǎn)是要實(shí)現(xiàn)文本分類算法。2. 基于統(tǒng)計(jì)的郵件過(guò)濾基于統(tǒng)計(jì)的方法 [11],首先將電子郵件過(guò)濾技術(shù)中融入文本分類方法,將郵件分類為合法郵件和垃圾郵件。③ 關(guān)鍵詞匹配:先制定一些垃圾郵件的特征詞,或者是短語(yǔ),如“免費(fèi)”、“特賣”、“培訓(xùn)”、“贈(zèng)送”等等,當(dāng)在郵件標(biāo)題或正文中匹配到若干個(gè)關(guān)鍵詞或短語(yǔ)時(shí),這時(shí),這些郵件為垃圾郵件。① 信頭分析:對(duì)郵件的發(fā)送地址進(jìn)行檢查判斷是否有假。當(dāng)系統(tǒng)對(duì)郵件進(jìn)行排查時(shí),如果與其中的一條規(guī)則相同,那么這封郵件為垃圾郵件。前者是制定一些規(guī)則,而后者是通過(guò)計(jì)算得到的結(jié)果。這是一種更加精確的郵件過(guò)濾方法,根據(jù)垃圾郵件的特征,并且隨時(shí)對(duì)垃圾郵件的特征的變化及時(shí)作出更新。這樣我們將垃圾郵件過(guò)濾與郵件的文本信息內(nèi)容聯(lián)系起來(lái),設(shè)計(jì)一種將文本信息內(nèi)容引入到垃圾郵件過(guò)濾技術(shù)中。所以基于來(lái)源的郵件過(guò)濾存在一些缺陷。RBLs 的缺點(diǎn)是:因?yàn)镽BLs 具有一些激進(jìn)的特性,可能會(huì)產(chǎn)生誤報(bào),所以需要考慮之后是否使用訂閱服務(wù)。相比之下,實(shí)時(shí)黑名單技術(shù)比黑名單技術(shù)更為有效。兩者不同之Inter
點(diǎn)擊復(fù)制文檔內(nèi)容
物理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1