freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

internet電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文(參考版)

2024-09-04 19:21本頁(yè)面
  

【正文】 ② MBCSdecoder 的作用是根據(jù)具體的文本采用的字符集來(lái)對(duì) MIMEdecoder 解碼后的二進(jìn)制流進(jìn)行解碼。本類針對(duì)具體的編碼格式派生出了幾個(gè)子類,主要包括 IdentityMIMEdecoder; SinkMIMEdecoder, Base64MIMEdecoder,QuotedprintableMIMEdecoder。 ① MIMEdecoder 的作用是處理郵件中各種編碼格式,包括 Base64 編碼和QuotedPrintable 編碼。若非如此就很可能出現(xiàn)截取 8 位編碼的前 7 位進(jìn)行傳送,而將最后一位與下一字符的編碼歸并在一起,這樣會(huì)導(dǎo)致出現(xiàn)用戶不可是別的亂碼,不能正確傳送所要表達(dá)的信息,最常見(jiàn)的 8 位編碼格式的字符是漢字,必須要經(jīng)過(guò)編碼處理才能夠正確傳輸。而對(duì)于非 7 位編碼格式的字符信息則必須經(jīng)過(guò)編碼處理,使其能夠正常傳輸。 2. 郵件解碼 本系統(tǒng)處理的電子郵件來(lái)源是從網(wǎng)絡(luò)上抓取的郵件數(shù)據(jù)包,然后在 Snorts 環(huán)境下就行數(shù)據(jù)包重組而來(lái)的原始郵件,該郵件是未經(jīng)解碼的郵件,要對(duì)郵件進(jìn)行文本分析必須先將對(duì)郵件進(jìn)行解碼,翻譯成用戶能夠識(shí)別的文本文件,然后才能開展后繼的中文分詞,特征提取 等。 具體流程圖如圖 41 所示: Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 21 是訓(xùn) 練 郵 件 集S t a r t S t a r t測(cè) 試 郵 件 集文 本 表 示特 征 選 擇學(xué) 習(xí)特 征 詞 庫(kù)分 類 器郵 件 類 別是 否 有 待 分 郵 件 ?E N D否 圖 41 基于內(nèi)容垃圾郵件系統(tǒng)的整體流程 主要模塊設(shè)計(jì) 垃圾郵件過(guò)濾系統(tǒng) 主要 有 三個(gè)模塊:郵件預(yù)處理模塊、訓(xùn)練模塊和分類模塊下面分別就這三個(gè)模塊進(jìn)行簡(jiǎn)要介紹。 ② 訓(xùn)練過(guò)程,根據(jù)分類算法生成分類器,該分類器的輸入為己知類別的郵件文本集,輸出為分類器的特征詞庫(kù) 。 本過(guò)濾系統(tǒng)的主要工作流程是將己知類別的郵件集 (包括垃圾郵件集和正常郵件集 )作為訓(xùn)練樣本集,分類器根據(jù)訓(xùn)練樣本集訓(xùn)練出特征詞庫(kù),特征詞庫(kù)包括特征詞及其權(quán)重;當(dāng)有未知類別的郵件到來(lái)時(shí) , 運(yùn)用分類器,將該郵件中的特征詞提取出來(lái),與特征詞庫(kù)中的特征詞進(jìn)行比對(duì),如果匹配成功,那么就記錄該詞的權(quán)重,然后選出一定數(shù)目的單詞從未知郵件中存在于特征詞庫(kù)的所有特征詞中,最后將其權(quán)重相乘,得到該郵件屬于垃圾郵件的權(quán)重, 若權(quán)重值大于給定閾值,則該郵件為垃圾郵件,否則為正常郵件。首先,在效率上樸素貝葉斯分類算法掃描所有訓(xùn)練樣本一遍,然后統(tǒng)計(jì)每個(gè)單詞在正常郵件和垃圾郵件中出現(xiàn)的次數(shù),之后只需要再對(duì)每個(gè) Token查詢一次,最后對(duì)每個(gè) Token進(jìn)行乘積或加和,而 SVM方法、 Boosting方法和遺傳方法都需要掃描多次訓(xùn)練樣 本;其次,在存儲(chǔ)方面,樸素貝葉斯分類算法只需要存儲(chǔ)單詞的數(shù)目,而不是實(shí)際的郵件,這樣,占用的存儲(chǔ)空間很少,同時(shí)結(jié)果數(shù)據(jù)也可以在用戶之間共享而不必考慮郵件的私密性;再次,樸素貝葉斯分類方法隨著不斷地收到單個(gè)郵件進(jìn)行增量更新,可以適應(yīng)垃圾郵件形式的進(jìn)化。本章首先介紹了貝葉斯技術(shù)的相關(guān)背景知識(shí)和基本原理、公式,使我們 對(duì)其有了大體的了解;接著,本章著重介紹了其中的樸素貝葉斯算法及 其 實(shí)際應(yīng)用。 所以該 哈希表中的 存儲(chǔ) 為 : 法: 1 律: 1 計(jì)算得在本表中 : 法出現(xiàn)的概率為 律出現(xiàn)的概率為 根據(jù)哈希表 , 有四個(gè) Token 串:法 輪 功 律 郵件中 含有“ 法 ” 時(shí), 其 概率為: = + ? 出現(xiàn) “ 輪 ” 時(shí): =+0P? 出現(xiàn) “ 功 ” 時(shí): =+0P? 出現(xiàn) “ 律 ” 時(shí) : 0 =00+? 由此可得第三個(gè)哈希表 可能性的 數(shù)據(jù)為: 法: 輪: 功: 律: 當(dāng) 郵件 有 “ 功律 ” 時(shí), 計(jì)算得 兩個(gè) Token 串,功律查詢哈希表 的概率為: P(垃圾郵件 |功 )= Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 19 P(垃圾郵件 |律 )= 根據(jù)樸素貝葉斯算法得出其為垃圾郵件的可能性為: * = * ( 1 ) * ( 1 )P ? ? ? ? 若預(yù)定閾值為 ,則由此可推出該郵件為合法郵件。 綜合后的 概率公式可得 12121 2 1 2* * . . .( | , , . . . , ) * * . . . ( 1 ) * ( 1 ) * . . . * ( 1 )nnnnP P PP A t t t P P P P P P? ? ? ? ? () 當(dāng) 12( | , ,..., )nP A t t t 的結(jié)果大于 預(yù)定 閾值 (例如 )時(shí), 其 為垃圾郵件。 12, ,... nt t t 為郵件共得到 N個(gè) Token串, 1 2 1 2, , ... , ( | , , ... )nnP P P P A t t t為 hashtable_probability中的 對(duì)應(yīng)的 值 。 當(dāng) 接收到新的 郵件時(shí), 根據(jù) 步驟 ② 產(chǎn)生 Token 串。到此,學(xué)習(xí)過(guò)程結(jié)束。設(shè) : ()i i iPt t? ,在 hashtable_good 中的 值 (也就是 Token 串 it ,在合法郵件中的概率 ) 2()iiP t t? ,在 hashtable_bad 中的值 (也就是 Token 串 it ,在垃圾郵件中的概率 ) 則: 212()( | ) ( ) ( )iiiiPtP A t P t P t? ? () ⑥ 根據(jù)公式計(jì)算 得 到 的 ( | )iPAt , 然后對(duì)其 進(jìn)行平 滑處理,當(dāng)值為 0 時(shí),將其值替換為 (為了計(jì)算簡(jiǎn)便,此處簡(jiǎn)單處理 ),當(dāng)值為 1 時(shí),將其值替換為 。 ④ 分別 計(jì)算每個(gè)哈希表中 Token 串出現(xiàn)的概率 。按照這個(gè)方法,分別處理垃圾郵件集和合法郵件集中的所有郵件。 貝葉斯過(guò)濾算法 的 步驟 為 [30]: ① 搜集一些垃圾郵件和合法郵件,創(chuàng)建垃圾郵件集和合法郵件集。 樸素貝葉斯技術(shù)在郵件過(guò)濾中的應(yīng)用 1. 算法的流程 和步驟 以內(nèi)容的角度看,垃圾郵件過(guò)濾可以看作是一個(gè)二值 分類問(wèn)題 [28], 可以把郵件分為兩類:一類是垃圾郵件,另一類為合法郵件類。 它的原理是: 計(jì) 首先 算文本 dx 屬于某個(gè)類別的概率 ( | )jxPc d , 然后把文本放入到概率最大的類別中去。所以用戶需要給出一定量的垃圾郵件和合法郵件,在垃圾郵件過(guò)濾器中訓(xùn)練自己準(zhǔn)備的郵件,這樣用戶就有了自己郵件的特性。垃圾郵件內(nèi)容過(guò)濾中樸素貝葉斯分類器是比較廣泛應(yīng)用的一種方法。因?yàn)樗且环N比較簡(jiǎn)單并且有效的概率分類方法。其次是根據(jù)概率的方法估計(jì)某一事件未來(lái)可能發(fā)生的概率。 且1 ( ) 1, ( ) 0niii P B P B? ??? 1,2,...in? 則 1 1 2 21( ) ( ) ( | ) ( ) ( | ) ( ) ( | ) . . . ( ) ( | )ni i n niP A P B P A B P B P A B P B P A B P B P A B?? ? ? ? ?? () 貝葉斯公式( Bayes Formula):設(shè) 測(cè)試 E 的樣本空間為 S ,A 為 E 的事件 , 1, 2, 3,... nB B B B 為S 的一個(gè)劃分,且 ( ) 0, ( ) 0iiP A P B?? 1,2,...in? ,則 1( ) ( | ) ( ) ( | )( | )() ( ) ( | )i i i ii niiiP B P A B P B P A BP B APA P B P A B??? ? 1,2,...in? () 貝葉斯概率 是指:先根據(jù)先驗(yàn)的知識(shí)。即: ( ) ( ) ( )P A B P A P B? ? ? () 乘法規(guī)則( Product Rule): ( ) 0PA? ( ) ( | ) ( ) ( | ) ( )P A B P A B P B P B A P A?? () 公式 稱為乘法公式也叫聯(lián)合概率公式 [22], 其含義為:兩個(gè)任意事 件發(fā)生的概率,進(jìn)行乘積計(jì)算得到的結(jié)果,這個(gè)結(jié)果稱為 交事件發(fā)生的概率。 加法規(guī)則 [21]( Sum Rule) 任意兩個(gè)事件和(并)的概率, 首先,將二事件的概率做和,然后用其和 減去二事件同時(shí)發(fā)生的概率。對(duì)于 E 的每一事件 A 賦值,給它 一個(gè)實(shí)數(shù),記為 ()PA,稱為事件 A 發(fā)生的概率。試驗(yàn) E 的樣本空間 S 的子集為 E 的隨機(jī)事件,簡(jiǎn)稱為事件。 E 的每個(gè)結(jié)果 。貝葉斯相關(guān)概率公式為 [29]: 定義 : 對(duì)隨機(jī) 事件發(fā)生的情況進(jìn)行觀測(cè) 稱作隨機(jī)實(shí)驗(yàn)。它可以適 用于垃圾郵件發(fā)送者的各種改變,并且可以保護(hù)合法電子郵件。而貝葉斯過(guò)濾技術(shù)就可以完成我們的要求。他們只要稍微留心研究一下,就可以知道現(xiàn)在使用哪一種靜態(tài)過(guò)濾垃圾郵件技術(shù),根據(jù)此技術(shù)改變一下垃圾郵件的格式,或者是發(fā)送方式,就可以成功的發(fā)送給用戶。所以,其效果更好,誤報(bào)的更少。貝葉斯算法的過(guò)濾器運(yùn)用的實(shí)質(zhì)是通過(guò)計(jì)算郵件中的內(nèi)容中詞頻來(lái)判斷其是否為垃圾郵件。 目前,計(jì)算機(jī)行業(yè)中貝葉斯理論的應(yīng)用相當(dāng)廣泛 [27]。貝葉斯算法是一種基于概率分析的的推理理論。 Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 13 3 垃圾郵件過(guò)濾相關(guān)技術(shù) 基于內(nèi)容過(guò)濾的貝葉斯分類算法 貝葉斯技術(shù)簡(jiǎn)介 貝葉斯算法是 以 托馬斯 ③ 基于內(nèi)容的垃圾郵件過(guò)濾技術(shù) ,它可以更為準(zhǔn)確的過(guò)濾郵件,并且可以自動(dòng)獲得垃圾郵件的特征,而且能夠及時(shí)得到垃圾郵件的特征的變化。 本章還 主要對(duì)目前常見(jiàn)的幾種垃圾郵件過(guò)濾技術(shù)進(jìn)行研究,通過(guò) 簡(jiǎn)單 分析 得出結(jié)論: Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 12 ① 不同的 垃圾郵件在一定程度上都可以幫助用戶阻隔垃圾郵件。 本章小結(jié) 本章主要研究和總結(jié)了電子郵件的相關(guān)原理,電子郵件過(guò)濾的基礎(chǔ)知識(shí)、電子郵件相關(guān)協(xié)議 (主要包括 SMTP 協(xié)議, POP3 協(xié)議、 IMAP 協(xié)議等重要協(xié)議 )和電子郵件編碼格式 (MIME 編碼、 Base64 編碼、 QP 編碼等 )等。 其本質(zhì)是 ,假設(shè) d 由互相獨(dú)立的多個(gè)特征 jw (j =1, 2,... N, N是 d 中不同特征數(shù) )產(chǎn)生 , 所以 ( | )iPC d 又可以 總結(jié)為 求 ( | )iPC d 。 而 兩個(gè)概率 可以 訓(xùn)練語(yǔ)料得到 其結(jié)果 。其原理 是通過(guò)計(jì)算文本 d 屬于每個(gè)類別 iC (i =1,2, …M , M為類別個(gè)數(shù) )的概率 ( | )iPC d ,并將它們排序取其最大值來(lái)得到 d 所屬的類別。 雖然這個(gè)計(jì)算方法簡(jiǎn)單并且占用時(shí)間比較短,但是其過(guò)濾的效果比較差。 上式計(jì)算 可以得到垃圾郵件類的類別向量。 形式地表示為: iiiix D x DaC x xDD??????????? (21) 其中 D+表示正例集合, D表示反例集合 , |D+|表示正例集合 大小, |D|反例集合的大小。 2) Rocchio方法 Rocchio方法 是一種經(jīng)常用于信息檢索的方法。它是通過(guò)計(jì)算文本間的相似度,找出訓(xùn)練集合中預(yù)測(cè)是否為文本最相似的 K篇文本,然后定義其類別。重點(diǎn)是要實(shí)現(xiàn)文本分類算法。 2. 基于統(tǒng)計(jì)的郵件過(guò)濾 基于統(tǒng)計(jì)的方法 [11], 首先將電子郵件過(guò)濾技術(shù)中融入文本分類方法, 將郵件分類為合法郵件和垃圾郵件。 ③ 關(guān)鍵詞匹配:先制定一些垃圾郵件的特征詞,或者是短語(yǔ), 如 “ 免費(fèi) ” 、 “ 特賣 ” 、“ 培訓(xùn) ” 、 “ 贈(zèng)送 ” 等 等,當(dāng)在郵件標(biāo)題或正文中匹配到若干個(gè)關(guān)鍵詞或短語(yǔ)時(shí), 這時(shí),這些郵件為垃圾郵件。 ① 信頭分析:對(duì)郵件的發(fā)送地址進(jìn)行檢查判斷是否有假。當(dāng)系統(tǒng)對(duì)郵件進(jìn)行排查時(shí),如果與其中的一條規(guī)則相同,那么這封郵件為垃圾郵件。前者是制定一些規(guī)則,而后者是通過(guò)計(jì)算得到的結(jié)果。這是一種更加精確的郵件過(guò) 濾方法,根據(jù)垃圾郵件的特征,并且隨時(shí)對(duì)垃圾郵件的特征的變化及時(shí)作出更新。這樣我們將垃圾郵件過(guò)濾與郵件的文本信息內(nèi)容聯(lián)系起來(lái),設(shè)計(jì)一種將文本信息內(nèi)容引入到垃圾郵件過(guò)濾技術(shù)中。所以基于來(lái)源的郵件過(guò)濾存在一些缺陷。RBLs的缺點(diǎn)是:因?yàn)?RBLs具有一些激進(jìn)的特性,可能會(huì)產(chǎn)生誤報(bào),所以需要考慮之后是否使用訂閱服務(wù)。 相比之下,實(shí)時(shí)黑名單技術(shù)比黑名單技術(shù)更為有效。 兩者不同之處在于,實(shí)時(shí)黑名單不需要手動(dòng)維護(hù) IP地址列表清單, 而是采用 DNS方式 (查詢和區(qū)域傳Inter 電子郵件過(guò)濾器的設(shè)計(jì)畢業(yè)論文 10 輸 )來(lái)動(dòng)態(tài)的查找一個(gè) IP地址的某記錄是否存在。國(guó)內(nèi)外很多組織會(huì)提供一些垃圾制造者的黑名單,給用戶做出及時(shí)更新,但是狡猾的他們經(jīng)常改變 IP地址,逃避檢測(cè),所以這個(gè)技術(shù)只能起到補(bǔ)充作用。但是當(dāng)這個(gè)質(zhì)詢被合法的用戶恢復(fù)后,那么系統(tǒng)會(huì)把他的地址加入到“白名單”中,這樣就很方便以后來(lái)自同一地址的消息時(shí),直接就自動(dòng)了通過(guò)了檢查。 若列表中沒(méi)有該地址,那么會(huì)產(chǎn)生一個(gè)特殊的質(zhì)詢響應(yīng),然后會(huì)發(fā) 給發(fā)件人,這個(gè)質(zhì)詢消息包含
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1