freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于貝葉斯算法分類的反垃圾郵件系統(tǒng)的改進碩士學位論文(參考版)

2025-06-30 21:07本頁面
  

【正文】 Wed, 01 Jun 2022 22:36:28 +0800 (CST)MessageID: From: xie 。郵件的文本內(nèi)容是指一封郵件中去掉頭格式后的郵件內(nèi)容,文本量是指一封郵件中去掉郵件頭后所有文本內(nèi)容的數(shù)量。一般將郵件的內(nèi)容當成文本串來處理,然后獲得這個文本串的形式化表示。表示方法為:P(C0)特征:(PC 00, PC01,…PC0i…PC0k1)P(C1)特征:(PC 10, PC11,…PC1i…PC1k1)P(C2)特征:(PC 20, PC21,…PC2i…PC2k1)…PCj 特征:(PC j0, PCj1,…PCji…PCjk1)…PCn1 特征:(PC n10, PCn11,…PCn1i…PCn1k1)其中 P(C0)代表樣本集的類別,PC 00 表示關(guān)鍵詞在各類別中出現(xiàn)的概率。下面是一個組成分類向量的例子:廣告類(免費、優(yōu)惠、招聘、商機、聯(lián)系人…)訂票類(免費、優(yōu)惠、訂票、申請、價格…)購物類(免費、優(yōu)惠、購物、訂購、價格…)……上面的例子中是對已經(jīng)分好類的垃圾郵件樣本集進行分類向量的提取,一封中文電子郵件是由漢字組成的,有些詞條可以表示郵件樣本的類別的特征,例如:在訂票類別中,訂票、價格、申請等詞條就作為訂票類別中的敏感字符,它能代表這個類別的特征,( 免費、優(yōu)惠、訂票、申請、價格…)構(gòu)成了訂票類的分類向量。定義 :關(guān)鍵詞是垃圾郵件中的敏感字符,是一個類別中能表達該類別文本內(nèi)容的詞條,即是該類別中具有代表性的詞條,我們把具有上述特征的關(guān)鍵詞稱為分類向量。例如廣告類、網(wǎng)上購物類、網(wǎng)上賺錢類等,由于該樣本集中有重復和相似的郵件,利用訓練集中的郵件與待分類的郵件內(nèi)容進行匹配,如果匹配成功就把該郵件放到相應的類別中,構(gòu)造每個類別中的分類向量并依據(jù)標準郵件集計算各類別的概率分布,在此基礎上,構(gòu)造垃圾郵件的判斷算法。(2) 第二種則是詳細的分類方法。 垃圾郵件分類向量概述目前常用分類方法有兩種:(1) 第一種是粗略的分類方法。第三章垃圾郵件分類向量與特征向量垃圾郵件過濾問題可以看成是一個郵件分類問題,即把郵件看作為樣本,預先使用訓練樣本對分類器進行有指導的學習,然后用訓練好的分類器對新來的樣本進行分類。這就會是反垃圾郵件系統(tǒng)認為這些系統(tǒng)自動產(chǎn)生的郵件是偽裝過的郵件,被錯誤的丟棄。但這種技術(shù)要求反垃圾郵件系統(tǒng)預先和全部可能的發(fā)件人定下一個或多個秘密問題及答案。(7) 反向域名驗證技術(shù)對收到郵件的來源 IP 地址采用反向 DNS 查找驗證真實性,如果反向 DNS 查找提供的域與郵件上的來源 IP 地址相符合,該郵件被接受,如果不符合,系統(tǒng)認定該郵件是垃圾郵件予以拒絕,但由于現(xiàn)在很多反向 DNS 目錄未被有效建立或無法正常21建立,造成反向域名驗證產(chǎn)生不可接受的高誤報率。但每個收件人必須看了內(nèi)容以后才知道該郵件是垃圾郵件,利用分布協(xié)作的內(nèi)容指紋過濾方法對此類郵件有很好的過濾作用。貝葉斯技術(shù)克服了傳統(tǒng)內(nèi)容分析技術(shù)準確性低、誤判率高的缺陷,不需要預先搜集和編制關(guān)鍵詞表,可以實現(xiàn)對樣本的自動采集和學習,貝葉斯過濾器是目前比較好的過濾器,我們將在本文第三章對它進行詳細闡述??梢愿鶕?jù)特有的垃圾郵件和合法消息來進行定制。(5) 基于貝葉斯分析垃圾郵件過濾技術(shù)垃圾郵件的貝葉斯分析技術(shù),就是利用貝葉斯定理,以已知垃圾郵件和非垃圾郵件為樣本,通過對樣本郵件內(nèi)容的分析和統(tǒng)計,來計算下一封郵件可能是垃圾郵件的概率。目前,市場上常用的反垃圾郵件軟件提供此郵件主題掃描和郵件附件掃描功能,支持郵件內(nèi)容掃描的反垃圾郵件軟件很少。郵件主題掃描的實現(xiàn)比較簡單,就是掃描接收的每一個郵件,對郵件主題的關(guān)鍵字進行過濾,凡是符合預定義關(guān)鍵字值的就認為是垃圾郵件。(4) 郵件掃描技術(shù) [25] 如果郵件服務器能夠?qū)邮盏泥]件進行掃描,并按照指定的規(guī)則對郵件進行匹配,一旦接收的郵件和垃圾郵件匹配成功,就認為本次接收的郵件是垃圾郵件并自動刪除該郵件。因此,基于關(guān)鍵詞的郵件內(nèi)容過濾技術(shù)在實用中會導致很高的誤判率。(3) 基于靜態(tài)內(nèi)容過濾 [24]技術(shù)靜態(tài)內(nèi)容過濾實際上只對“規(guī)矩”的垃圾郵件有效,這些規(guī)矩的垃圾郵件常常是網(wǎng)絡營銷的廣告,有些更規(guī)矩的廣告在郵件主題上提示“ADV:” ,這種郵件其實反而不是最主要防范的郵件,如果用戶不想接收廣告郵件,只需簡單過濾郵件主題,發(fā)現(xiàn) ADV 即拒收。目前國內(nèi)支持地址黑名單的服務器比較多,很多郵件服務器軟件都是默認支持實時黑名單技術(shù),但從實際的角度來看,這種方式并不是非常有效。現(xiàn)在垃圾郵件大量增加,如果靠使用者手動維護黑名單很難應付,針對這種情況,實時黑名單(簡稱 RBL)技術(shù)應運而生,該技術(shù)結(jié)合 DNS 查詢實現(xiàn)對黑名單的自動更新。(2) 實時黑名單技術(shù)黑名單技術(shù) [23]是人們收集垃圾郵件的地址,組成一個列表后應用到郵件服務器,郵件服務器在轉(zhuǎn)發(fā)過程中丟棄那些地址來自黑名單的郵件。該方法的缺點是如果用戶希望收到來自某一地址的電子郵件,用戶必須事先設置允許接收這一地址郵件的規(guī)則。該方法的缺點是垃圾郵件基本上都是采用了偽造和變換發(fā)件人地址的手段,單靠管理員的手工處理根本不可能構(gòu)造出一個及時有效的黑名單列表。 服務器端垃圾郵件過濾技術(shù)在服務器端有以下幾種過濾技術(shù):(1) 基于黑/白名單的過濾技術(shù) 黑名單技術(shù)的原理是管理員收集、歸納和整理垃圾郵件的發(fā)件人地址,并制作成一個地址列表,即所謂的黑名單。雖然垃圾郵件發(fā)送者在發(fā)送垃圾郵件的時候,可以利用各種的工具隨機偽造不同的收發(fā)件人、主題和內(nèi)容,但是在郵件頭信息中,這些郵件還是有一些共同的信息的,主要是 IP、主機名、X標識。同時關(guān)鍵字詞還可以是短語和短句。根據(jù)關(guān)鍵字詞的命中率來確認這封郵件是否是垃圾郵件。比如前一段時間鬧的比較兇的 SoBig. F 病毒,一共以 9 個主題來發(fā)送病毒郵件,發(fā)件人和收件人地址都不確定,只要你過濾掉這 9 個主題,你就不會受到SoBig. F 病毒所發(fā)送的垃圾郵件騷擾了。對于收件人地址的檢查和過濾也是必要的。(2) 對收件人地址的過濾大家可能會說,收件地址不就是我的郵箱地址嗎?這還需要過濾? 當然,收件人地址也是可以用來發(fā)送垃圾郵件的。 客戶端垃圾郵件過濾技術(shù)在客戶端可以對以下幾種內(nèi)容進行過濾 [22]:(1) 對發(fā)件人地址的過濾這項技術(shù)就是依據(jù)發(fā)件人地址進行判斷是否是垃圾郵件,例如不合法的郵件地址就會認為是垃圾郵件,如????163. ,和一些不合規(guī)范的郵件地址及空地址,如lakdjfhkiu}lkdfnehgugnuoi,lkjsfuiern}。但是,相當多的電子郵件服務提供商,并沒有把這件事做好,特別是一些不夠規(guī)范的免費電子郵件提供商(有些免費的電子郵件服務提供商甚至向別的廠商和公司收取費用直接往自己的免費用戶郵箱里投放廣告郵件)。 常用反垃圾郵件技術(shù) 一般來說,反垃圾郵件的方法有服務器端和客戶端兩種。(3) 利用垃圾郵件過濾技術(shù)。(2) 行業(yè)自律模式。如垃圾郵件的定義,即到底什么樣的郵件是垃圾郵件。例如,一旦確認某個團體或個人發(fā)送垃圾郵件,那他將面臨法律的制裁與處罰?,F(xiàn)在非技術(shù)手段有以下幾種:(1) 立法模式。這意味著人們每周都會收到數(shù)千封不請自來的電子郵件,這些垃圾郵件不僅消耗了電子郵件網(wǎng)關(guān) 75%的處理能力,使垃圾郵件使得網(wǎng)絡線路繁忙,服務器性能大打折扣;而且也浪費了員工的大量時間和精力。在應用方面,由于 IMAP 比較復雜,給開發(fā)者開發(fā)服務器和客戶機的軟件帶來一些難題。而 IMAP 服務器將保持舊的郵件,占用了額外空間,而且需要定期地刪除舊郵件。但是實現(xiàn) IMAP 也有不足。這與一些成熟的組件包應用(如 Lotus Notes/Domino)的方式類似。這與 POP協(xié)議一樣。其使用方式與 Web Mail 相類似。IMAP 通過客戶機的電子郵件程序可在服務器上創(chuàng)建并管理郵件文件夾17或郵箱、刪除郵件、查詢某一封信的一部分或全部內(nèi)容,完成所有這些工作時都不需要把郵件從服務器下載到個人計算機上。它可以決定客戶機程序請求郵件服務器提交所收到郵件的方式,請求郵件服務器只下載所選中的郵件而不是全部郵件。IMAP 協(xié)議IMAP(Inter Message Access Protocol) [20]是與 POP3 對應的另一種協(xié)議,為美國斯坦福大學在 1986 年開始研發(fā)的多重郵箱電子郵件系統(tǒng)。(1) 基本的 POP3 命令:USER:郵箱登錄名,在 “鑒別”狀態(tài)有效;PASS:郵箱口令;QUIT:斷開與服務器連接;STAT:返回服務器狀態(tài)信息,一般為兩個參數(shù),第一個是郵件總數(shù),第二個是郵件總大小,在“操作”狀態(tài)有效;LIST:列出郵件清單,返回郵件編號和大?。籖ETR:收取指定郵件全部內(nèi)容;DELE:標記郵件刪除,直到執(zhí)行 QUIT 時才真正刪除;NOOP:用來檢查同服務器的連接;RSET:移除所有刪除標記;QUIT:終止連接,在 “更新 ”狀態(tài)有效。當客戶發(fā)出 QUIT 命令時,此過程進入“更新”狀態(tài)。在此狀態(tài)中用戶發(fā)送登錄名和口令,以鑒別會話?,F(xiàn)在有兩種狀態(tài)碼, “確定” (“+OK” )和“失敗” (“ERR ”) 。POP3 響應由一個狀態(tài)碼和一個可能跟有附加信息的命令組成。命令和參數(shù)由可打印的 ASCII 字符組成,它們之間由空格間隔。16POP3 命令由一個命令和一些參數(shù)組成。POP3 協(xié)議第一個郵局協(xié)議(POP)的 RFC 文檔是 1984 年發(fā)表的 RFC918,描述了一個基本的、試驗性的 POP 實現(xiàn)。 SMTP 中沒有內(nèi)置的手段保證郵件到達用戶前沒有被更改。同樣泄漏了系統(tǒng)信息,包括用戶所在機器的名稱和信件所經(jīng)過的路由。(3) MTA 的問候中會顯示使用的軟件的產(chǎn)品信息,給攻擊者找到漏洞。這個缺陷導致的后果有兩點:假冒他人郵件和濫用別人的 SMTP 服務器。S:MAIL FROM:R:250 OKS:RCPT TO:R:250 OKS:RCPT TO:R:550 No such user hereS:RCPT TO:R:250 OKS:DATAR:354 Start mail input。end withCRLF.CRLF554 Transaction failed最后,讓我們看一個 RFC821 中給出的例子。will forward toforwardpath450 Requested mail action not taken:mailbox unavailable[.,mailbox busy]550 Requested action not taken:mailbox unavailable[.,mailbox not found,no access]451 Requested action aborted:error in processing551 User not local。下面是 SMTP 答復中用到的代碼和含義:500 Syntax error,mand unrecognized [This may include errors such as mand line too long]501 Syntax error in parameters or arguments502 Command not implemented503 Bad sequence of mands504 Command parameter not implemented211 System status,or system help reply214 Help message[Information on how to use the receiver or the meaning of aparticular nonstandard mand。QUIT:SMTP 要求接收方必須回答 OK,然后中斷傳輸;在收到這個命令并回答OK 前,收件方不得中斷連接,即使傳輸出現(xiàn)錯誤。REST:這個命令用來通知收件方復位,所有已存入緩沖區(qū)的收件人數(shù)據(jù)、發(fā)件人數(shù)據(jù)和待傳送的數(shù)據(jù)都必須清除,接收方必須回答 OK。結(jié)束行對于接收方同時意味著立14即開始緩沖區(qū)內(nèi)的數(shù)據(jù)傳送,傳送結(jié)束后清空緩沖區(qū)。DATA:收件方把改命令之后的數(shù)據(jù)作為發(fā)送的數(shù)據(jù)。如果接收方服務器不同意轉(zhuǎn)發(fā)這個地址的郵件,它必須報 550 錯誤代碼通知發(fā)件方。RCPT:這個命令告訴收件方收件人的郵箱。為保證郵件的成功發(fā)送,發(fā)件方的地址應是被對方或中間轉(zhuǎn)發(fā)方同意接受的。MAIL:這個命令用來開始傳送郵件,它的后面跟隨發(fā)件方郵件地址(返回郵件地址) 。收件方回答OK 時標識自己的身份。(2)SMTP 的基本命令:SMTP 定義了 14 個命令,它們是:HELOSPdomainCRLFMAILSPFROM:reversepathCRLFRCPTSPTO:forwardpathCRLFDATACRLFRSETCRLFSENDSPFROM:reversepathCRLF SOMLSPFROM:reversepathCRLFSAMLSPFROM:reversepathCRLFVRFYSPstringCRLFEXPNSPstringCRLFHELPSPstringCRLFNOOPCRLFQUITCRLFTURNCRLF其中使得 SMTP 工作的基本的命令有 7 個,分別為:HELO、MAIL、RCPT、DATA、REST、NOOP 和 QUIT
點擊復制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1