freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于貝葉斯算法分類的反垃圾郵件系統(tǒng)的改進(jìn)碩士學(xué)位論文-免費(fèi)閱讀

  

【正文】 不論是抽取文本特征形成一個(gè)向量還是抽取文本特征形成一個(gè)其它的特殊結(jié)構(gòu),對(duì)文本的這種及其表示過(guò)程簡(jiǎn)稱為文本表示。 垃圾郵件分類向量與特征向量的定義中文語(yǔ)言的特點(diǎn)和英語(yǔ)語(yǔ)言的特點(diǎn)在結(jié)構(gòu)上有很大的差別:英文最小的表達(dá)意義的單元是英文單詞(word) ,也是書(shū)寫(xiě)上的基本單元,可以很明顯簡(jiǎn)單的從郵件中一個(gè)個(gè)分離出來(lái);而對(duì)于中文語(yǔ)言來(lái)說(shuō),表達(dá)意義的最小單元是中文單詞,但是書(shū)寫(xiě)上的基本單元是漢字,中文單詞無(wú)法直接從郵件中獲得,因?yàn)橹形膯卧~之間沒(méi)有明確的分隔符,而且中文單詞的變化及其復(fù)雜,若無(wú)人的參與,機(jī)器自動(dòng)進(jìn)行單詞的切分本22身就是一個(gè)困難的問(wèn)題。而要讓這些系統(tǒng)增加回應(yīng)質(zhì)詢的能力,需要做大量額外的工作。(6) 分布協(xié)作的內(nèi)容指紋分析技術(shù)有些郵件使用假的郵件地址、偽造了郵件頭或利用了開(kāi)放式轉(zhuǎn)發(fā)功能發(fā)送的。這種匹配一般都支持正則表達(dá)式的匹配方法,從而提高了掃描的執(zhí)行效率。該技術(shù)手段太單一,致命的弱點(diǎn)在于被放入黑名單的少量可疑主機(jī)數(shù)目和大量的垃圾郵件發(fā)送者不成比例,即使郵件服務(wù)器支持實(shí)時(shí)黑名單技術(shù),依然會(huì)收到大量的垃圾郵件,無(wú)法全面封堵。白名單技術(shù)的原理與黑名單正好相反,其中列出了可信的郵件地址,凡是發(fā)件人地址符合其中地址的郵件,都會(huì)被認(rèn)為是正常郵件而被放行。如果命中率超過(guò)了設(shè)置的閾值,就認(rèn)為是垃圾郵件。這些郵件將被判斷為垃圾郵件。行業(yè)控制方面主要是利用實(shí)時(shí)的黑名單服務(wù)來(lái)限制垃圾郵件的傳播。 反垃圾郵件成為了當(dāng)前亟待解決的問(wèn)題。現(xiàn)在,IMAP 為很多客戶端電子郵件軟件所采納,如 Outlook Express、Netscape Messenger 等,支持 IMAP 的服務(wù)器端的軟件也越來(lái)越多,如CriticalPath、Eudora、Sendmail 等??蛻魴C(jī)可先閱讀郵件信息的標(biāo)題和發(fā)送者的名字再?zèng)Q定是否下載這個(gè)郵件。一旦接受鑒別,服務(wù)器就獲取與客戶郵件相關(guān)的資源,此時(shí)進(jìn)入“操作”狀態(tài),用戶可以發(fā)送命令,檢索郵件的副本,或從永久郵箱中刪除郵件。所有命令以一個(gè) CRLF 對(duì)結(jié)束。(4) Received 字段。please tryforwardpath452 Requested action not taken:insufficient system storage552 Requested mail action aborted:exceeded storage allocation553 Requested action not taken:mailbox name not allowed15[.,mailbox syntax incorrect]354 Start mail input。如果傳送接受,接收方回復(fù)OK。這個(gè)命令會(huì)清空有關(guān)的緩沖區(qū),為新的郵件做準(zhǔn)備。命令代碼是大小寫(xiě)無(wú)關(guān)的,如 MAIL 和 mail、mAIL 是等效的。收件方服務(wù)器確認(rèn)可以建立連接后,雙方就可以開(kāi)始通信。2022 年 4月,RFC2821 [17]對(duì)該協(xié)議進(jìn)行了更新。投遞代理 MDA 程序則從信件傳輸代理取得信件傳送至最終用戶的郵箱。RFC 為信頭定義了 20 多個(gè)標(biāo)準(zhǔn)字段,包括 Date、From 、To 、CC、BCC 等一些必須和非必須的字段,另外,信頭在傳輸過(guò)程中并不是一成不變的,隨著郵件的傳輸,MUA 和 MTA 會(huì)在信頭上增加一些路徑信息,它們合在一起構(gòu)成收到的信件的信頭部分。根據(jù)需要傳送各種非文本文件(例如圖像文10件、word 文件、 pdf 文件、zip 文件等) ,人們又定義了 MIME 標(biāo)準(zhǔn),作為 RFC822 的補(bǔ)充。據(jù) 2022 年 3 月份 MessagingOnline 的一份數(shù)據(jù)顯示,Inter 上有 億個(gè)郵箱,平均每個(gè) Inter 用戶有 個(gè)。 電子郵件工作原理簡(jiǎn)介 電子郵件的概述電子郵件(簡(jiǎn)稱 EMail)又稱電子信箱、電子郵政,它是—種用電子手段提供信息交換的通信方式。 研究目標(biāo)與內(nèi)容本文的研究目標(biāo)是基于貝葉斯算法,構(gòu)造垃圾郵件過(guò)濾模型,并對(duì)相關(guān)算法進(jìn)行分析、比較、驗(yàn)證和測(cè)試,最后基于改進(jìn)的貝葉斯算法,實(shí)現(xiàn)對(duì)垃圾郵件的過(guò)濾。國(guó)內(nèi)外電子郵件系統(tǒng)相關(guān)各方都進(jìn)行了大量的工作,包括在電子郵件系統(tǒng)中引入數(shù)字證書(shū),建立各種加密郵件協(xié)議和標(biāo)準(zhǔn),研究郵件防病毒技術(shù)和垃圾郵件過(guò)濾技術(shù)等;同時(shí),不少國(guó)家都出臺(tái)了電子郵件應(yīng)用相關(guān)的法律法規(guī),如電子簽名法、反垃圾郵件立法等,對(duì)其進(jìn)行約束和規(guī)范。 國(guó)內(nèi)外反垃圾郵件現(xiàn)狀雖然垃圾郵件問(wèn)題是最初從西方開(kāi)始,以英文垃圾郵件為主,但是它越來(lái)越成為一個(gè)國(guó)際性的問(wèn)題 [6],很多學(xué)者和技術(shù)人員也開(kāi)展了反垃圾郵件的研究工作。這些郵件服務(wù)器正是被西方垃圾郵件制造者用來(lái)轉(zhuǎn)發(fā)垃圾郵件,這就是所謂“瞎子式轉(zhuǎn)發(fā)” (Blind Relay) ,并被他們彼此以幾百美元的價(jià)格互相買(mǎi)賣這種服務(wù)器的地址,最終歐美的很多 ISP 服務(wù)提供商封鎖了中國(guó)的 IP 地址段。尤其危害大的是,很多垃圾郵件的附件中帶有病毒,一旦收件人打開(kāi)郵件,附件中的病毒就會(huì)對(duì)系統(tǒng)造成各種破壞。調(diào)查報(bào)告指出企業(yè)雇員通常每日花費(fèi) 10 分鐘的時(shí)間清理收件箱內(nèi)的垃圾郵件。(2) 批量性。近幾年來(lái),垃圾郵件的泛濫是由于專門(mén)發(fā)送垃圾郵件的服務(wù)器大批涌現(xiàn)。這是第一次使用 Spam(垃圾郵件)一詞,用來(lái)描述新聞或電子郵件的主動(dòng)性發(fā)布。本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)?;趦?nèi)容分析的技術(shù)正逐步進(jìn)入郵件過(guò)濾技術(shù)當(dāng)中,并成為當(dāng)前研究熱點(diǎn),其中,基于內(nèi)容分析的郵件過(guò)濾方法中的典型方法是基于貝葉斯算法的垃圾郵件過(guò)濾模型。因此,研究反垃圾郵件問(wèn)題已經(jīng)成為全球性的具有重大現(xiàn)實(shí)意義的課題。 the standard sample data sets of a large number of Chinese spam and regular mail are collected and maintained by the Chinese Education and Research Net (CERNET). The author conducted a lot of testing towards the methods which are studied by this paper. The accuracy and misjudgment rate reached % and % respectively. The results show that the spam filtering system based on algorithm Bayesian plays a very good role to block spam.Key Words: , spam, mail filtering, Bayesian theory3學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。然而,電子郵件在為人們提供極其方便的同時(shí)也成為垃圾郵件、病毒、惡意程序或敏感內(nèi)容郵件傳播的重要載體,對(duì)系統(tǒng)安全造成了嚴(yán)重的威脅。1996 年的 1 月,第一個(gè)反垃圾郵件組織“自由騎士”成立;1996 年 7 月,著名的反垃圾郵件網(wǎng)站 SpamHaus 成立,例如使用 的工具來(lái)過(guò)濾郵件地址。很多組織或機(jī)構(gòu)都給垃圾郵件下過(guò)定義。大量的垃圾郵件在網(wǎng)絡(luò)上傳播,占用了網(wǎng)絡(luò)帶寬,導(dǎo)致網(wǎng)絡(luò)通信質(zhì)量下降,甚至是網(wǎng)絡(luò)發(fā)生擁塞,干擾郵件系統(tǒng)的正常運(yùn)行,根據(jù) 2022 年的一份研究報(bào)告顯示,僅 2022 年垃圾郵件就給全球 ISP造成了至少 1000 萬(wàn)美元的損失。(2) 垃圾郵件侵害了用戶的隱私權(quán)。這樣做可以節(jié)省郵件發(fā)送者經(jīng)費(fèi),但是會(huì)給被盜用者帶來(lái)很多危險(xiǎn),如由于線路擁塞,造成系統(tǒng)的癱瘓。有些病毒利用瀏覽器的漏洞,以郵件的形式把自己偽裝成補(bǔ)丁和安全升級(jí)的電子郵件發(fā)送給用戶,只要用戶點(diǎn)擊該郵件,該病毒就會(huì)被激活。2022 年 12 月成立了一個(gè)政府資助的反垃圾郵件聯(lián)盟,以應(yīng)對(duì)越來(lái)越嚴(yán)重的垃圾郵件問(wèn)題 [8]。隨著我國(guó)政府電子政務(wù)的建設(shè),中國(guó)加入 WTO,越來(lái)越多的企事業(yè)單位會(huì)建設(shè)自己的郵件系統(tǒng)/自動(dòng)化辦公系統(tǒng),提高無(wú)紙化辦公,實(shí)現(xiàn)電子商務(wù)。(3) 本文采用互信息的方法進(jìn)行特征選取,計(jì)算每個(gè)關(guān)鍵詞的 RMI 值,利用 RMI9值確定特征向量的分量詞條。Inter 問(wèn)世后的最初應(yīng)用就是電子郵件。RFC821 [11] 規(guī)定 SMTP(Simple Mail Transfer Protocol,簡(jiǎn)單郵件傳輸協(xié)議),定義發(fā)送郵件的機(jī)制。在 RFC2822《Inter 信息格式》中規(guī)定了電子郵件的標(biāo)準(zhǔn)格式。對(duì)每一個(gè)外發(fā)的郵件 MTA決定接收方的目的地。服務(wù)器在一個(gè)隊(duì)列中存儲(chǔ)到達(dá)的郵件,等待發(fā)送下一個(gè)目的地。SMTP 的一個(gè)重要特點(diǎn)是可以在可交互的通信系統(tǒng)中轉(zhuǎn)發(fā)郵件。為了保證回復(fù)命令的有效,SMTP 要求發(fā)件方必須提供接收方的服務(wù)器及郵箱。MAIL:這個(gè)命令用來(lái)開(kāi)始傳送郵件,它的后面跟隨發(fā)件方郵件地址(返回郵件地址) 。DATA:收件方把改命令之后的數(shù)據(jù)作為發(fā)送的數(shù)據(jù)。下面是 SMTP 答復(fù)中用到的代碼和含義:500 Syntax error,mand unrecognized [This may include errors such as mand line too long]501 Syntax error in parameters or arguments502 Command not implemented503 Bad sequence of mands504 Command parameter not implemented211 System status,or system help reply214 Help message[Information on how to use the receiver or the meaning of aparticular nonstandard mand。這個(gè)缺陷導(dǎo)致的后果有兩點(diǎn):假冒他人郵件和濫用別人的 SMTP 服務(wù)器。POP3 協(xié)議第一個(gè)郵局協(xié)議(POP)的 RFC 文檔是 1984 年發(fā)表的 RFC918,描述了一個(gè)基本的、試驗(yàn)性的 POP 實(shí)現(xiàn)。現(xiàn)在有兩種狀態(tài)碼, “確定” (“+OK” )和“失敗” (“ERR ”) 。IMAP 協(xié)議IMAP(Inter Message Access Protocol) [20]是與 POP3 對(duì)應(yīng)的另一種協(xié)議,為美國(guó)斯坦福大學(xué)在 1986 年開(kāi)始研發(fā)的多重郵箱電子郵件系統(tǒng)。這與 POP協(xié)議一樣。在應(yīng)用方面,由于 IMAP 比較復(fù)雜,給開(kāi)發(fā)者開(kāi)發(fā)服務(wù)器和客戶機(jī)的軟件帶來(lái)一些難題。如垃圾郵件的定義,即到底什么樣的郵件是垃圾郵件。但是,相當(dāng)多的電子郵件服務(wù)提供商,并沒(méi)有把這件事做好,特別是一些不夠規(guī)范的免費(fèi)電子郵件提供商(有些免費(fèi)的電子郵件服務(wù)提供商甚至向別的廠商和公司收取費(fèi)用直接往自己的免費(fèi)用戶郵箱里投放廣告郵件)。比如前一段時(shí)間鬧的比較兇的 SoBig. F 病毒,一共以 9 個(gè)主題來(lái)發(fā)送病毒郵件,發(fā)件人和收件人地址都不確定,只要你過(guò)濾掉這 9 個(gè)主題,你就不會(huì)受到SoBig. F 病毒所發(fā)送的垃圾郵件騷擾了。 服務(wù)器端垃圾郵件過(guò)濾技術(shù)在服務(wù)器端有以下幾種過(guò)濾技術(shù):(1) 基于黑/白名單的過(guò)濾技術(shù) 黑名單技術(shù)的原理是管理員收集、歸納和整理垃圾郵件的發(fā)件人地址,并制作成一個(gè)地址列表,即所謂的黑名單?,F(xiàn)在垃圾郵件大量增加,如果靠使用者手動(dòng)維護(hù)黑名單很難應(yīng)付,針對(duì)這種情況,實(shí)時(shí)黑名單(簡(jiǎn)稱 RBL)技術(shù)應(yīng)運(yùn)而生,該技術(shù)結(jié)合 DNS 查詢實(shí)現(xiàn)對(duì)黑名單的自動(dòng)更新。(4) 郵件掃描技術(shù) [25] 如果郵件服務(wù)器能夠?qū)邮盏泥]件進(jìn)行掃描,并按照指定的規(guī)則對(duì)郵件進(jìn)行匹配,一旦接收的郵件和垃圾郵件匹配成功,就認(rèn)為本次接收的郵件是垃圾郵件并自動(dòng)刪除該郵件??梢愿鶕?jù)特有的垃圾郵件和合法消息來(lái)進(jìn)行定制。但這種技術(shù)要求反垃圾郵件系統(tǒng)預(yù)先和全部可能的發(fā)件人定下一個(gè)或多個(gè)秘密問(wèn)題及答案。(2) 第二種則是詳細(xì)的分類方法。表示方法為:P(C0)特征:(PC 00, PC01,…PC0i…PC0k1)P(C1)特征:(PC 10, PC11,…PC1i…PC1k1)P(C2)特征:(PC 20, PC21,…PC2i…PC2k1)…PCj 特征:(PC j0, PCj1,…PCji…PCjk1)…PCn1 特征:(PC n10, PCn11,…PCn1i…PCn1k1)其中 P(C0)代表樣本集的類別,PC 00 表示關(guān)鍵詞在各類別中出現(xiàn)的概率。 Wed, 01 Jun 2022 22:36:28 +0800 (CST)MessageID: From: xie 。下面是一個(gè)組成分類向量的例子:廣告類(免費(fèi)、優(yōu)惠、招聘、商機(jī)、聯(lián)系人…)訂票類(免費(fèi)、優(yōu)惠、訂票、申請(qǐng)、價(jià)格…)購(gòu)物類(免費(fèi)、優(yōu)惠、購(gòu)物、訂購(gòu)、價(jià)格…)……上面的例子中是對(duì)已經(jīng)分好類的垃圾郵件樣本集進(jìn)行分類向量的提取,一封中文電子郵件是由漢字組成的,有些詞條可以表示郵件樣本的類別的特征,例如:在訂票類別中,訂票、價(jià)格、申請(qǐng)等詞條就作為訂票類別中的敏感字符,它能代表這個(gè)類別的特征,( 免費(fèi)、優(yōu)惠、訂票、申請(qǐng)、價(jià)格…)構(gòu)成了訂票類的分類向量。 垃圾郵件分類向量概述目前常用分類方法有兩種:(1) 第一種是粗略的分類方法。(7) 反向域名驗(yàn)證技術(shù)對(duì)收到郵件的來(lái)源 IP 地址采用反向 DNS 查找驗(yàn)證真實(shí)性,如果反向 DNS 查找提供的域與郵件上的來(lái)源 IP 地址相符合,該郵件被接受,如果不符合,系統(tǒng)認(rèn)定該郵件是垃圾郵件予以拒絕
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1