freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于貝葉斯算法分類的反垃圾郵件系統(tǒng)的改進(jìn)畢業(yè)論文-資料下載頁

2025-06-27 20:55本頁面
  

【正文】 與 POP長春工業(yè)大學(xué)碩士學(xué)位論文13協(xié)議一樣。(3) 分離方式:郵件的一部分在 Mail 服務(wù)器端,一部分在客戶端。這與一些成熟的組件包應(yīng)用(如 Lotus Notes/Domino)的方式類似?,F(xiàn)在,IMAP 為很多客戶端電子郵件軟件所采納,如 Outlook Express、Netscape Messenger 等,支持 IMAP 的服務(wù)器端的軟件也越來越多,如CriticalPath、Eudora、Sendmail 等。但是實(shí)現(xiàn) IMAP 也有不足。首先,在利用服務(wù)器磁盤資源方面 IMAP 不如POP3,由于使用 POP 時(shí)服務(wù)器端的郵件被下載到客戶機(jī)的同時(shí)會(huì)刪除,因而不占用額外空間用以存放舊的郵件。而 IMAP 服務(wù)器將保持舊的郵件,占用了額外空間,而且需要定期地刪除舊郵件。同時(shí),由于用戶查閱信息標(biāo)題和決定下載哪些附件,也需要一定時(shí)間,因此連接時(shí)間也比 POP 方式長。在應(yīng)用方面,由于 IMAP 比較復(fù)雜,給開發(fā)者開發(fā)服務(wù)器和客戶機(jī)的軟件帶來一些難題。 非技術(shù)手段反垃圾郵件垃圾郵件正以每年 5%的速度遞增。這意味著人們每周都會(huì)收到數(shù)千封不請(qǐng)自來的電子郵件,這些垃圾郵件不僅消耗了電子郵件網(wǎng)關(guān) 75%的處理能力,使垃圾郵件使得網(wǎng)絡(luò)線路繁忙,服務(wù)器性能大打折扣;而且也浪費(fèi)了員工的大量時(shí)間和精力。 反垃圾郵件成為了當(dāng)前亟待解決的問題?,F(xiàn)在非技術(shù)手段有以下幾種:(1) 立法模式。立法模式是由國家和政府主導(dǎo)的模式,這種模式的基本做法是由國家通過立法的方法,從法律上確立網(wǎng)絡(luò)隱私保護(hù)的各項(xiàng)基本原則與各項(xiàng)具體的法律、規(guī)定和制度,并在此基礎(chǔ)上建立相應(yīng)的司法或者行政措施。例如,一旦確認(rèn)某個(gè)團(tuán)體或個(gè)人發(fā)送垃圾郵件,那他將面臨法律的制裁與處罰。針對(duì)目前的垃圾郵件泛濫的形勢,反垃圾郵件立法的呼聲越來越高,但是反垃圾郵件立法也面臨一系列的問題。如垃圾郵件的定義,即到底什么樣的郵件是垃圾郵件。其次就是法律的執(zhí)行問題,即給予什么樣的處罰才是得當(dāng)?shù)?,而且如果缺少國際合作,即使發(fā)現(xiàn)來自境外的垃圾郵件,也無法制裁。(2) 行業(yè)自律模式。行業(yè)控制方面主要是利用實(shí)時(shí)的黑名單服務(wù)來限制垃圾郵件的傳播。(3) 利用垃圾郵件過濾技術(shù)。近年來,有關(guān)垃圾郵件過濾技術(shù)的研究開始逐步興起,相關(guān)的投入也越來越大,涌現(xiàn)了一大批相關(guān)產(chǎn)品,如果能從技術(shù)上解決垃圾郵件問題,那是最理想的垃圾郵件解決方法了 [21]。 常用反垃圾郵件技術(shù) 一般來說,反垃圾郵件的方法有服務(wù)器端和客戶端兩種。一般情況下,比較理想長春工業(yè)大學(xué)碩士學(xué)位論文14的方法是,在郵件服務(wù)器端直接將垃圾郵件屏蔽掉,這樣不僅用戶不會(huì)受到垃圾郵件的騷擾,而且服務(wù)器可以減少郵件的處理量,節(jié)約處理器資源和帶寬流量。但是,相當(dāng)多的電子郵件服務(wù)提供商,并沒有把這件事做好,特別是一些不夠規(guī)范的免費(fèi)電子郵件提供商(有些免費(fèi)的電子郵件服務(wù)提供商甚至向別的廠商和公司收取費(fèi)用直接往自己的免費(fèi)用戶郵箱里投放廣告郵件)。如果是這樣,我們只能在客戶端這最后的一道防線上去抵擋垃圾郵件的進(jìn)攻了。 客戶端垃圾郵件過濾技術(shù)在客戶端可以對(duì)以下幾種內(nèi)容進(jìn)行過濾 [22]:(1) 對(duì)發(fā)件人地址的過濾這項(xiàng)技術(shù)就是依據(jù)發(fā)件人地址進(jìn)行判斷是否是垃圾郵件,例如不合法的郵件地址就會(huì)認(rèn)為是垃圾郵件,如????@163. ,和一些不合規(guī)范的郵件地址及空地址,如lakdjfhkiu}lkdfnehgugnuoi,lkjsfuiern}。這些郵件將被判斷為垃圾郵件。(2) 對(duì)收件人地址的過濾大家可能會(huì)說,收件地址不就是我的郵箱地址嗎?這還需要過濾? 當(dāng)然,收件人地址也是可以用來發(fā)送垃圾郵件的。這種情況就是考慮到郵件列表了,因?yàn)猷]件列表在發(fā)送的時(shí)候,收件人地址只是一個(gè)列表的名稱,所以,雖然有些郵件收件人不是你,但是,是以郵件列表的形式發(fā)送的,所以,你還是會(huì)收到的。對(duì)于收件人地址的檢查和過濾也是必要的。(3) 對(duì)郵件主題的過濾這個(gè)應(yīng)該算是比較重要的一個(gè)過濾了,一般一些垃圾郵件的主題還是有一些共同的特性的。比如前一段時(shí)間鬧的比較兇的 SoBig. F 病毒,一共以 9 個(gè)主題來發(fā)送病毒郵件,發(fā)件人和收件人地址都不確定,只要你過濾掉這 9 個(gè)主題,你就不會(huì)受到SoBig. F 病毒所發(fā)送的垃圾郵件騷擾了。(4) 對(duì)郵件內(nèi)容關(guān)鍵字的過濾郵件內(nèi)容的過濾一般以一個(gè)關(guān)鍵字詞或多個(gè)關(guān)鍵字詞為判斷依據(jù)。根據(jù)關(guān)鍵字詞的命中率來確認(rèn)這封郵件是否是垃圾郵件。如果命中率超過了設(shè)置的閾值,就認(rèn)為是垃圾郵件。同時(shí)關(guān)鍵字詞還可以是短語和短句。(5) 對(duì)郵件頭信息過濾郵件頭信息是記錄郵件投遞過程的原始信息,這一點(diǎn)對(duì)垃圾郵件有著非常重要的意義。雖然垃圾郵件發(fā)送者在發(fā)送垃圾郵件的時(shí)候,可以利用各種的工具隨機(jī)偽造不同的收發(fā)件人、主題和內(nèi)容,但是在郵件頭信息中,這些郵件還是有一些共同的信息的,主要是 IP、主機(jī)名、X標(biāo)識(shí)。通過對(duì)這些信息的過濾,就可以把由同一地址發(fā)出的但收發(fā)信地址和主題隨機(jī)的垃圾郵件從眾多的郵件找出來。長春工業(yè)大學(xué)碩士學(xué)位論文15 服務(wù)器端垃圾郵件過濾技術(shù)在服務(wù)器端有以下幾種過濾技術(shù):(1) 基于黑/白名單的過濾技術(shù) 黑名單技術(shù)的原理是管理員收集、歸納和整理垃圾郵件的發(fā)件人地址,并制作成一個(gè)地址列表,即所謂的黑名單。如果郵件的發(fā)件人與已知的垃圾郵件地址相同,就認(rèn)為該郵件是垃圾郵件,并拒收該郵件。該方法的缺點(diǎn)是垃圾郵件基本上都是采用了偽造和變換發(fā)件人地址的手段,單靠管理員的手工處理根本不可能構(gòu)造出一個(gè)及時(shí)有效的黑名單列表。白名單技術(shù)的原理與黑名單正好相反,其中列出了可信的郵件地址,凡是發(fā)件人地址符合其中地址的郵件,都會(huì)被認(rèn)為是正常郵件而被放行。該方法的缺點(diǎn)是如果用戶希望收到來自某一地址的電子郵件,用戶必須事先設(shè)置允許接收這一地址郵件的規(guī)則。如果以前獲得批準(zhǔn)的客戶改變了郵件地址,用戶必須將新地址寫入白名單,否則就收不到來自這位客戶的電子郵件。(2) 實(shí)時(shí)黑名單技術(shù)黑名單技術(shù) [23]是人們收集垃圾郵件的地址,組成一個(gè)列表后應(yīng)用到郵件服務(wù)器,郵件服務(wù)器在轉(zhuǎn)發(fā)過程中丟棄那些地址來自黑名單的郵件。黑名單技術(shù)的關(guān)鍵就是對(duì)黑名單列表的維護(hù)和更新。現(xiàn)在垃圾郵件大量增加,如果靠使用者手動(dòng)維護(hù)黑名單很難應(yīng)付,針對(duì)這種情況,實(shí)時(shí)黑名單(簡稱 RBL)技術(shù)應(yīng)運(yùn)而生,該技術(shù)結(jié)合 DNS 查詢實(shí)現(xiàn)對(duì)黑名單的自動(dòng)更新。具體來說一個(gè)使用 RBL 技術(shù)的軟件要確定某一 IP 地址是否應(yīng)該被列入黑名單,會(huì)向黑名單服務(wù)器發(fā)出 DNS 查詢,黑名單服務(wù)器查詢黑名單后會(huì)將結(jié)果反饋給查詢計(jì)算機(jī)。目前國內(nèi)支持地址黑名單的服務(wù)器比較多,很多郵件服務(wù)器軟件都是默認(rèn)支持實(shí)時(shí)黑名單技術(shù),但從實(shí)際的角度來看,這種方式并不是非常有效。該技術(shù)手段太單一,致命的弱點(diǎn)在于被放入黑名單的少量可疑主機(jī)數(shù)目和大量的垃圾郵件發(fā)送者不成比例,即使郵件服務(wù)器支持實(shí)時(shí)黑名單技術(shù),依然會(huì)收到大量的垃圾郵件,無法全面封堵。(3) 基于靜態(tài)內(nèi)容過濾 [24]技術(shù)靜態(tài)內(nèi)容過濾實(shí)際上只對(duì)“規(guī)矩”的垃圾郵件有效,這些規(guī)矩的垃圾郵件常常是網(wǎng)絡(luò)營銷的廣告,有些更規(guī)矩的廣告在郵件主題上提示“ADV:” ,這種郵件其實(shí)反而不是最主要防范的郵件,如果用戶不想接收廣告郵件,只需簡單過濾郵件主題,發(fā)現(xiàn) ADV 即拒收。例如一些詞匯“免費(fèi)”被變成“ 免…費(fèi)”或“免費(fèi)”,令垃圾郵件過濾防不勝防,同時(shí)導(dǎo)致了正常郵件如果使用了這些詞匯也被拒絕。因此,基于關(guān)鍵詞的郵件內(nèi)容過濾技術(shù)在實(shí)用中會(huì)導(dǎo)致很高的誤判率。但在某些需要嚴(yán)格控制郵件內(nèi)容的場合,有一定的使用價(jià)值。(4) 郵件掃描技術(shù) [25] 如果郵件服務(wù)器能夠?qū)邮盏泥]件進(jìn)行掃描,并按照指定的規(guī)則對(duì)郵件進(jìn)行匹長春工業(yè)大學(xué)碩士學(xué)位論文16配,一旦接收的郵件和垃圾郵件匹配成功,就認(rèn)為本次接收的郵件是垃圾郵件并自動(dòng)刪除該郵件。目前,郵件掃描檢查三個(gè)方面:郵件主題、郵件內(nèi)容、郵件附件。郵件主題掃描的實(shí)現(xiàn)比較簡單,就是掃描接收的每一個(gè)郵件,對(duì)郵件主題的關(guān)鍵字進(jìn)行過濾,凡是符合預(yù)定義關(guān)鍵字值的就認(rèn)為是垃圾郵件。這種匹配一般都支持正則表達(dá)式的匹配方法,從而提高了掃描的執(zhí)行效率。目前,市場上常用的反垃圾郵件軟件提供此郵件主題掃描和郵件附件掃描功能,支持郵件內(nèi)容掃描的反垃圾郵件軟件很少。在實(shí)施中很難對(duì)付會(huì)自動(dòng)變化主題的垃圾郵件,帶來了很高的誤判率。(5) 基于貝葉斯分析垃圾郵件過濾技術(shù)垃圾郵件的貝葉斯分析技術(shù),就是利用貝葉斯定理,以已知垃圾郵件和非垃圾郵件為樣本,通過對(duì)樣本郵件內(nèi)容的分析和統(tǒng)計(jì),來計(jì)算下一封郵件可能是垃圾郵件的概率。由此可以構(gòu)造一種基于貝葉斯算法來實(shí)現(xiàn)垃圾郵件過濾 [26]??梢愿鶕?jù)特有的垃圾郵件和合法消息來進(jìn)行定制。由于貝葉斯算法預(yù)設(shè)的先驗(yàn)概率是通過經(jīng)驗(yàn)來確定的,由此其預(yù)設(shè)值未必是最合適的,所以應(yīng)增加自學(xué)習(xí)功能,通過不斷校正預(yù)設(shè)的先驗(yàn)概率來提高郵件過濾的準(zhǔn)確率。貝葉斯技術(shù)克服了傳統(tǒng)內(nèi)容分析技術(shù)準(zhǔn)確性低、誤判率高的缺陷,不需要預(yù)先搜集和編制關(guān)鍵詞表,可以實(shí)現(xiàn)對(duì)樣本的自動(dòng)采集和學(xué)習(xí),貝葉斯過濾器是目前比較好的過濾器,我們將在本文第三章對(duì)它進(jìn)行詳細(xì)闡述。(6) 分布協(xié)作的內(nèi)容指紋分析技術(shù)有些郵件使用假的郵件地址、偽造了郵件頭或利用了開放式轉(zhuǎn)發(fā)功能發(fā)送的。但每個(gè)收件人必須看了內(nèi)容以后才知道該郵件是垃圾郵件,利用分布協(xié)作的內(nèi)容指紋過濾方法對(duì)此類郵件有很好的過濾作用。 分布協(xié)作分析的主要原理:從郵件中提取出可以代表內(nèi)容的指紋數(shù)據(jù),不同的內(nèi)容會(huì)產(chǎn)生不同的指紋,用這些指紋代表郵件,全球的兼容用戶會(huì)提交郵件的指紋,從服務(wù)器得到響應(yīng),以知道有多好封相同的郵件在全球傳播,這樣來識(shí)別郵件是否為垃圾郵件。(7) 反向域名驗(yàn)證技術(shù)對(duì)收到郵件的來源 IP 地址采用反向 DNS 查找驗(yàn)證真實(shí)性,如果反向 DNS 查找提供的域與郵件上的來源 IP 地址相符合,該郵件被接受,如果不符合,系統(tǒng)認(rèn)定該郵件是垃圾郵件予以拒絕,但由于現(xiàn)在很多反向 DNS 目錄未被有效建立或無法正常建立,造成反向域名驗(yàn)證產(chǎn)生不可接受的高誤報(bào)率。(8) 質(zhì)詢-回應(yīng)技術(shù)質(zhì)詢-回應(yīng)技術(shù)是一種傳統(tǒng)的身份識(shí)別技術(shù),這種技術(shù)就是識(shí)別方向被識(shí)別方問一些只有這兩方才可能知道正確答案的問題,通過被識(shí)別方回答的正誤來判斷被識(shí)別方的身份。但這種技術(shù)要求反垃圾郵件系統(tǒng)預(yù)先和全部可能的發(fā)件人定下一個(gè)或多個(gè)長春工業(yè)大學(xué)碩士學(xué)位論文17秘密問題及答案。很多系統(tǒng)會(huì)自動(dòng)產(chǎn)生郵件,而這些自動(dòng)產(chǎn)生郵件的系統(tǒng),絕大多數(shù)都不具備回應(yīng)質(zhì)詢的能力。這就會(huì)是反垃圾郵件系統(tǒng)認(rèn)為這些系統(tǒng)自動(dòng)產(chǎn)生的郵件是偽裝過的郵件,被錯(cuò)誤的丟棄。而要讓這些系統(tǒng)增加回應(yīng)質(zhì)詢的能力,需要做大量額外的工作。第三章垃圾郵件分類向量與特征向量垃圾郵件過濾問題可以看成是一個(gè)郵件分類問題,即把郵件看作為樣本,預(yù)先使用訓(xùn)練樣本對(duì)分類器進(jìn)行有指導(dǎo)的學(xué)習(xí),然后用訓(xùn)練好的分類器對(duì)新來的樣本進(jìn)行分類。本章將介紹分類向量、特征向量、分類算法等問題。 垃圾郵件分類向量概述目前常用分類方法有兩種:(1) 第一種是粗略的分類方法。M 表示為郵件樣本集合,將郵件樣本集分為垃圾郵件集 M1 和非垃圾郵件集 M2 兩類,這種分類方法比較粗糙,容易丟失郵件特征細(xì)節(jié),導(dǎo)致對(duì)郵件的誤判。(2) 第二種則是詳細(xì)的分類方法。本文采用詳細(xì)的分類方法,首先分析垃圾郵件樣本集的內(nèi)容對(duì)其進(jìn)行訓(xùn)練,根據(jù)內(nèi)容的性質(zhì)利用社會(huì)常識(shí)將垃圾郵件樣本集分為幾個(gè)類別,分別為C0、C C …C i…、C n1。例如廣告類、網(wǎng)上購物類、網(wǎng)上賺錢類等,由于該樣本集中有重復(fù)和相似的郵件,利用訓(xùn)練集中的郵件與待分類的郵件內(nèi)容進(jìn)行匹配,如果匹配成功就把該郵件放到相應(yīng)的類別中,構(gòu)造每個(gè)類別中的分類向量并依據(jù)標(biāo)準(zhǔn)郵件集計(jì)算各類別的概率分布,在此基礎(chǔ)上,構(gòu)造垃圾郵件的判斷算法。 垃圾郵件分類向量與特征向量的定義中文語言的特點(diǎn)和英語語言的特點(diǎn)在結(jié)構(gòu)上有很大的差別:英文最小的表達(dá)意義的單元是英文單詞(word) ,也是書寫上的基本單元,可以很明顯簡單的從郵件中一個(gè)個(gè)分離出來;而對(duì)于中文語言來說,表達(dá)意義的最小單元是中文單詞,但是書寫上的基本單元是漢字,中文單詞無法直接從郵件中獲得,因?yàn)橹形膯卧~之間沒有明確的分隔符,而且中文單詞的變化及其復(fù)雜,若無人的參與,機(jī)器自動(dòng)進(jìn)行單詞的切分本身就是一個(gè)困難的問題。定義 :關(guān)鍵詞是垃圾郵件中的敏感字符,是一個(gè)類別中能表達(dá)該類別文本內(nèi)容的詞條,即是該類別中具有代表性的詞條,我們把具有上述特征的關(guān)鍵詞稱為分類向量。表示方法為:長春工業(yè)大學(xué)碩士學(xué)位論文18C0 分類向量:(w 00,w 01,…w0i…w0k1)C1 分類向量:(w 10,w 11,…w1i…w1k1)C2 分類向量:(w 20,w 21,…w2i…w2k1)Cj 分類向量:(w j0,w j1,…wji…wjk1)…Cn1 分類向量:(w n10,w n11,…wn1i…wn1k1)其中 Ci 代表樣本集的類別,w ij 是類別中的關(guān)鍵詞。下面是一個(gè)組成分類向量的例子:廣告類(免費(fèi)、優(yōu)惠、招聘、商機(jī)、聯(lián)系人…)訂票類(免費(fèi)、優(yōu)惠、訂票、申請(qǐng)、價(jià)格…)購物類(免費(fèi)、優(yōu)惠、購物、訂購、價(jià)格…)……上面的例子中是對(duì)已經(jīng)分好類的垃圾郵件樣本集進(jìn)行分類向量的提取,一封中文電子郵件是由漢字組成的,有些詞條可以表示郵件樣本的類別的特征,例如:在訂票類別中,訂票、價(jià)格、申請(qǐng)等詞條就作為訂票類別中的敏感字符,它能代表這個(gè)類別的特征,( 免費(fèi)、優(yōu)惠、訂票、申請(qǐng)、價(jià)格…)構(gòu)成了訂票類的分類向量。定義 :特征向量就是通過對(duì)已經(jīng)分好類的樣本集進(jìn)行處理,通過詞頻統(tǒng)計(jì)來計(jì)算關(guān)鍵詞在每個(gè)類別中出現(xiàn)的概率。表示方法為:P
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1