freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于貝葉斯算法分類的反垃圾郵件系統的改進碩士學位論文-資料下載頁

2025-06-27 21:07本頁面
  

【正文】 這些垃圾郵件不僅消耗了電子郵件網關 75%的處理能力,使垃圾郵件使得網絡線路繁忙,服務器性能大打折扣;而且也浪費了員工的大量時間和精力。 反垃圾郵件成為了當前亟待解決的問題?,F在非技術手段有以下幾種:(1) 立法模式。立法模式是由國家和政府主導的模式,這種模式的基本做法是由國家通過立法的方法,從法律上確立網絡隱私保護的各項基本原則與各項具體的法律、規(guī)定和制度,并在此基礎上建立相應的司法或者行政措施。例如,一旦確認某個團體或個人發(fā)送垃圾郵件,那他將面臨法律的制裁與處罰。針對目前的垃圾郵件泛濫的形勢,反垃圾郵件立法的呼聲越來越高,但是反垃圾郵件立法也面臨一系列的問題。如垃圾郵件的定義,即到底什么樣的郵件是垃圾郵件。其次就是法律的執(zhí)行問題,即給予什么樣的處罰才是得當的,而且如果缺少國際合作,即使發(fā)現來自境外的垃圾郵件,也無法制裁。(2) 行業(yè)自律模式。行業(yè)控制方面主要是利用實時的黑名單服務來限制垃圾郵件的傳播。(3) 利用垃圾郵件過濾技術。近年來,有關垃圾郵件過濾技術的研究開始逐步興18起,相關的投入也越來越大,涌現了一大批相關產品,如果能從技術上解決垃圾郵件問題,那是最理想的垃圾郵件解決方法了 [21]。 常用反垃圾郵件技術 一般來說,反垃圾郵件的方法有服務器端和客戶端兩種。一般情況下,比較理想的方法是,在郵件服務器端直接將垃圾郵件屏蔽掉,這樣不僅用戶不會受到垃圾郵件的騷擾,而且服務器可以減少郵件的處理量,節(jié)約處理器資源和帶寬流量。但是,相當多的電子郵件服務提供商,并沒有把這件事做好,特別是一些不夠規(guī)范的免費電子郵件提供商(有些免費的電子郵件服務提供商甚至向別的廠商和公司收取費用直接往自己的免費用戶郵箱里投放廣告郵件)。如果是這樣,我們只能在客戶端這最后的一道防線上去抵擋垃圾郵件的進攻了。 客戶端垃圾郵件過濾技術在客戶端可以對以下幾種內容進行過濾 [22]:(1) 對發(fā)件人地址的過濾這項技術就是依據發(fā)件人地址進行判斷是否是垃圾郵件,例如不合法的郵件地址就會認為是垃圾郵件,如????@163. ,和一些不合規(guī)范的郵件地址及空地址,如lakdjfhkiu}lkdfnehgugnuoi,lkjsfuiern}。這些郵件將被判斷為垃圾郵件。(2) 對收件人地址的過濾大家可能會說,收件地址不就是我的郵箱地址嗎?這還需要過濾? 當然,收件人地址也是可以用來發(fā)送垃圾郵件的。這種情況就是考慮到郵件列表了,因為郵件列表在發(fā)送的時候,收件人地址只是一個列表的名稱,所以,雖然有些郵件收件人不是你,但是,是以郵件列表的形式發(fā)送的,所以,你還是會收到的。對于收件人地址的檢查和過濾也是必要的。(3) 對郵件主題的過濾這個應該算是比較重要的一個過濾了,一般一些垃圾郵件的主題還是有一些共同的特性的。比如前一段時間鬧的比較兇的 SoBig. F 病毒,一共以 9 個主題來發(fā)送病毒郵件,發(fā)件人和收件人地址都不確定,只要你過濾掉這 9 個主題,你就不會受到SoBig. F 病毒所發(fā)送的垃圾郵件騷擾了。(4) 對郵件內容關鍵字的過濾郵件內容的過濾一般以一個關鍵字詞或多個關鍵字詞為判斷依據。根據關鍵字詞的命中率來確認這封郵件是否是垃圾郵件。如果命中率超過了設置的閾值,就認為是垃圾郵件。同時關鍵字詞還可以是短語和短句。(5) 對郵件頭信息過濾郵件頭信息是記錄郵件投遞過程的原始信息,這一點對垃圾郵件有著非常重要的19意義。雖然垃圾郵件發(fā)送者在發(fā)送垃圾郵件的時候,可以利用各種的工具隨機偽造不同的收發(fā)件人、主題和內容,但是在郵件頭信息中,這些郵件還是有一些共同的信息的,主要是 IP、主機名、X標識。通過對這些信息的過濾,就可以把由同一地址發(fā)出的但收發(fā)信地址和主題隨機的垃圾郵件從眾多的郵件找出來。 服務器端垃圾郵件過濾技術在服務器端有以下幾種過濾技術:(1) 基于黑/白名單的過濾技術 黑名單技術的原理是管理員收集、歸納和整理垃圾郵件的發(fā)件人地址,并制作成一個地址列表,即所謂的黑名單。如果郵件的發(fā)件人與已知的垃圾郵件地址相同,就認為該郵件是垃圾郵件,并拒收該郵件。該方法的缺點是垃圾郵件基本上都是采用了偽造和變換發(fā)件人地址的手段,單靠管理員的手工處理根本不可能構造出一個及時有效的黑名單列表。白名單技術的原理與黑名單正好相反,其中列出了可信的郵件地址,凡是發(fā)件人地址符合其中地址的郵件,都會被認為是正常郵件而被放行。該方法的缺點是如果用戶希望收到來自某一地址的電子郵件,用戶必須事先設置允許接收這一地址郵件的規(guī)則。如果以前獲得批準的客戶改變了郵件地址,用戶必須將新地址寫入白名單,否則就收不到來自這位客戶的電子郵件。(2) 實時黑名單技術黑名單技術 [23]是人們收集垃圾郵件的地址,組成一個列表后應用到郵件服務器,郵件服務器在轉發(fā)過程中丟棄那些地址來自黑名單的郵件。黑名單技術的關鍵就是對黑名單列表的維護和更新?,F在垃圾郵件大量增加,如果靠使用者手動維護黑名單很難應付,針對這種情況,實時黑名單(簡稱 RBL)技術應運而生,該技術結合 DNS 查詢實現對黑名單的自動更新。具體來說一個使用 RBL 技術的軟件要確定某一 IP 地址是否應該被列入黑名單,會向黑名單服務器發(fā)出 DNS 查詢,黑名單服務器查詢黑名單后會將結果反饋給查詢計算機。目前國內支持地址黑名單的服務器比較多,很多郵件服務器軟件都是默認支持實時黑名單技術,但從實際的角度來看,這種方式并不是非常有效。該技術手段太單一,致命的弱點在于被放入黑名單的少量可疑主機數目和大量的垃圾郵件發(fā)送者不成比例,即使郵件服務器支持實時黑名單技術,依然會收到大量的垃圾郵件,無法全面封堵。(3) 基于靜態(tài)內容過濾 [24]技術靜態(tài)內容過濾實際上只對“規(guī)矩”的垃圾郵件有效,這些規(guī)矩的垃圾郵件常常是網絡營銷的廣告,有些更規(guī)矩的廣告在郵件主題上提示“ADV:” ,這種郵件其實反而不是最主要防范的郵件,如果用戶不想接收廣告郵件,只需簡單過濾郵件主題,發(fā)現 ADV 即拒收。例如一些詞匯“免費”被變成“ 免…費”或“免費”,令垃圾郵件20過濾防不勝防,同時導致了正常郵件如果使用了這些詞匯也被拒絕。因此,基于關鍵詞的郵件內容過濾技術在實用中會導致很高的誤判率。但在某些需要嚴格控制郵件內容的場合,有一定的使用價值。(4) 郵件掃描技術 [25] 如果郵件服務器能夠對接收的郵件進行掃描,并按照指定的規(guī)則對郵件進行匹配,一旦接收的郵件和垃圾郵件匹配成功,就認為本次接收的郵件是垃圾郵件并自動刪除該郵件。目前,郵件掃描檢查三個方面:郵件主題、郵件內容、郵件附件。郵件主題掃描的實現比較簡單,就是掃描接收的每一個郵件,對郵件主題的關鍵字進行過濾,凡是符合預定義關鍵字值的就認為是垃圾郵件。這種匹配一般都支持正則表達式的匹配方法,從而提高了掃描的執(zhí)行效率。目前,市場上常用的反垃圾郵件軟件提供此郵件主題掃描和郵件附件掃描功能,支持郵件內容掃描的反垃圾郵件軟件很少。在實施中很難對付會自動變化主題的垃圾郵件,帶來了很高的誤判率。(5) 基于貝葉斯分析垃圾郵件過濾技術垃圾郵件的貝葉斯分析技術,就是利用貝葉斯定理,以已知垃圾郵件和非垃圾郵件為樣本,通過對樣本郵件內容的分析和統計,來計算下一封郵件可能是垃圾郵件的概率。由此可以構造一種基于貝葉斯算法來實現垃圾郵件過濾 [26]??梢愿鶕赜械睦]件和合法消息來進行定制。由于貝葉斯算法預設的先驗概率是通過經驗來確定的,由此其預設值未必是最合適的,所以應增加自學習功能,通過不斷校正預設的先驗概率來提高郵件過濾的準確率。貝葉斯技術克服了傳統內容分析技術準確性低、誤判率高的缺陷,不需要預先搜集和編制關鍵詞表,可以實現對樣本的自動采集和學習,貝葉斯過濾器是目前比較好的過濾器,我們將在本文第三章對它進行詳細闡述。(6) 分布協作的內容指紋分析技術有些郵件使用假的郵件地址、偽造了郵件頭或利用了開放式轉發(fā)功能發(fā)送的。但每個收件人必須看了內容以后才知道該郵件是垃圾郵件,利用分布協作的內容指紋過濾方法對此類郵件有很好的過濾作用。 分布協作分析的主要原理:從郵件中提取出可以代表內容的指紋數據,不同的內容會產生不同的指紋,用這些指紋代表郵件,全球的兼容用戶會提交郵件的指紋,從服務器得到響應,以知道有多好封相同的郵件在全球傳播,這樣來識別郵件是否為垃圾郵件。(7) 反向域名驗證技術對收到郵件的來源 IP 地址采用反向 DNS 查找驗證真實性,如果反向 DNS 查找提供的域與郵件上的來源 IP 地址相符合,該郵件被接受,如果不符合,系統認定該郵件是垃圾郵件予以拒絕,但由于現在很多反向 DNS 目錄未被有效建立或無法正常21建立,造成反向域名驗證產生不可接受的高誤報率。(8) 質詢-回應技術質詢-回應技術是一種傳統的身份識別技術,這種技術就是識別方向被識別方問一些只有這兩方才可能知道正確答案的問題,通過被識別方回答的正誤來判斷被識別方的身份。但這種技術要求反垃圾郵件系統預先和全部可能的發(fā)件人定下一個或多個秘密問題及答案。很多系統會自動產生郵件,而這些自動產生郵件的系統,絕大多數都不具備回應質詢的能力。這就會是反垃圾郵件系統認為這些系統自動產生的郵件是偽裝過的郵件,被錯誤的丟棄。而要讓這些系統增加回應質詢的能力,需要做大量額外的工作。第三章垃圾郵件分類向量與特征向量垃圾郵件過濾問題可以看成是一個郵件分類問題,即把郵件看作為樣本,預先使用訓練樣本對分類器進行有指導的學習,然后用訓練好的分類器對新來的樣本進行分類。本章將介紹分類向量、特征向量、分類算法等問題。 垃圾郵件分類向量概述目前常用分類方法有兩種:(1) 第一種是粗略的分類方法。M 表示為郵件樣本集合,將郵件樣本集分為垃圾郵件集 M1 和非垃圾郵件集 M2 兩類,這種分類方法比較粗糙,容易丟失郵件特征細節(jié),導致對郵件的誤判。(2) 第二種則是詳細的分類方法。本文采用詳細的分類方法,首先分析垃圾郵件樣本集的內容對其進行訓練,根據內容的性質利用社會常識將垃圾郵件樣本集分為幾個類別,分別為C0、C C …C i…、C n1。例如廣告類、網上購物類、網上賺錢類等,由于該樣本集中有重復和相似的郵件,利用訓練集中的郵件與待分類的郵件內容進行匹配,如果匹配成功就把該郵件放到相應的類別中,構造每個類別中的分類向量并依據標準郵件集計算各類別的概率分布,在此基礎上,構造垃圾郵件的判斷算法。 垃圾郵件分類向量與特征向量的定義中文語言的特點和英語語言的特點在結構上有很大的差別:英文最小的表達意義的單元是英文單詞(word) ,也是書寫上的基本單元,可以很明顯簡單的從郵件中一個個分離出來;而對于中文語言來說,表達意義的最小單元是中文單詞,但是書寫上的基本單元是漢字,中文單詞無法直接從郵件中獲得,因為中文單詞之間沒有明確的分隔符,而且中文單詞的變化及其復雜,若無人的參與,機器自動進行單詞的切分本22身就是一個困難的問題。定義 :關鍵詞是垃圾郵件中的敏感字符,是一個類別中能表達該類別文本內容的詞條,即是該類別中具有代表性的詞條,我們把具有上述特征的關鍵詞稱為分類向量。表示方法為:C0 分類向量:(w 00,w 01,…w0i…w0k1)C1 分類向量:(w 10,w 11,…w1i…w1k1)C2 分類向量:(w 20,w 21,…w2i…w2k1)Cj 分類向量:(w j0,w j1,…wji…wjk1)…Cn1 分類向量:(w n10,w n11,…wn1i…wn1k1)其中 Ci 代表樣本集的類別,w ij 是類別中的關鍵詞。下面是一個組成分類向量的例子:廣告類(免費、優(yōu)惠、招聘、商機、聯系人…)訂票類(免費、優(yōu)惠、訂票、申請、價格…)購物類(免費、優(yōu)惠、購物、訂購、價格…)……上面的例子中是對已經分好類的垃圾郵件樣本集進行分類向量的提取,一封中文電子郵件是由漢字組成的,有些詞條可以表示郵件樣本的類別的特征,例如:在訂票類別中,訂票、價格、申請等詞條就作為訂票類別中的敏感字符,它能代表這個類別的特征,( 免費、優(yōu)惠、訂票、申請、價格…)構成了訂票類的分類向量。定義 :特征向量就是通過對已經分好類的樣本集進行處理,通過詞頻統計來計算關鍵詞在每個類別中出現的概率。表示方法為:P(C0)特征:(PC 00, PC01,…PC0i…PC0k1)P(C1)特征:(PC 10, PC11,…PC1i…PC1k1)P(C2)特征:(PC 20, PC21,…PC2i…PC2k1)…PCj 特征:(PC j0, PCj1,…PCji…PCjk1)…PCn1 特征:(PC n10, PCn11,…PCn1i…PCn1k1)其中 P(C0)代表樣本集的類別,PC 00 表示關鍵詞在各類別中出現的概率。23 分類方法 文本量的表示方法郵件過濾首先是將郵件表示成機器可計算的形式。一般將郵件的內容當成文本串來處理,然后獲得這個文本串的形式化表示。不論是抽取文本特征形成一個向量還是抽取文本特征形成一個其它的特殊結構,對文本的這種及其表示過程簡稱為文本表示。郵件的文本內容是指一封郵件中去掉頭格式后的郵件內容,文本量是指一封郵件中去掉郵件頭后所有文本內容的數量。以下面一封完整的郵件為例頭格式為:ReturnPath: Received: from ([])by (MIMEDefang) with ESMTP id NOQUEUEfor 。 Wed, 01 Jun 2022 22:36:28 +0800 (CST)MessageID: From:
點擊復制文檔內容
試題試卷相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1