freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于asp的反垃圾郵件管理系統(tǒng)的設(shè)計(jì)—計(jì)算機(jī)(論文)(編輯修改稿)

2025-01-11 01:24 本頁面
 

【文章內(nèi)容簡介】 按照步驟生成新的 TOKEN 串,查詢 hashtable_probability 得到該 TOKEN 串的鍵值。假設(shè)由該郵件共得到 N個 TOKEN 串, t 1t 2t 3?t n ,則 hashtable_probability 中對應(yīng)的值為 P1, P2, P3, ? Pn, P{S/t 1,t 2,t 3,?t n}表示在郵件同時(shí)出現(xiàn)多個 TOKEN 串t 1,t 2,t 3,?t n 時(shí) ,該郵件為垃圾郵件的概率,由復(fù)合概率公式可得 : P{S/t 1t 2t 3?t n}=( P1 * P2*? * Pn)/ [P1 * P2*? * Pn + (1 P1 )*(1 P2)*? *(1 Pn)] ,當(dāng) P{S/t 1,t 2,t 3,?t n }超 過預(yù)定閾值時(shí),就可以判斷該郵件為垃圾郵件。 貝葉斯過濾算法舉例 例如:一封含有 “ 法輪功 ” 字樣的垃圾郵件 A 和 一封含有 “ 法律 ” 字樣的非垃圾郵件 B。 根據(jù)郵件 A生成 hashtable_ bad,該哈希表中的記錄為: 法: 1次 輪: 1次 功: 1次 計(jì)算得在本表中: 法出現(xiàn)的概率為 輪出現(xiàn)的概率為 功出現(xiàn)的概率為 根據(jù)郵件 B生成 hashtable_good,該哈希表中的記錄為: 法: 1 律: 1 計(jì)算得在本表中: 法出現(xiàn)的概率為 律出現(xiàn)的概率為 綜合考慮兩個哈希表,共有四個 TOKEN 串: 法 輪 功 律 當(dāng)郵件中出現(xiàn)“法”時(shí),該郵件為垃圾郵件的概率為: P=( +) = 出現(xiàn)“輪”時(shí): P=( +0) =1 出現(xiàn)“功“時(shí): P=( +0) =1 出現(xiàn)“律”時(shí) P=0/( 0+) =0; 第 10 頁 共 22 頁 由此可得第三個哈希表 : hashtable_probability 其數(shù)據(jù)為: 法: 輪: 1 功: 1 律: 0 當(dāng)新到一封含有“功律”的郵件時(shí),我們可得到兩個 TOKEN 串,功 律 查詢哈希表 hashtable_probability 可得: P(垃圾郵件 |功) =1 P(垃圾郵件 |律) =0 此時(shí)該郵件為垃圾郵件的可能性為: P=( 0*1) /[0*1+( 10) *( 11) ]=0 由此可推出該郵件為非垃圾郵件。 貝葉斯過濾模塊劃分 針對貝葉斯過濾的流程以及其所需要的功能,可以把整個過濾從功能上分為郵件預(yù)處理 、 貝葉斯算法實(shí)現(xiàn) 、 數(shù)據(jù)庫訪問 、 過濾主邏輯幾個主要模塊,系統(tǒng)結(jié)構(gòu)如下圖所示: 圖 43 貝葉斯過濾系統(tǒng)結(jié)構(gòu)圖 郵件預(yù)處理模塊:這個模塊主要負(fù)責(zé)讀取郵件,對郵件進(jìn)行編解碼,去 html的 tag 等; 貝葉斯算法模塊:這個模塊主要的功能是對郵件文本向量化,統(tǒng)計(jì)特征向量詞出現(xiàn)的次數(shù),分類器的訓(xùn)練 、 調(diào)整 、 更新,新郵件的過濾等; 過濾主邏輯模塊 郵件預(yù)處理模塊 貝葉斯算法模塊 數(shù)據(jù)庫訪問模塊 第 11 頁 共 22 頁 數(shù)據(jù)庫訪問模塊:在文本向量化,統(tǒng)計(jì)頻率和計(jì)算概率時(shí)需要訪問數(shù)據(jù)庫,這個模塊主要對數(shù)據(jù)庫進(jìn)行訪問操作; 過濾主邏輯模塊:這個模塊負(fù)責(zé)調(diào)用其余各個模塊的功能,實(shí)現(xiàn)垃圾郵件過濾處理的主邏輯。 5 系統(tǒng)工作流程和詳細(xì)設(shè)計(jì) 5. 1 系統(tǒng)工作流程圖 系統(tǒng)服務(wù)工作流程圖如圖 51所示: 圖 51 系統(tǒng)服務(wù)工作流程圖 5. 2 郵件統(tǒng)計(jì)設(shè)計(jì) 進(jìn)入反垃圾郵件管理系統(tǒng)就可直觀的顯示收件夾和垃圾郵件夾中郵件的數(shù)目,并可點(diǎn)擊進(jìn)入瀏覽郵件,如果各種過濾策略啟動,收到的郵件滿足黑名單 、關(guān)鍵字 、 貝葉斯過濾的條件,不滿足白名單過濾的條件將會被顯示在垃圾郵件夾里,正常郵件會被顯示在垃圾郵件夾里,郵件統(tǒng)計(jì)界面如圖 52 所示: 郵件處理界面 讀郵件 寫郵件 過濾 設(shè)置 黑白名單過濾 主 題 關(guān)鍵字過濾 貝葉斯過濾 加入編碼 解碼 第 12 頁 共 22 頁 圖 52 郵件統(tǒng)計(jì) 5. 3 收件夾設(shè)計(jì) 被過濾后的正常郵件被顯示在收件夾內(nèi),顯示了寄件人、日期和郵件主題,可對郵件進(jìn)行刪除和內(nèi)容查看操作。如圖 53 所示: 圖 53 收件夾 點(diǎn)擊郵件主題,進(jìn)入郵件瀏覽界面,如下圖所示: 圖 54 郵件內(nèi)容查看 第 13 頁 共 22 頁 5. 4 反垃圾功能設(shè)計(jì) 黑白名單過濾 此部分完成黑白名單的添加 、 修改 、 刪除操作,如果收到黑名單中的地址發(fā)來的郵件就進(jìn)行過濾顯示在垃圾郵件夾里,如果收到白名單中的地址發(fā)來的郵件就直接顯示在收件夾內(nèi),黑名單界面如下圖所示: 圖 55 黑名單地址 白名單顯示界面如下圖所示: 圖 56 白名單地址 白名單添加界面如下圖所示: 圖 57 白名單添加 黑名單過濾的代碼如下: rem 通過黑名單過濾 function black_leach(add) sqlb = select * from black_mailadd where mailadd= 39。amp。add amp。39。 set rsb = () sqlb,conn,1 if then black_leach=true 39。 不在黑名單里,不被過濾 else black_leach=false 39。在黑名單里,被過濾 end if set rsb=nothing end function 第 14 頁 共 22 頁 主題 關(guān)鍵字過濾 主題關(guān)鍵字添加界面: 圖 58 主題關(guān)鍵字添加 完成主題關(guān)鍵字的添加后,如果收到的郵件標(biāo)題中含有要過濾的關(guān)鍵字就顯示在垃圾郵件夾中,方便用戶有選擇的查看和刪除,添加完成后出現(xiàn)以下界面,可以向數(shù)據(jù)庫中添加 、 修改 、 刪除主題關(guān)鍵字,如圖所示: 圖 59 主題關(guān)鍵字設(shè)置 主題關(guān)鍵字過濾核心代碼如下: rem 對標(biāo)題進(jìn)行分詞 ,并查詢單詞中是否有被過濾的關(guān)鍵字 :subjectleach function sub_leach(strf) dim strtemp strf=Trim(strf) strf=strfamp。 strtemp= for i =1 to len(strf) if mid(strf,i,1) then strtemp=strtempamp。mid(strf,i,1) else sqls=select * from key_word where word= 39。amp。 strtemp amp。39。 set rss = () sqls,conn,1,1 if not then sub_leach=false 39。含有關(guān)鍵字 ,被過濾 exit function else strtemp= end if end if next 第 15 頁 共 22 頁 sub_leach=true 39。不含有關(guān)鍵字,不被過濾 end function 貝葉斯過濾 此部分完成貝葉斯過濾 閾 值的設(shè)定、非垃圾郵件樣本集和垃圾郵件樣本集的學(xué)習(xí),并生成哈希概率表,如果收到一封郵件,計(jì)算得到的垃圾郵件概率大于預(yù)先設(shè)定好的 閾 值,就把它顯示在垃圾郵件夾中, 閾 值設(shè)置和非垃圾郵件樣本集學(xué)習(xí)的界面如下: 圖 510 閾值設(shè)置和非垃圾郵件樣本集學(xué)習(xí) 垃圾郵件 樣本集的學(xué)習(xí)如下圖所示: 圖 511 垃圾郵件樣本集學(xué)習(xí) 兩個樣本集學(xué)習(xí)完成后哈希概率表生成的界面如下圖所示: 圖 512 哈希概率表生成 所有任務(wù)完成后的出現(xiàn)如下界面: 圖 513 任務(wù)完成 第 16 頁 共 22 頁 1. 對非垃圾郵件集進(jìn)行分詞 ,并進(jìn)行詞頻計(jì)算的代碼如下: sqld=select * from drop_word where word= 39。amp。 strtemp amp。39。 set rs = () sqld,conn,1,1 if then 39。不在 dropword 里 sqlh=select token,good_time from hash_all where token= 39。amp。 strtemp amp。39。 sqlh,conn,1,3 if then39。添加到 hash 表里, insert into hash_all(token,good_time) values(39。amp。strtempamp。39。,39。139。) rs(good_time)=rs(good_time)+1 39。rs(good_time)的值加 1 2. 計(jì)算非垃圾郵件集中各 token 串出現(xiàn)的概率的代碼如下: set rs = () sql=select good_time,good_pro from hash_all where good_time0 sql,conn,1,3 r_t= do until i=rs(good_time)/r_t i=int(i*1000)/1000 rs(good_pro)=i 3. 構(gòu)造 hash_pro 表的代碼如下: function make_pro set rss=() sqls=select token,good_pro,bad_pro from hash_all sqls,conn,1,3 do until str=rss(token) i=rss(bad_pro)/(rss(bad_pro)+rss(good_pro)) i=int(i*1000)/1000 insert into hash_pro values(39。amp。stramp。39。,39。amp。iamp。39。) loop 第 17 頁 共 22 頁 end function 過濾參數(shù)設(shè)置 此模塊可以啟動和停止過濾策略,對四種過濾規(guī)則進(jìn)行設(shè)定,界面如圖 514所示 圖 514 過濾參數(shù)設(shè)置 6 測試與分析 6. 1 系統(tǒng)測試 1. 黑白名單功能測試:在黑名單中加入要過濾的郵件 地址,在白名單中加入允許放行的郵件地址,啟動黑白名單功能,發(fā)送兩封郵件,前一封郵件地址在黑名單中,后一封郵件地址在白名單中,發(fā)信人是前者的郵件被顯示在垃圾郵件夾中,發(fā)信人是后者的郵件被顯示在收件夾中,測試成功。 2. 主題關(guān)鍵字過濾測試:添加要過濾的關(guān)鍵字,啟動主題關(guān)鍵字過濾功能,發(fā)送一封標(biāo)題中含有過濾關(guān)鍵字的郵件,該郵件被顯示在垃圾郵件夾里,測試成功。 3. 貝葉斯過濾測試:啟動貝葉斯過濾功能,在文本 中寫入非垃圾郵件樣本集,在文本 中寫入垃圾郵件樣本集,對 和 進(jìn)行學(xué)習(xí),分析計(jì)算得到 哈希概率表,發(fā)送一封含有這兩個樣本集字串的郵件,設(shè)定一個閾值,垃圾郵件概率超過這個閾值郵件被顯示在垃圾郵件夾里,小于這個閾值郵件被顯示在收件夾里,測試成功。測試中我在 中寫入了 fa、 lv 兩個字串,在 中寫入 fa、 lun、 gong 三個字串,經(jīng)過學(xué)習(xí)得到下圖所示的數(shù)據(jù)表: 圖 61 hash_all數(shù)據(jù)表 第 18 頁 共 22 頁 生成的哈希概率表如下圖所示: 圖 62 哈希概率表 當(dāng)發(fā)送一封郵件內(nèi)容是 fa lun mail 的郵件時(shí),計(jì)算得到的垃圾郵件概率大于預(yù)先設(shè)定的閾值 95,該郵件被顯示在垃圾郵件夾中。 點(diǎn)擊 郵件瀏覽界面中對郵件進(jìn)行 bayes 分析的按鈕可以顯示 bayes 分析的各項(xiàng)指標(biāo),如下圖所示: 圖 63 bayes 分析 6. 2 設(shè)計(jì)中的難點(diǎn)問題 。主要包括以下兩個方面的內(nèi)容: (1)提供用戶界面給用戶修改相關(guān)參數(shù),以完成個性化定制。 (2)在系統(tǒng)的使用過程中,考慮到用戶的實(shí)際情況,應(yīng)該方便的允許用戶隨時(shí)開啟或關(guān)閉郵件過濾功能。 針對此問題我設(shè)計(jì)了一個參數(shù)設(shè)置模塊來根據(jù)用戶的需要開啟關(guān)閉不同的過濾規(guī)則。 第 19 頁 共 22 頁 2. 特征串的選取 特征串選取好壞將決定最終的過濾效果。特征 串詞庫不是靜態(tài)建立的,而是根據(jù)垃圾郵件集和非垃圾郵件集動態(tài)變化的,這樣才能保證其一定的智能性和不斷的學(xué)習(xí)能力。因此需要考慮多種情況,準(zhǔn)確的提取垃圾郵件集合和非垃圾郵件集合中的特征信息,從而建立比較完善的特征串詞庫。對英文郵件, token 串的選取不能僅簡單的以單詞為分解目標(biāo)。而應(yīng)該考慮到各種變化的情況,比如字母大小寫 ,字母的異化。 6. 3 三種過濾技術(shù)分析 黑白名單技術(shù)占用較少的計(jì)算機(jī)資源,易于實(shí)施,但需要手動維護(hù)郵件地址清單,此方案在成熟的垃圾郵件解決方案中只起補(bǔ)充作用。 關(guān)鍵字過濾是一個簡單但是有效的阻斷 絕大多數(shù)垃圾郵件的方法,其優(yōu)點(diǎn)是簡單易構(gòu)造 、 易實(shí)現(xiàn) 、 可靠性高。而缺點(diǎn)是:必須經(jīng)常對關(guān)鍵字進(jìn)行更改和產(chǎn)生較多誤報(bào)的情況。 貝葉斯算法在實(shí)際應(yīng)用中需注意的方面: 1. 純粹的貝葉斯算法過濾只考慮了郵件正文的內(nèi)容,而往往郵件頭部的一 些信息是很
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1