freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

畢業(yè)設計-數(shù)據(jù)挖掘技術在計算機犯罪取證中的應用與實現(xiàn)_—(編輯修改稿)

2025-01-08 18:53 本頁面
 

【文章內容簡介】 立點分析 : 孤立點是指數(shù)據(jù)集中與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象。大部分數(shù)據(jù)挖掘方法將孤立點作為噪聲去除,但在有些應用中,罕見的數(shù)據(jù)可能比正常出現(xiàn)的數(shù)據(jù)更加有趣。例如在入侵行為的檢測中,孤立點可能預示著入侵行為的發(fā)生?;?計算機的孤立點探測有三類 :統(tǒng)計學方法、基于距離的方法和基于偏差的方法。 數(shù)據(jù)挖掘是一個工具,幾乎所有的數(shù)據(jù)挖掘技術都是數(shù)據(jù)驅動的,而不是用戶驅動的,也就是說用戶在使用這些算法時,只要給出數(shù)據(jù),不用告訴算法程序怎么做和期待得到什么結果,一切都是算法自身從給定的數(shù)據(jù)中自己找出來。 本系統(tǒng)主要通過應用關聯(lián)規(guī)則在計算機犯罪取證的應用,所以下節(jié)將詳細介紹關聯(lián)規(guī)則。 關聯(lián)規(guī)則挖掘 關聯(lián)規(guī)則是當前數(shù)據(jù)挖掘的主要模式之一,它用于尋找數(shù)據(jù)集中不同屬性之間的聯(lián)系,找出可信的、有價值的多個屬性域之間的依賴關系。關聯(lián)規(guī)則挖 掘的目標是從數(shù)據(jù)源中找出形如 “ 由于某些事情的發(fā)生而引起另外一些事情的發(fā)生 ” 這樣的規(guī)則。在計算機取證中,我們挖掘電子證據(jù)數(shù)據(jù)項之間存在的規(guī)則,并在規(guī)則中查找、發(fā)現(xiàn)并分析計算機犯罪行為在不同位置、各個目標、行為意圖方面的一些聯(lián)系和規(guī)律,為進一步偵察分析和破案提供線索。 12 關聯(lián)規(guī)則的形式化定義 定義 : 關聯(lián)規(guī)則 : 設 I = {i1,i2 ,. . , im}為文字的集合, ij(1jm)稱為項, D=(T1 T2,...,Tm)為事務集合,其中 Ti? I, (1? i? n)為事務。關聯(lián)規(guī)則是一個形如式 (3. 1)的蘊含式 X = Y (公式 ) 其中 X? I, Y? 7,并且 X? Y=? 。 為了對關聯(lián)規(guī)則的價值進行評判,我們一般還需要使用兩個參數(shù),支持度 (Support)和可信度(Confidence)。 定義 :關聯(lián)規(guī)則的支持度 : support(A? B)=P(A U B) (公式 ) 定義 :關聯(lián)規(guī)則的可信度 : confidence(A? B) = P(B|A) (公式 ) 定義 :最小支持度,記為 min_sup,用戶規(guī)定的關聯(lián)規(guī)則必須滿足最小支持度,即系統(tǒng)所發(fā)現(xiàn)的關聯(lián)規(guī)則的支持度不 小于最小支持度。 定義 :最小可信度,記為 min_conf,用戶規(guī)定的關聯(lián)規(guī)則必須滿足最小可信度,即系統(tǒng)所發(fā)現(xiàn)的關聯(lián)規(guī)則的可信度不小于最小可信度。 從語義的角度來看,支持度表示用這條規(guī)則可以推出百分之幾的目標,規(guī)則的可信度表示這條規(guī)則的正確程度,即這一原因對于這一結果的重要程度和可被接受理解的程度。 對關聯(lián)規(guī)則的挖掘目的是發(fā)現(xiàn)知識,一般來說,我們僅僅對支持度和可信度特別顯著的關聯(lián)規(guī)則感興趣,要求挖掘結果所產生的規(guī)則的支持度和可信度都不小于給定的閡值,即最小支持度和最小可信度,這樣的關聯(lián)規(guī)則稱為強關聯(lián)規(guī)則 。 關聯(lián)規(guī)則的挖掘可以分為兩個步驟 : ( 1) 找出所有頻繁項集,這些項集的頻繁度不低于預定義的最小支持度; ( 2)由頻繁項集產生強關聯(lián)規(guī)則,這些規(guī)則必須滿足最小置信度的要求; 在第一個步驟里,發(fā)現(xiàn)頻繁項集的算法是對數(shù)據(jù)進行反復的搜索 。 在每次搜索中,都從頻繁項集的種子集開始,用種子集產生新的可能的頻繁項集,稱之為候選集合。在搜索的同時計算這些候選集合的支持數(shù) (D對一個數(shù)據(jù)項集的支持數(shù),即為 D中包含這個數(shù)據(jù)項集的事件個數(shù) ),搜索一遍后確定哪些候選集合是頻繁的,這些集合成為下一次搜索的種子集。這個過程不斷重復,直到 沒有新的頻繁項集產生為止。 第二個步驟相對簡單一些。首先我們用項集的支持數(shù) (support_count)來表示可信度: 13 confidence(X? Y)=P(Y |X)=c ount (X ) supp ort _c ount (X U Y ) supp ort _ (公式 ) 將數(shù)據(jù)項集中數(shù)據(jù)項的個數(shù)為 k的集合稱為 k數(shù)據(jù)項集。對每個頻繁項集 k一數(shù)據(jù)項集 l, 計算其所有非空子集,對每個非空子集 a,如果 m in_c onfc ou nt (a ) _po rt s up ) l _c ou nt (s uppo rt ?則輸出規(guī)則 “a= (la),c,s”。 經典關聯(lián)規(guī)則挖掘算法 介紹 我們用 Lk表示所有長度為 k(1? k? m)的頻繁數(shù)據(jù)項集, Ck表示長度為 k的候選項集,那么就有 Lk ? Ck。 Agrawal等人于 1994年提出的挖掘關聯(lián)規(guī)則的快速算法 , Apriori中有一個對于壓縮搜索空間非常有用的重要性質,稱為 Apriori性質 : 頻繁項集的所有非空子集也都必須是頻繁的。這是因為,如果數(shù)據(jù)項集 Xk不滿足最小支持度 min_conf,則 Xk不是頻繁的,那么即使將項 item添加到 Xk中,其結果項集 XkU item也不可能比Xk更頻繁地出現(xiàn)。因此 XkU item也不是頻繁數(shù)據(jù)項集。 關聯(lián)規(guī)則挖掘算法中頻繁項集生成步驟描述如下 : L1={頻繁 l數(shù)據(jù)項集 }。 //通過搜索數(shù)據(jù)庫生成 for(k=2。Lk1 ?? 。k++) do begin CK=apriori_gen(Lk1)。 //產生新的候選集 對每一事務 T?D do begin CT = subset(Ck,T)。 //事件 T中包含的候選集 對每一個元素 c?CT do ++。 end LK={c?CK | ? min_sup}。 rule_mine(LK)。 end procedure apriori_gen(Lk1) //由 LK;生成候選集 CK 對每一數(shù)據(jù)項集 11?Lk1 do begin 對每一數(shù)據(jù)項 12?Lk1 do begin if ((11 [1]=12 [1])? ( 11[2]=12[2])? … ? (11[k 2]=12[k 2])? (11[k1]? 12[k1])) then begin c={11[1],11[2],…,1 1[k1],12[k1]} 14 對每一 (k1)數(shù)據(jù)項子集 s? c do begin if (s? Lk1,) then delete c。 else add c to CK。 end end end end return CK 上述算法中, apriori_gen是候選集生成函數(shù),其參數(shù)為一組頻繁 (k1)數(shù)據(jù)項集 Lk1,函數(shù)的返回結果為一組候選的 頻繁 K數(shù)據(jù)項集。函數(shù)的執(zhí)行分為兩步:連接和剪枝。 1. 連接 連接是對兩個數(shù)據(jù)項集進行交運算,交運算后的集合是兩個特征集中所有子項的合取范式。對于Lk1,中的數(shù)據(jù)項集 11和 12, 記號 li[j]表示 li的第 j項,數(shù)據(jù)項集中的項都預先按一定的次序排列。如果 11和 12的前 k2項相同,即 11[1]=12[l],11[2]=12[2],… 1 1[k2]=12[k2],11[k1]? 12 [k1],則將 11和 12連接,連接的結果是 11[1]11[2]... 11[k2]11[k1]12[k1]o 2. 剪枝 CK是 LK的超集,因而必須將 CK中不屬于 LK的數(shù)據(jù)項集去掉。通過掃描數(shù)據(jù)庫,確定 CK中每個候選集的支持數(shù),就可以確定 LK。然而, CK可能很大,這樣掃描引入很大的計算量。這里可以運用 apriori性質,如果一個候選 k數(shù)據(jù)項集的所有 (k1)數(shù)據(jù)項子集不全在 LK1中,那么該候選數(shù)據(jù)項集也不可能是頻繁數(shù)據(jù)項集,從而可以將其從 CK中刪除。 找出所有可能的頻繁數(shù)據(jù)項集后,就可以根據(jù)給定的 min_conf生成強規(guī)則了, 過程描述如下: procedure rule_ mine(LK) while(LK? ? ) do begin 對每一數(shù)據(jù)項集 lK?LK do begin 對每一子集 hm? lk do begin conf =。 //計算規(guī)則的支持度 if (conf? min_conf) then output_rule(hm? (lkhm),sup,conf //以 (X? Y, s, c)的形式輸出規(guī)則 end end end 15 3 系統(tǒng)分析 可行性分析也稱為可行性研究,是在系統(tǒng)調查的基礎上,針對新系統(tǒng)的開發(fā)是否具備必要性和可能性,對新系統(tǒng)的開發(fā)從技術,經濟,社會的方面進行分析和研究,以免投資失誤,保證新系統(tǒng)的開發(fā)成功??尚行匝芯康哪康木褪怯米钚〉拇鷥r在盡可能短的時間內確定問題是否能夠解決。 系統(tǒng)可行性分析 可行 性分析概念 可行性分析也稱為可行性研究,是在系統(tǒng)調查的基礎上,針對新系統(tǒng)的開發(fā)是否具備必要性和可能性,對新系統(tǒng)的開發(fā)從技術,經濟,社會的方面進行分析和研究,以免投資失誤,保證新系統(tǒng)的開發(fā)成功??尚行匝芯康哪康木褪怯米钚〉拇鷥r在盡可能短的時間內確定問題是否能夠解決。 系統(tǒng)可行性 1.經濟可行性 經濟可行性分析是 ,從經濟的角度分析網站系統(tǒng)的規(guī)劃方案有無實現(xiàn)的可能和開發(fā)價值 。分析網站系統(tǒng)所帶來的是經濟效益是否超過開發(fā)和維護網站所需要的費用 .計算機技術發(fā)展異常迅速的根本原因在于計算機的應用促進了社會經 濟的發(fā)展,給社會帶來了巨大的經濟效益。因此基于計算機系統(tǒng)的成本-效益分析是可行性研究的重要內容,它用于評估計算機系統(tǒng)的經濟合理性。給出系統(tǒng)開發(fā)的成本論證,并將估算的成本與預期的利潤進行對比。由于項目開發(fā)成本受項目的特性、規(guī)模等許多因素的制約,對軟件設計的反復優(yōu)化可以獲得用戶更為滿意的質量等等,所以系統(tǒng)分析員很難直接估算基于計算機系統(tǒng)的成本和利潤,得到完全精確的成本-效益分析結果是十分困難的。 本系統(tǒng)方便快捷,節(jié)省人力、物力、財力等,其支出的費用:其中包括設備購置費、軟件開發(fā)費用、管理和維護費等。因而它的經 濟效益必然遠遠大于開發(fā)效益。 2.技術可行性 技術可行性是可行性研究的關鍵內容技術可行性 , 就是根據(jù)現(xiàn)有的技術條件 , 分析規(guī)劃所提出的目標 , 要求能否達到及所選用的技術方案是否具有一定的先進型 。 從硬件 , 軟件 , 能源以及環(huán)境條件 ,輔助設備及配件條件等方面。 在技術可行性研究過程中,系統(tǒng)分析員應采集系統(tǒng)性能、可靠性、可維護性和可生產性方面的信息;分析實現(xiàn)系統(tǒng)功能和性能所需要的各種設備、技術、方法和過程;分析項目開發(fā)在技術方面可能擔負的風險,以及技術問題對開發(fā)成本的影響,等等。如有可能,應充分研究現(xiàn)有類似系統(tǒng)的功能和性能 ,采用的技術、工具、設備和開發(fā)過程中成功和失敗的經驗、教訓、以便為現(xiàn)行系統(tǒng)開發(fā)作參考。必要時,技術分析還包括某些研究和設計活動。 16 用戶 登錄系統(tǒng) 設置參數(shù) 查看結果 數(shù)據(jù)庫 根據(jù)技術分析的結果 , 項目管理員必須做出是否進行系統(tǒng)開發(fā)的決定。如果系統(tǒng)開發(fā)技術風險很大;或模型演示表明當前采用的技術和方法不能實現(xiàn)系統(tǒng)預期的功能和性能;或系統(tǒng)的實現(xiàn)不支持各子系統(tǒng)的集成,等等。項目管理員不得不做出 “ 停止 ” 系統(tǒng)開發(fā)的決定。 本系統(tǒng)采通過模擬日志 數(shù)據(jù) ,采取關聯(lián)規(guī)則的挖掘算法對數(shù)據(jù)進行分析。 具體 關聯(lián)規(guī)則算法采用Apriori 算法 在計算機犯罪日 趨嚴重的現(xiàn)象下,鑒于國內還沒完整的計算機犯罪取證軟件,本系統(tǒng)是對計算機犯罪取證一次嘗試,在計算機犯罪取證上著積極的意義。 需求分析 系統(tǒng)調查 1. 進入系統(tǒng)主頁面,無需登陸。 2. 用戶指定參數(shù),查看結果。 數(shù)據(jù)流圖 數(shù)據(jù)流圖是組織中信息運動的抽象。是在調研的基礎上,從系統(tǒng)的科學性、管理的合理性、實際運動的可行性角度出發(fā)。將信息處理功能和彼此之間的聯(lián)系自頂向下,逐層分解,從邏輯上精確地描述系統(tǒng)應具有的數(shù)據(jù)加工功能、數(shù)據(jù)輸入、數(shù)據(jù)輸出、數(shù)據(jù)存儲及數(shù)據(jù)來源和去向 (外部實體 )等項目。 數(shù)據(jù)流程圖如圖 31 所示 : 圖 31 用戶數(shù)據(jù)圖 系統(tǒng)開發(fā)需求 本系統(tǒng)開發(fā)的軟件環(huán)境為:操作平臺為 Windows XP Professional,數(shù)據(jù)庫為 Microsoft Access 2021 開發(fā)工為 Microsoft visual c++ 。 17 4 系統(tǒng)總體設計 數(shù)據(jù)挖掘技術的一般框架模型: 1. 數(shù)據(jù)采集 收集電子證據(jù)的過程,即收集計算機犯罪現(xiàn)場的數(shù)據(jù)信息 ―― 包括系統(tǒng)日志、審計數(shù)據(jù)、網絡日志、網絡流量、分區(qū)信息等(本系統(tǒng)以模擬日志數(shù)據(jù) 為數(shù)據(jù)源)。 2. 數(shù)據(jù)的集成與預處理 將收集到的各種不同類型和不同結構的數(shù)據(jù)進行集成和預處理,以便為下一步的數(shù)據(jù)挖掘準備數(shù)據(jù)源。這其中主要包括以下三個步驟:數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)歸約。完成這一步后的數(shù)據(jù)將可用于接下來的數(shù)據(jù)挖掘工作。 3. 數(shù)據(jù)挖掘 采取合適的數(shù)據(jù)挖掘算法對預備好的數(shù)據(jù)源進行挖掘工作,從中提取有關的特征和規(guī)則,找去反映計算機犯罪行為和事實的信息和根據(jù)。 4. 犯 罪特征的提取 對數(shù)據(jù)挖掘到的結果進行分析,進一步提取真正反映計算機犯罪的行為特征模式,建立電子證據(jù)法庭出示樣本。 5. 知 識庫的 建立 對提取的計算機犯罪特征進行描述和分類儲存,建立計算機犯 罪 組信息知識庫。應為計算機取證工作的
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1