freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

啟發(fā)式ddos數(shù)據(jù)流特征搜索方法的研究畢業(yè)論文(參考版)

2025-06-25 13:26本頁面
  

【正文】 T. Petsche, eds. MIT Press, Cambridge, MA, 1997. [18] . A Tutorial on Support Vector Machines for Pattern Recognition. Bell Laboratories, Lucent Technologies. 1997. [19] The 1999 DARPA Int rusion Detection Evaluation Data set , Information Systems Technology Group of MIT Lincoln Laboratory , ht tp :/ / . ll . mit . edu/ IST/ ideval/ data/ data _ [20] Kohavi R, John GH. Wrappers for feature subset selection. Artificial Intelligence Journal, 1997,97(12):273?。 Security, 2004。他在外文翻譯中給了我莫大的幫助。同時,我要感謝計算機網(wǎng)絡(luò)教研室和實驗室的老師們,他們對我的畢設(shè)也幫助挺大。張偉老師給我介紹的參考資料和案例對我的畢設(shè)有很大幫助,要是沒有張偉老師的支持和鼓勵我很難完成畢設(shè)。致 謝本次畢業(yè)設(shè)計,是大學(xué)最后一次軟件設(shè)計,是檢驗我們四年學(xué)習(xí)成果的標(biāo)尺。這些,既是不足,又是動力,不但指明了今后研究的發(fā)展方向,同時也是需要扎扎實實做工作的地方。這是其算法優(yōu)秀之處的基礎(chǔ)。支持向量機作為一種新的機器學(xué)習(xí)方法,具有堅實的理論基礎(chǔ),其優(yōu)點突出表現(xiàn)在:一是在有限樣本,尤其是小樣本情況下仍然保持很好的分類推廣能力。效果如下所示。我們通過系統(tǒng)界面按鈕“瀏覽”,程序的預(yù)覽數(shù)據(jù)的起始2行顯示出來,結(jié)果如下所示?!爸刈觥卑粹o重置所有變量到初始狀態(tài),清空所有顯示和計算過程中產(chǎn)生的txt文件?!斑x定”按鈕執(zhí)行兩步,保存“選擇的特征屬性”中的內(nèi)容到數(shù)組中,清空內(nèi)容,然后在“選定特征組”中顯示選擇的屬性組。進行選擇之前,選擇“瀏覽”按鈕給程序指定輸入。系統(tǒng)主界面如下圖所示。}圖42 應(yīng)用libsvm工具流程圖系統(tǒng)采用基于Windows平臺的單對話框界面,建立了一個標(biāo)準(zhǔn)的、直觀的用戶界面。 sprintf(mand,\\ % %%,i,i,i)。 sprintf(mand,\\ %%,i,i)。}對選擇的屬性進行歸一,并用訓(xùn)練的樣本模式測試選擇的屬性,給出準(zhǔn)確率。 sprintf(mand,\\ % %,0,0)。 sprintf(mand,\\ %%,0,0)。程序中使用到的LIBSVM工具的代碼如下:對全部屬性進行歸一化,并訓(xùn)練全部樣本的模型。首先需要再次說明的是,因為是二分類,因此實驗中選擇C-SVC,其次,在LIBSVM中,只有RBF核函數(shù)才可以進行交叉驗證,求最優(yōu)C與gamma,因此只選擇了RBF核函數(shù)作為實驗之選。因為訓(xùn)練樣本中,樣本所屬類別分布不均,給小樣本加了權(quán)重。(3)選擇核函數(shù)RBF,則利用grid過程,進行交叉驗證,得出核函數(shù)中需要確的兩個參數(shù)C和gamma的最佳組合,用于下一步模型訓(xùn)練。(2)將數(shù)據(jù)進行規(guī)格化處理,調(diào)用scale過程。如果待測樣本集中每個樣本有分類號,則可測出模型的預(yù)測準(zhǔn)確率,如果沒有分類號,就是真的預(yù)測值了。train利用grid過程確定的c和gamma參數(shù)的值以及其他相關(guān)參數(shù)來訓(xùn)練己有樣本集,建立已有訓(xùn)練樣本的模型。網(wǎng)格搜索的方法在上面介紹gamma參數(shù)時已說明。因此需要先安裝python軟件包。scale對提高算法預(yù)測準(zhǔn)確性十分重要。在LIBSVM中,對于屬性值為0的屬性是不存儲的,是稀疏矩陣存儲方式,以節(jié)省計算量和存儲空間。因為核函數(shù)的值依賴于特征向量的內(nèi)積,舉例來說,多項式核函數(shù)中,大的屬性值就可能引起數(shù)值計算問題。交叉驗證過程同在gamma參數(shù)中描述的一樣。h是否使用Shrinking技術(shù),默認(rèn)是使用。因為LIBSVM在訓(xùn)練過程中使用Kernel Cache技術(shù)存儲核矩陣,并進行大量運算,所以對內(nèi)存的需求是比較大的,特別是問題規(guī)模較大的時候。網(wǎng)格搜索是非常費時的,如果訓(xùn)練樣本多,可以選擇其中的一部分來做網(wǎng)格搜索,確定C和γ,然后再在全部訓(xùn)練集上訓(xùn)出模型。因此,全部樣本集的每一個樣本都被測試了一遍,所以分類準(zhǔn)確率就是數(shù)據(jù)中被正確分類的樣本數(shù)占總樣本數(shù)的百分比。gamma在CSVC中,當(dāng)采用RBF核函數(shù)時,通過Cross Validation(交叉驗證)可以找出最優(yōu)的,也就是分類準(zhǔn)確率最高的C和γ。若某些樣本判斷正確與否非常重要,而某些樣本不重要,也應(yīng)采用不同的懲罰系數(shù)C1,C2,……Cl。wi權(quán)重。用在對錯分樣本的懲罰上,C增大,則對訓(xùn)練樣本的分類精度提高,但權(quán)值向量||w||增大導(dǎo)致分類間隔2/||w||減小,使推廣能力下降,要合理權(quán)衡對已有樣本的分類精度和未知樣本的預(yù)測能力。另外考慮到實驗中不確定因素較多,線性分類的可能性很小,因此選RBF,-t取2,這也是默認(rèn)設(shè)置。多項式核函數(shù)比RBF的參數(shù)要多,使得模型選擇的復(fù)雜性增大。RBF是非線性核函數(shù),線性核函數(shù)是它的一個特例。S取0,就代表采用這種算法,這也是默認(rèn)設(shè)置。確定用來做分類還是回歸以及分類和回歸算法的類型。0 1:0 2:2 3:7 4:6 5:239 6:1691 7:0 8:0 9:0 10:0 11:0 12:1 13:0 14:0 15:0 16:0 17:0 18:0 19:0 20:0 21:0 22:0 23:4 24:4 25: 26: 27: 28: 29: 30: 31: 32:30 33:255 34: 35: 36: 37: 38: 39: 40: 41:在對要研究的問題有清楚認(rèn)識的基礎(chǔ)上,深入分析軟件包中對本研究有影響的參數(shù)及實驗過程。4)對標(biāo)號的處理:0代替normal;1代替others的情況。7代替SH。5代替S3。3代替RSTR。其他服務(wù)203)對flag處理:1代替REJ。time 18。systat 16。 private 14。netstat 12。login 10。hostnames 8。ftp 6。finger 4。ecr_i 2。4 代替others的情況。2 代替tcp。下面是一條該數(shù)據(jù)集中的數(shù)據(jù):O,tcp,SF,239,1691,0,O,0,O,O,1,O,O,O,O,O,O,O,0,O,O,4,4,30,255,,normal.顯然首先要做的是將其數(shù)字化和歸一化。實際的實驗的設(shè)計中,由于KDD數(shù)據(jù)集較大(743M字節(jié)),為了分析數(shù)據(jù)的方便,取該數(shù)據(jù)集的一個10%的子集(,75兆字節(jié)),該子集共有494021條記錄,其中正常連接有97278條記錄,%,攻擊記錄396743條,%。攻擊者通過掃描網(wǎng)絡(luò)可以獲得的網(wǎng)絡(luò)拓?fù)鋱D和服務(wù)等信息來進行這種攻擊,它一般是實施其它攻擊的前期工作。在這種攻擊中,大部分攻擊者是利用程序的錯誤和系統(tǒng)的消耗,使緩沖區(qū)溢出達(dá)到目的。常用的拒絕服務(wù)攻擊的類型列表如下:表42 DoS攻擊方式攻擊類型服務(wù)類型攻擊機制攻擊效果Apache2濫用使癱瘓Back濫用/漏洞服務(wù)相應(yīng)變慢Land漏洞死機Mail bombN/A濫用匿名SYN FloodTCP濫用拒絕一個或幾個端口的服務(wù)Ping of DeathIcmp濫用無Process tableTCP濫用拒絕新的線程SmurfIcmp濫用使網(wǎng)絡(luò)速度變慢SyslogdSyslog漏洞使Syslogd中斷TeardropN/A漏洞機器重新啟動UdpstromEcho/Chargen濫用使網(wǎng)絡(luò)速度變慢Remote to Local AttacksR2L攻擊是指攻擊者通過網(wǎng)絡(luò)發(fā)送數(shù)據(jù)包到主機獲取主機信息,然后利用主機系統(tǒng)的弱點,作為一個用戶非法進入主機的一系列行為。Denial of Service AttacksDoS攻擊可以定義為攻擊者通過一些復(fù)雜的計算或者內(nèi)存資源消耗使系統(tǒng)過載,從而對合法用戶的合法請求無法響應(yīng),使合法用戶無法接入或無法正常工作。 0代表其他情況離散值count在最近兩秒鐘內(nèi)對相同主機連接的數(shù)目連續(xù)值以下特性均指相同連接serror_rate連接中有SYN錯誤的比例連續(xù)值rerror_rate連接中有REJ錯誤的比例連續(xù)值same_srv_rate相同服務(wù)中有SYN錯誤的比例連續(xù)值diff_srv_rate不同服務(wù)比率連續(xù)值srv_count在最近兩秒鐘內(nèi)對相同服務(wù)連接的數(shù)目連續(xù)值以下特性均指相同服務(wù)srv_serror_rate相同服務(wù)中有SYN錯誤的比例連續(xù)值srv_rerror_rate相同服務(wù)中有REJ錯誤的比例連續(xù)值srv_diff_host_rate相同服務(wù)不同目的主機的比率率連續(xù)值訓(xùn)練數(shù)據(jù)帶有標(biāo)記(正常或某種攻擊),共有22種不同的攻擊,其中訓(xùn)練數(shù)據(jù)中包含22種攻擊:(back,buffer_overflow,ftp_write,guess_passwd,imap,ipsweep,land,loadmodule,multihop,neptune,nmap,perl,phf,pod,portsweep,rootkit,satan,smurf,spy,teardrop,warezclient,warezmaster)。 0代表其他情況離散值su_attempted1代表嘗試“su root”命令。O代表其他情況離散值wrongfragment錯誤fragment的數(shù)量連續(xù)值urgenturgent packets數(shù)量連續(xù)值hot“hot,indicators”的數(shù)量連續(xù)值num_failed_logins失敗的登錄次數(shù)連續(xù)值logged_in1代表成功登錄。每個連接記錄含有41個特征,可分為四類:基本的TCP特征、容量特征、基于時間的流量特征和基于主機的流量特征。該數(shù)據(jù)集是在MIT LINCOLN實驗室的1998入侵檢測評估數(shù)據(jù)集(1998,DARPA Intrusion Detection Evaluation DataSets)基礎(chǔ)上發(fā)展而成。IEEE的Knowledge and Data Engineering會刊領(lǐng)先在1993年出版了KDD技術(shù)專刊,所發(fā)表的5篇論文代表了當(dāng)時KDD研究的最新成果和動態(tài),較全面地論述了KDD系統(tǒng)方法論,發(fā)現(xiàn)結(jié)果的評價,KDD系統(tǒng)設(shè)計的邏輯方法,集中討論了鑒于數(shù)據(jù)庫的動態(tài)性冗余,高噪聲和不確定性,空值等問題,KDD系統(tǒng)與其它傳統(tǒng)的機器學(xué)習(xí),專家系統(tǒng),人工神經(jīng)網(wǎng)絡(luò),數(shù)理統(tǒng)計分析系統(tǒng)的聯(lián)系和區(qū)別,以及相應(yīng)的基本對策。IEEE,ACM,IFIS,VLDB,SIGMOD等其他學(xué)會,學(xué)刊也紛紛把DMKD列為會議議題或出版???,使之成為當(dāng)前國際上的一個研究熱點。KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上。這個項目是由麻省理工學(xué)院林肯實驗室和美國國防部高級研究計劃局發(fā)起和進行的,目的是觀察和評估入侵檢測系統(tǒng)的研究工作,用一套標(biāo)準(zhǔn)格式的數(shù)據(jù)來評估各種入侵檢測系統(tǒng)的性能。本設(shè)計中數(shù)據(jù)集則采用KDD99數(shù)據(jù)集,它來源于數(shù)據(jù)采集是入侵檢測系統(tǒng)中第一步要做的工作,但對于現(xiàn)在網(wǎng)絡(luò)中數(shù)據(jù)量極大的數(shù)據(jù)流的獲取,以及將數(shù)據(jù)流處理為SVM能處理的數(shù)據(jù)格式,如果完全采用軟件來做的話,將消耗系統(tǒng)大量的資源,從而對于決策分類系統(tǒng)的處理分類將帶來一定的影響,因此在一般的入侵檢測系統(tǒng)中網(wǎng)絡(luò)數(shù)據(jù)流的獲得都是通過硬件來實現(xiàn)的。從本質(zhì)上講,入侵檢測實際上是一個分類問題,就是要通過檢測把正常數(shù)據(jù)和異常數(shù)據(jù)分開。利用得到的分類精度作為評價函數(shù)。本文采LIBSVM支持向量機模型作為分類模型。該算法相對于lr算法計算量要小。當(dāng)lr時,lr法是自下而上的算法,先執(zhí)行第二步,然后執(zhí)行第一步,起始時應(yīng)置k=D。若則終止算法,否則,置,轉(zhuǎn)向第一步。具體步驟如下(假設(shè)已經(jīng)選了k個特征,得出了特征組):步驟1 用SBS算法在未入選特征組中逐個選入特征l個,形成新特征組,置。為避免前面方法的一旦被選入(或剔除)就不能再剔除(或選入)的缺點,可在選擇過程中加入局部回溯過程。若 則和序列前向選擇方法比較,序列后向選擇方法有兩個特點:一是在計算過程中可以估計每去掉一個特征所造成可分性的降低,二是由于該方法在一個較大的變量集上計算準(zhǔn)則函數(shù) J,所以該算法相對于SFS計算量要大。從全體特征開始每次剔除一個,所剔除的特征應(yīng)使仍然保留的特征組的J值最大。在該算法中每步都可能出現(xiàn)這樣的現(xiàn)象。例如算法第一步選出的必然是使準(zhǔn)則函數(shù)最大的一個特征,而后來每步選出的都是對前一個特征集合作為最佳補充的一個特征。該算法的運算量相對較小,但是特征之間的統(tǒng)計相關(guān)性沒有得到充分考慮。實際上,在算法的每一步,都選擇一個特征加入到當(dāng)前集合,使得特征選擇準(zhǔn)則最大。第四章 啟發(fā)式特征選擇系統(tǒng)的設(shè)計和實現(xiàn)序列前向選擇方法 ( Sequential Forward Selection,SFS ),每次從未入選的特征中選擇一個特征,使得它與已入選的特
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1