【正文】
信息增益(information gain)的概念。數(shù)據(jù)的某個屬性的信息增益是將一個數(shù)據(jù)集劃分后熵(混亂,無序)的減少量。劃分后數(shù)據(jù)集的熵的度量是將每一個劃分集大小相對于原始數(shù)據(jù)集大小的比例作為權(quán)重累加。一個規(guī)則集合S的熵E通過如下公式計算 Es=∑1/n log2(1/n)=log2(n)則一個規(guī)則集S在屬性A上的信息增益通過如下公式計算 G(s,f)=Es∑|Sv|/|S|*Esv= log2(|S|)∑|Sv|/|S|* log2 (|Sv|)Sv代表對于規(guī)則集S,在屬性A上劃分之后生成的各個規(guī)則集合。|Sv|,|S|代表集合的數(shù)目。我們對原始規(guī)則集以及劃分后生成的多個規(guī)則集,計算各個屬性上的信息增益,選擇大的作為先匹配的屬性。這里通過信息增益來反映過濾度,實際上是認為,劃分后分布越均勻的屬性有更大的區(qū)分度。c. 經(jīng)驗判斷在實際的網(wǎng)絡(luò)安全監(jiān)控系統(tǒng)中,利用經(jīng)驗來判定區(qū)分度與優(yōu)先順序是可行的。在包過濾步驟中,源、目的端口有較強的區(qū)分度,對這個屬性的過濾能較均勻地將規(guī)則集分類,應(yīng)該放在前面匹配。而ttl值這個屬性的區(qū)分度相對較弱,應(yīng)該放在靠后的位置。我們可以根據(jù)經(jīng)驗將各個屬性區(qū)分度排序,從而確定一個較優(yōu)的匹配順序。n 規(guī)則集分類將規(guī)則集預(yù)分類,相同類型的規(guī)則作為一個初始規(guī)則集。如TCP規(guī)則集,UDP User Datagram Protocol(用戶數(shù)據(jù)報協(xié)議)規(guī)則集,ICMP Internet Control Message Protocol(Internet控制信息協(xié)議)規(guī)則集等。這樣有兩個好處。一是每一個自動機匹配樹的規(guī)則集不會太大,狀態(tài)數(shù)目可控,并且多棵樹可以并行運行。二是相同類型的規(guī)則有類似的屬性字段,有些字段是某種規(guī)則集特有的,如ICMP的itype字段,在TCP規(guī)則集中就不需要考慮。所以針對每一種類型的規(guī)則集生成相應(yīng)的自動機,能夠減少自動機匹配樹的層數(shù),從而提高匹配效率。4. 性能測試為檢驗IceNetwork處理引擎的功能與性能,我們設(shè)計如下測試方案測試環(huán)境:千兆交換機器網(wǎng)絡(luò)發(fā)包機:AMD Opterontm1421。60Ghz 64bit入侵檢測服務(wù)器Xeon(tm) 2*CPU 圖6 測試網(wǎng)絡(luò)結(jié)構(gòu)圖測試說明:入侵檢測系統(tǒng)包括Snort 和IceNetwork。發(fā)包機器,可以按照指定的速度發(fā)送全部是攻擊數(shù)據(jù)的網(wǎng)絡(luò)數(shù)據(jù)包。發(fā)送包間隔中插入特定Sleep(0)進行時間延時。攻擊包的構(gòu)造是通過依照Snort規(guī)則構(gòu)造的。 測試丟包率結(jié)果如下:在純攻擊包流量壓力較小時,兩者均有較好的處理效率。當流量壓力加大時,Snort丟包率明顯增大,而IceNetwork顯示出較好的檢測引擎執(zhí)行效率與抗壓能力。實驗表明,這種基于數(shù)據(jù)流管理平臺進行網(wǎng)絡(luò)安全事件監(jiān)控的設(shè)計思路是正確可行的。系統(tǒng)能夠完成設(shè)計功能,并獲得了較好的性能。圖7 丟包率對比圖5. 結(jié)論和展望本文將數(shù)據(jù)流模型引入系統(tǒng)設(shè)計,提出了一種新型的網(wǎng)絡(luò)入侵檢測系統(tǒng)的實現(xiàn)方式。其中網(wǎng)絡(luò)數(shù)據(jù)及檢測規(guī)則的關(guān)系化表示,使入侵檢測系統(tǒng)結(jié)構(gòu)更加清晰,擴展性更好。多持續(xù)查詢優(yōu)化技術(shù)提高了檢測引擎的性能。接下來,我們將進一步研究面向通用的數(shù)據(jù)流管理系統(tǒng)的單流多持續(xù)查詢優(yōu)化算法,以及多流連接算法。參考文獻[1.] B. Babcock, S. Babu, . Models and Issues in Data Stream Systems. SIGMOD POS, 2002:116[2.] A. Arasu, S. Babu, J. Widom. An Abstract Semantics and Concrete Language for Continuous Queries over Streams and Relations. :8090/pub/200257[3.] Snort .[4.] Marc Pattern Matching for Intrusion :// [5.] Christophe Diot, Brian Neil Levine, Bryan Lyles, Hassan Kassem, Doug Balensiefen, Deployment Issues for the IP Multicast Service and Architecture. IEEE Network magazine special issue on Multicasting, 14(1):7888, January/February 2000[6.] Gonzalo Navarro and Mathieu Raffinot , Flexible Pattern Matching in Strings:Practical online search algorithms for texts and biological sequences, Cambridge University Press, 2002,ISBN 0521813077[7.] B. Bollig and I. Wegener. Improving the variable ordering of OBDDs is NPplete. IEEE Trans. on Comp., 45(9):993 1002, 1996.作者簡介:譚建龍:中國科學(xué)院計算技術(shù)研究所軟件研究室助理研究員,博士。2003年在中國科學(xué)院計算技術(shù)研究所獲博士學(xué)位。主要研究領(lǐng)域包括數(shù)據(jù)流管理系統(tǒng)、網(wǎng)絡(luò)信息安全、算法設(shè)計等。沈星星:中國科學(xué)院計算技術(shù)研究所 碩士研究生王映:中國科學(xué)院計算技術(shù)研究所 博士研究生