【導(dǎo)讀】網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)量迅速增長(zhǎng)。機(jī)器學(xué)習(xí)技術(shù)廣泛應(yīng)用于安全分析檢測(cè)。–用戶在不了解分布式底層實(shí)現(xiàn)細(xì)節(jié)的情況下,磁盤,計(jì)算速度慢。Spark是UCBerkeleyAMPlab開(kāi)源的并行。基于內(nèi)存的計(jì)算,計(jì)算速度明顯高于Map-. Spark-Streaming-流數(shù)據(jù)實(shí)時(shí)/半實(shí)時(shí)處。平臺(tái)基于HDFS中的離線數(shù)據(jù)使用Spark訓(xùn)。采用離線模型訓(xùn)練與在線分析檢測(cè)結(jié)合的。特性保證數(shù)據(jù)檢測(cè)的實(shí)時(shí)性。的方式,提高I/O吞吐能力;單塊千兆網(wǎng)卡通過(guò)一臺(tái)千兆交換機(jī)互聯(lián)。為本實(shí)驗(yàn)的測(cè)試數(shù)據(jù)。使用Flume將2020年6月20日-2020年6月26. 全平臺(tái)的文件系統(tǒng)。使用DNS查詢頻率特征提取作為主要的性。將集群計(jì)算節(jié)點(diǎn)的個(gè)數(shù)從1臺(tái)。集群對(duì)不同樣本數(shù)據(jù)量的運(yùn)行時(shí)間比較。周的數(shù)據(jù)量,產(chǎn)生7個(gè)樣本數(shù)據(jù)。本文提出基于Hadoop和Spark計(jì)算框架構(gòu)建一種