freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于flume的美團(tuán)日志收集系統(tǒng)-全文預(yù)覽

  

【正文】 能的在兩個(gè)Channel之間切換。} 增加HdfsSink的開關(guān)我們?cè)贖dfsSink和DualChannel中增加開關(guān),當(dāng)開關(guān)打開的情況下,HdfsSink不再往Hdfs上寫數(shù)據(jù),并且數(shù)據(jù)只寫向DualChannel中的FileChannel。 .lzo.equals(()) ) { LzoIndexer lzoIndexer = new LzoIndexer(new Configuration())。 callWithTimeout(new CallRunnerObject() { Override public Object call() throws Exception { if((srcPath)) { // could block (Renaming + srcPath + to + dstPath)。HdfsSink本身lzo壓縮,但寫完lzo文件并不會(huì)建索引,我們?cè)赾lose文件之后添加了建索引功能。 Sink : 已經(jīng)處理的event數(shù) 為HdfsSink增加自動(dòng)創(chuàng)建index功能首先,我們的HdfsSink寫到hadoop的文件采用lzo壓縮存儲(chǔ)。只將我們需要的metrics發(fā)送給zabbix,避免 zabbix server造成壓力。下面將對(duì)一些主要的方面做一些說(shuō)明。通過(guò)上述的講解,我們可以看到,基于Flume的美團(tuán)日志收集系統(tǒng)已經(jīng)是具備高可用性,高可靠性,可擴(kuò)展等特性的分布式服務(wù)。對(duì)于美團(tuán)的日志收集系統(tǒng),我們建立了多維度的監(jiān)控,防止未知的異常發(fā)生。一個(gè)非常重要的要求是實(shí)時(shí)數(shù)據(jù)流不應(yīng)該受到其它Sink的速度影響,保證實(shí)時(shí)數(shù)據(jù)流的速度。劣勢(shì)是部分沒(méi)有注冊(cè)的數(shù)據(jù)可能在Agent/Collector之間傳輸。所以目前的權(quán)限控制就是category過(guò)濾。 和scribe兼容在設(shè)計(jì)之初,我們就要求每類日志都有一個(gè)category相對(duì)應(yīng),并且Flume的Agent提供AvroSource和ScribeSource兩種服務(wù)。基于此,我們開發(fā)了DualChannel。優(yōu)點(diǎn)是容量較大且死掉時(shí)數(shù)據(jù)可恢復(fù)。其優(yōu)劣如下:l MemoryChannel: 所有的events被保存在內(nèi)存中。其性能主要受限于Store層提供的能力。 Agent層對(duì)于Agent這一層來(lái)說(shuō),每個(gè)機(jī)器部署一個(gè)Agent,可以水平擴(kuò)展,不受限制。 可擴(kuò)展性(scalability)對(duì)日志收集系統(tǒng)來(lái)說(shuō),可擴(kuò)展性(scalability)是指系統(tǒng)能夠線性擴(kuò)展。這就保證了event在數(shù)據(jù)流的點(diǎn)對(duì)點(diǎn)傳輸中是可靠的。這就是Flume提供數(shù)據(jù)流中點(diǎn)到點(diǎn)的可靠性保證的最基本的單跳消息傳遞語(yǔ)義。當(dāng)Hdfs寫入較慢時(shí),所有的events只經(jīng)過(guò)FileChannel傳遞數(shù)據(jù),有一個(gè)較大的數(shù)據(jù)緩存空間。 Hdfs變慢當(dāng)Hadoop上的任務(wù)較多且有大量的讀寫操作時(shí),Hdfs的讀寫數(shù)據(jù)往往變的很慢。這種機(jī)制類似于Scribe,可以提供較好的容錯(cuò)性。 Hdfs正常停機(jī)我們?cè)贑ollector的HdfsSink中提供了開關(guān)選項(xiàng),可以控制Collector停止寫Hdfs,并且將所有的events緩存到FileChannel的功能。最后,對(duì)于非常重要的日志,建議應(yīng)用直接將日志寫磁盤,Agent使用spooldir的方式獲得最新的日志。對(duì)于Agent進(jìn)程死掉的情況來(lái)說(shuō),確實(shí)會(huì)降低系統(tǒng)的可用性。要想提高系統(tǒng)的可用性,就需要消除系統(tǒng)的單點(diǎn),提高系統(tǒng)的冗余度。d. 對(duì)于Store來(lái)說(shuō),Hdfs負(fù)責(zé)永久地存儲(chǔ)所有日志;Kafka存儲(chǔ)最新的7天日志,并給Storm系統(tǒng)提供實(shí)時(shí)日志流;Bypass負(fù)責(zé)給其它服務(wù)器和應(yīng)用提供實(shí)時(shí)日志流。b. Agent到Collector使用LoadBalance策略,將所有的日志均衡地發(fā)到所有的Collector上,達(dá)到負(fù)載均衡的目標(biāo),同時(shí)并處理單個(gè)Collector失效的問(wèn)題。目前每天收集和處理約T級(jí)別的日志數(shù)據(jù)。對(duì)比中Flume將主要采用Apache下的FlumeNG為參考對(duì)象。目前常用的開源日志收集系統(tǒng)有Flume, Scribe等。1 日志收集系統(tǒng)簡(jiǎn)介日志收集是大數(shù)據(jù)的基石。美團(tuán)的日志收集系統(tǒng)基于Flume設(shè)計(jì)和搭建而成。問(wèn)題導(dǎo)讀:1. FlumeNG與Scribe對(duì)比,F(xiàn)lumeNG的優(yōu)勢(shì)在什么地方????(reliability)方面做了哪些措施?美團(tuán)的日志收集系統(tǒng)負(fù)責(zé)美團(tuán)的所有業(yè)務(wù)日志的收集,并分別給Hadoop平臺(tái)提供離線數(shù)據(jù)和Storm平臺(tái)提供實(shí)時(shí)數(shù)據(jù)流。第二部分改進(jìn)和優(yōu)化,將主要著眼于實(shí)際部署和使用過(guò)程中遇到的問(wèn)題,對(duì)Flume做的功能修改和優(yōu)化等。高可用性,高可靠性和可擴(kuò)展性是日志收集系統(tǒng)所具有的基本特征。2 常用的開源日志收集系統(tǒng)對(duì)比下面將對(duì)常見(jiàn)的開源日志收集系統(tǒng)Flume和Scribe的各方面進(jìn)行對(duì)比。美團(tuán)的日志收集系統(tǒng)基于Flume設(shè)計(jì)和搭建而成。其中Agent層每個(gè)機(jī)器部署一個(gè)進(jìn)程,負(fù)責(zé)對(duì)單機(jī)的日志收集工作;Collector層部署在中心服務(wù)器上,負(fù)責(zé)接收Agent層發(fā)送的日志,并且將日志根據(jù)路由規(guī)則寫到相應(yīng)的Store層中;Store層負(fù)責(zé)提供永久或者臨時(shí)的日志存儲(chǔ)服務(wù),或者將日志流導(dǎo)向其它服務(wù)器。其中SinkHdfs又根據(jù)日志量的大小分為SinkHdfs_b,SinkHdfs_m和SinkHdfs_s三個(gè)Sink,以提高寫入到Hdfs的性能,具體見(jiàn)后面介紹。 可用性(availablity)對(duì)日志收集系統(tǒng)來(lái)說(shuō),可用性(availablity)指固定周期內(nèi)系統(tǒng)無(wú)故障運(yùn)行總時(shí)間。對(duì)于機(jī)器死機(jī)的情況來(lái)說(shuō),由于產(chǎn)生日志的進(jìn)程也同樣會(huì)死掉,所以不會(huì)再產(chǎn)生新的日志,不存在不提供服務(wù)的情況。其次,對(duì)所有的Agent進(jìn)行存活監(jiān)控,發(fā)現(xiàn)Agent死掉立即報(bào)警。所以整個(gè)服務(wù)不受影響。當(dāng)Hdfs恢復(fù)服務(wù)以后,再將FileChannel中緩存的events再發(fā)送到Hdfs上。當(dāng)Collector恢復(fù)服務(wù)以后,再將FileCh
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1