freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

輿情衛(wèi)士監(jiān)測(cè)平臺(tái)技術(shù)方案(編輯修改稿)

2025-05-28 13:53 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 少索引匹配范圍,縮短檢索響應(yīng)時(shí)間;★ 采用多副本機(jī)制,實(shí)現(xiàn)了容災(zāi)備份,避免單點(diǎn)故障,同時(shí)也實(shí)現(xiàn)了負(fù)載均衡,提高并發(fā)檢索能力,每份數(shù)據(jù)都至少有三塊同樣的數(shù)據(jù)做備份;★ 支持離線檢索模式,適應(yīng)大量數(shù)據(jù)檢索的應(yīng)用場(chǎng)景要求,避免了同步檢索模式時(shí)消耗太多線程資源的問題;★ 自有緩存集群,千億數(shù)據(jù)提取10毫秒;★ 大數(shù)據(jù)底層基于Hadoop,充分利用HDFS的可靠性,數(shù)據(jù)挖掘采用MapReduce分布式運(yùn)算模型,解決了海量數(shù)據(jù)挖掘的數(shù)量瓶頸問題。 業(yè)務(wù)流程圖數(shù)據(jù)中心系統(tǒng)是一個(gè)集互聯(lián)網(wǎng)輿情采集、檢索于一體的綜合系統(tǒng),系統(tǒng)通過(guò)采集互聯(lián)網(wǎng)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行過(guò)濾分析,向其它輿情產(chǎn)品推送熱點(diǎn)數(shù)據(jù)信息。數(shù)據(jù)中心的部署實(shí)施需要建立一個(gè)輿情信息處理分布式平臺(tái)和云服務(wù)器集群,內(nèi)容包括服務(wù)器、存儲(chǔ)等硬件設(shè)備,核心業(yè)務(wù)系統(tǒng)分別使用網(wǎng)絡(luò)負(fù)載均衡技術(shù)及服務(wù)器群集技術(shù)實(shí)現(xiàn)高性能與高可用性。數(shù)據(jù)存儲(chǔ)使用區(qū)域存儲(chǔ)網(wǎng)絡(luò),并使用磁帶庫(kù)進(jìn)行數(shù)據(jù)備份,充分保障業(yè)務(wù)數(shù)據(jù)的可靠?;A(chǔ)應(yīng)用系統(tǒng)分布部署在應(yīng)用服務(wù)器組中,基礎(chǔ)服務(wù)系統(tǒng)服務(wù)器組部署Hadoop、Mongodb、Tomcat、HornetQ、Tomcat等軟件系統(tǒng),信息門戶服務(wù)器組部署輿情指揮系統(tǒng)等平臺(tái)軟件,統(tǒng)一信息交換服務(wù)器部署數(shù)據(jù)中心程序,數(shù)據(jù)中心部署文章索引服務(wù)、文章采集服務(wù)集群,建立應(yīng)用軟件的數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)庫(kù)系統(tǒng),將關(guān)鍵數(shù)據(jù)集中存儲(chǔ)在SAN存儲(chǔ)網(wǎng)絡(luò)之中,確保實(shí)現(xiàn)整個(gè)系統(tǒng)應(yīng)用和數(shù)據(jù)的可靠性和安全性,以滿足數(shù)據(jù)存儲(chǔ)、信息處理等方面的需要。 數(shù)據(jù)中心簡(jiǎn)介數(shù)據(jù)中心主要包括以下子系統(tǒng):互聯(lián)網(wǎng)海量信息采集子系統(tǒng)、海量信息存儲(chǔ)子系統(tǒng)、海量信息檢索子系統(tǒng)、展示子系統(tǒng)、信息分析分發(fā)子系統(tǒng)、網(wǎng)評(píng)子系統(tǒng)、數(shù)據(jù)存儲(chǔ)與容災(zāi)備份等。還包括多對(duì)微信、二維碼、和視頻的采集和分析處理等。數(shù)據(jù)中心廣泛采用集群應(yīng)用、分布式數(shù)據(jù)存儲(chǔ)、分布式計(jì)算等云技術(shù)??商峁㏄B級(jí)的海量數(shù)據(jù)存儲(chǔ)能力,能夠利用云數(shù)據(jù)分析技術(shù)進(jìn)行深度比對(duì)、關(guān)聯(lián)、分析和挖掘,實(shí)現(xiàn)網(wǎng)上信息的快速發(fā)現(xiàn),確保重點(diǎn)欄目信息15分鐘發(fā)現(xiàn)報(bào)警;數(shù)據(jù)檢索通過(guò)對(duì)分布式存儲(chǔ)和分布式計(jì)算的采用,有效確保了在海量數(shù)據(jù)的情況下,系統(tǒng)的檢索響應(yīng)速度控制在秒級(jí)范圍。海量數(shù)據(jù)采集子系統(tǒng)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)信息的采集功能,包括了前端采集信息、搜索引擎信息和人工瀏覽信息。采集設(shè)備可分布式部署。支持互聯(lián)網(wǎng)全網(wǎng)信息采集,云平臺(tái)可實(shí)時(shí)監(jiān)測(cè)3萬(wàn)余個(gè)網(wǎng)站、超過(guò) 50萬(wàn)個(gè)欄目或頻道的實(shí)時(shí)信息,同時(shí)還采用元搜索技術(shù),對(duì)上百個(gè)搜索引擎的信息通過(guò)關(guān)鍵詞搜索及采集,日均信息處理量達(dá)700萬(wàn)以上。(1)采用定點(diǎn)采集和全網(wǎng)搜索相結(jié)合的采集機(jī)制。定點(diǎn)采集可確保第一時(shí)間采集到重點(diǎn)網(wǎng)站的信息,全網(wǎng)搜索可進(jìn)行傳播全面性的補(bǔ)充采集;1)定點(diǎn)采集:系統(tǒng)內(nèi)置的50萬(wàn)欄目,采用定點(diǎn)采集方式;2)全網(wǎng)搜索:通過(guò)關(guān)鍵詞對(duì)新聞?lì)愃阉饕?、論壇類搜索引擎、博客類搜索引擎、微博類搜索引擎及大型網(wǎng)站的站內(nèi)搜索工具的信息聚合搜索;3)內(nèi)嵌腳本執(zhí)行引擎:,腳本語(yǔ)言越來(lái)越多地應(yīng)用于論壇、新聞評(píng)論、博客等類型網(wǎng)站的建設(shè)。內(nèi)嵌腳本引擎對(duì)腳本語(yǔ)言的自動(dòng)解析和執(zhí)行,實(shí)現(xiàn)對(duì)采用腳本語(yǔ)言的論壇、博客以及新聞評(píng)論網(wǎng)站的采集;4)7*24小時(shí)不間斷采集,5分鐘采集頻率,信息更新掃描最小間隔為1分鐘;5)對(duì)各微博網(wǎng)站實(shí)現(xiàn)訪問搜索。6)支持驗(yàn)證碼采集;支持多頁(yè)合并采集。(2)全媒體采集網(wǎng)絡(luò)媒體形式全,可以對(duì)各類網(wǎng)絡(luò)媒體進(jìn)行監(jiān)測(cè):1)門戶網(wǎng)站:系統(tǒng)可采集以媒體發(fā)布為主的新聞網(wǎng)站的信息;2)論壇:各種形式的BBS、貼吧、論壇、社區(qū);博客:各博客網(wǎng)站的博客信息;4)微博:國(guó)內(nèi)外微博網(wǎng)站信息監(jiān)測(cè);5)電子報(bào):各類報(bào)紙的電子報(bào)的信息監(jiān)測(cè);6)問答:對(duì)問答類網(wǎng)站的采集;7)視頻:對(duì)視頻網(wǎng)站文字信息的采集;8)WAP:對(duì)WAP網(wǎng)站信息的采集;9)搜索引擎:對(duì)搜索引擎信息的聚合。10)微信公眾賬號(hào)采集實(shí)現(xiàn)對(duì)微信公眾賬號(hào)信息的監(jiān)控和數(shù)據(jù)采集。系統(tǒng)可自動(dòng)添加對(duì)微信公共賬號(hào)的關(guān)注,形成微信公眾賬號(hào)庫(kù),實(shí)現(xiàn)對(duì)公共帳號(hào)信息的實(shí)時(shí)采集。通過(guò)自動(dòng)識(shí)別技術(shù)識(shí)別并抽取網(wǎng)頁(yè)的要素,包括:標(biāo)題、來(lái)源網(wǎng)站、來(lái)源頻道、發(fā)布人、發(fā)布時(shí)間、鏈接(URL)、正文、圖片、快照、表格,自動(dòng)剔除廣告(圖片或flash)等垃圾部分,存儲(chǔ)為統(tǒng)一的結(jié)構(gòu)化信息,供后續(xù)分析、檢索、查詢、統(tǒng)計(jì)和展示。海量子系統(tǒng)實(shí)現(xiàn)海量采集文章數(shù)據(jù)(高并發(fā))存儲(chǔ)和相關(guān)的查詢統(tǒng)計(jì)業(yè)務(wù)(如歷史文章查詢),并解決存儲(chǔ)服務(wù)的長(zhǎng)期運(yùn)營(yíng)的高可用性問題。利用MongoDB來(lái)一體化解決采集文章數(shù)據(jù)(高并發(fā))存儲(chǔ)和相關(guān)的查詢統(tǒng)計(jì)業(yè)務(wù)(如歷史文章查詢),并解決存儲(chǔ)服務(wù)的長(zhǎng)期運(yùn)營(yíng)的高可用性問題。具體包括:(1)解決海量文章信息存儲(chǔ)問題(高并發(fā)寫、高速查詢、高速統(tǒng)計(jì)分析);(2)解決海量文章檢索問題(高并發(fā)寫、高速查詢、統(tǒng)計(jì)分析);(3)解決存儲(chǔ)服務(wù)高可用性問題(如負(fù)載均衡、線性擴(kuò)容、故障轉(zhuǎn)移、災(zāi)備恢復(fù)、服務(wù)監(jiān)測(cè)等);最終目標(biāo):簡(jiǎn)化現(xiàn)有平臺(tái)業(yè)務(wù)流程,減少故障節(jié)點(diǎn),提高存儲(chǔ)服務(wù)的高可用性。采用Lucene+Hadoop分布式并行計(jì)算搜索框架,能對(duì)T級(jí)以上索引提供7*
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1