freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)評價(jià)標(biāo)準(zhǔn)-資料下載頁

2025-10-31 12:09本頁面
  

【正文】 等微博被網(wǎng)友廣泛使用,這些主要為松散的,非結(jié)構(gòu)化信息要實(shí)現(xiàn)采集的難度也越來越大,靠手工采集已經(jīng)不太現(xiàn)實(shí)。為解決這個問題,現(xiàn)在的采集系統(tǒng)往往采用具有一定智能的自動采集技術(shù),國內(nèi)外早期的網(wǎng)絡(luò)采集方法是針對特定采集對象編寫的程序,這個程序稱為wrapper。近幾年,越來越多的采集工具被開發(fā)出來用來代替?zhèn)鹘y(tǒng)的手工編寫wrapper程序的方法。目前較為流行的采集工具可以分為六大類:傳統(tǒng)的wrapper由于是手工編寫針對某一個目標(biāo),如果要為大量目標(biāo)手工編寫非常不效率,通過專用高級語言可以方便編寫wrapper。例如:Minerva,TSIMMIS,WebOQL,F(xiàn)LORID,Jedi等。(HTMLaware Tools)這些工具在抽取時主要依賴HTML文檔的內(nèi)在結(jié)構(gòu)特征。在抽取過程之前,這些工具先把文檔轉(zhuǎn)換成標(biāo)簽樹;再根據(jù)標(biāo)簽樹自動或半自動地抽取數(shù)據(jù)。代表工具有Knowlesys,MDR。(Natural language processing)的工具(NLPbased Tools)這些工具通常利用filtering、partofspeech tagging、lexical semantic tagging等NLP技術(shù)建立短語和句子元素之間的關(guān)系,推導(dǎo)出抽取規(guī)則。這些工具比較適合于抽取那些包含符合文法的頁面。代表工具有 RAPIER,SRV,WHISK。(Wrapper Induction Tools)包裝器的歸納工具從一組訓(xùn)練樣例中歸納出基于分隔符的抽取規(guī)則。這些工具和基于NLP的工具之間最大的差別在于:這些工具不依賴于語言約束,而是依賴于數(shù)據(jù)的格式化特征。這個特點(diǎn)決定了這些工具比基于NLP的工具更適合于抽取HTML文檔。代表工具有:WIEN,SoftMealy,STALKER。(Modelingbased Tools)這些工具讓用戶通過圖形界面,建立文檔中其感興趣的對象的結(jié)構(gòu)模型,“教”工具學(xué)會如何識別文檔中的對象,從而抽取出對象。代表工具有:NoDoSE,DEByE。(Ontologybased Tools)這些工具首先需要專家參與,人工建立某領(lǐng)域的知識庫,然后工具基于知識庫去做抽取操作。如果知識庫具有足夠的表達(dá)能力,那么抽取操作可以做到完全自動。而且由這些工具生成的包裝器具有比較好的靈活性和適應(yīng)性。代表工具有:BYU,Xtract。網(wǎng)絡(luò)輿情分析系統(tǒng)為整個系統(tǒng)的核心功能,其主要包括以下功能:熱點(diǎn)識別能力、聚類分析、傾向性分析與統(tǒng)計(jì)、信息自動摘要功能。由于網(wǎng)絡(luò)信息的更新和變化速度非常快,導(dǎo)致網(wǎng)絡(luò)熱點(diǎn)也時常轉(zhuǎn)化,因此識別熱點(diǎn)成為整個分析系統(tǒng)的前提條件。一般對于一段時間內(nèi)的熱門話題的識別主要是根據(jù)信息出處權(quán)威度、評論數(shù)量、發(fā)言時間密集程度等參數(shù),給予一定的權(quán)重值,然后統(tǒng)計(jì)出該時間段內(nèi)的熱點(diǎn)。傳統(tǒng)的手工統(tǒng)計(jì)分析對于海量的數(shù)據(jù)基本是無能為力,即使是勉強(qiáng)統(tǒng)計(jì)也會因?yàn)閿?shù)據(jù)量而對數(shù)據(jù)的主題把握會產(chǎn)生偏差,從而造成統(tǒng)計(jì)數(shù)據(jù)失真,進(jìn)而造成分析結(jié)果錯誤。對文章標(biāo)題和關(guān)鍵詞進(jìn)行聚類分析是現(xiàn)在常用的網(wǎng)絡(luò)輿情分析方法,現(xiàn)在被廣泛的采用,常用的聚類分析方法一般分為五類:首先創(chuàng)建k個劃分,k為要創(chuàng)建的劃分個數(shù);然后利用一個循環(huán)定位技術(shù)通過將對象從一個劃分移到另一個劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括:kmeans,kmedoids,CLARA,CLARANS,F(xiàn)CM。創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的這類方法包括:BIRCH方法,它首先利用樹的結(jié)構(gòu)對對象集進(jìn)行劃分;然后再利用其它聚類方法對這些聚類進(jìn)行優(yōu)化。CURE方法,它利用固定數(shù)目代表對象來表示相應(yīng)聚類;然后對各聚類按照指定量(向聚類中心)進(jìn)行收縮。ROCK方法,它利用聚類間的連接進(jìn)行聚類合并。CHEMALOEN方法,它則是在層次聚類時構(gòu)造動態(tài)模型。根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度(如DBSCAN)不斷增長聚類。典型的基于密度方法包括:DBSCAN:該算法通過不斷生長足夠高密度區(qū)域來進(jìn)行聚類;它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個聚類定義為一組“密度連接”的點(diǎn)集。OPTICS:并不明確產(chǎn)生一個聚類,而是為自動交互的聚類分析計(jì)算出一個增強(qiáng)聚類順序。首先將對象空間劃分為有限個單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利用網(wǎng)格結(jié)構(gòu)完成聚類。STING就是一個利用網(wǎng)格單元保存的統(tǒng)計(jì)信息進(jìn)行基于網(wǎng)格聚類的方法。CLIQUE和WaveCluster 則是一個將基于網(wǎng)格與基于密度相結(jié)合的方法。它假設(shè)每個聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的基于模型方法包括:統(tǒng)計(jì)方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采用符號量(屬性值)對來加以描述的。采用分類樹的形式來創(chuàng)建一個層次聚類。CLASSIT是COBWEB的另一個版本。它可以對連續(xù)取值屬性進(jìn)行增量式聚類。對信息的闡述的觀點(diǎn)、主旨進(jìn)行傾向性分析。可以為網(wǎng)絡(luò)輿情的分析提供參考依據(jù)。但是由于網(wǎng)絡(luò)詞匯的多樣性,網(wǎng)絡(luò)上出現(xiàn)許多新詞,要判斷這些詞的傾向性就比較困難,一般傾向性分析可分為三種:中文詞語情感傾向詞典是給定一組已知極性的詞語集合作為種子,對于一個情感傾向未知的新詞,在電子詞典中找到與該詞語義相近、并且在種子集合中出現(xiàn)的若干個詞,根據(jù)這幾個種子詞的極性對未知詞的情感傾向進(jìn)行推斷。與詞典法比較類似,也是給予一些已知極性的詞語作為種子詞,對于一個新詞根據(jù)它和種子詞的緊密程度對其情感傾向性進(jìn)行推斷,不同的是他是根據(jù)詞語在種子庫中的同現(xiàn)情況判斷其聯(lián)系緊密程度來作為判斷依據(jù)。首先對情感傾向性分析種子庫進(jìn)行手工標(biāo)注,標(biāo)注的級別包括文檔集的標(biāo)注、短語級標(biāo)注和分句級標(biāo)注。在這些基礎(chǔ)上,利用詞語的共現(xiàn)關(guān)系、搭配關(guān)系或者語義關(guān)系,以判斷詞語的情感傾向性。能夠根據(jù)文檔內(nèi)容自動抽取文檔摘要信息,這些摘要能夠準(zhǔn)確代表文章內(nèi)容主題和中心思想。用戶無需查看全部文章內(nèi)容,通過該智能摘要即可快速了解文章大意與核心內(nèi)容,提高用戶信息利用效率。而且該智能摘要可以根據(jù)用戶需求調(diào)整不同長度,滿足不同的需求。主要包括文本信息摘要與網(wǎng)頁信息摘要兩個方面。網(wǎng)絡(luò)輿情檢索分析系統(tǒng)產(chǎn)生的結(jié)果會實(shí)時存放進(jìn)入存儲系統(tǒng)之中,而檢索系統(tǒng)可以分時間、地點(diǎn)、類型、網(wǎng)站等等進(jìn)行分類檢索,然后提供給用戶。分析系統(tǒng)提供的熱點(diǎn)分析往往只是對已經(jīng)產(chǎn)生的熱點(diǎn),或者是將要成為熱點(diǎn)的次熱點(diǎn)。而檢索系統(tǒng)還可以讓用戶自定義關(guān)鍵詞對采集到的信息進(jìn)行自定義監(jiān)控。根據(jù)網(wǎng)絡(luò)輿情分析系統(tǒng)處理后的結(jié)果或網(wǎng)絡(luò)輿情檢索系統(tǒng)查詢的結(jié)果生成報(bào)告,系統(tǒng)可通過短信、電話、網(wǎng)頁瀏覽等各種手段及時告知,提供決策支持。總之,網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)出現(xiàn)時間還比較短,基于其的算法和方法還都很不完善,而且隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)應(yīng)用技術(shù)也在不斷的變化,像近幾年微博等非結(jié)構(gòu)性的應(yīng)用形式的出現(xiàn),給檢測系統(tǒng)的監(jiān)測帶來不小的挑戰(zhàn)。方便、快捷、智能、通用將是今后輿情監(jiān)測系統(tǒng)發(fā)展的方向。參 考 文 獻(xiàn)[1][M].江蘇:江蘇人民出版社,20101102[2][M].江蘇:江蘇人民出版社,2009[3]郭建永,蔡永,[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(6).■
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1