freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn)-資料下載頁

2024-11-09 12:09本頁面
  

【正文】 等微博被網(wǎng)友廣泛使用,這些主要為松散的,非結(jié)構(gòu)化信息要實(shí)現(xiàn)采集的難度也越來越大,靠手工采集已經(jīng)不太現(xiàn)實(shí)。為解決這個(gè)問題,現(xiàn)在的采集系統(tǒng)往往采用具有一定智能的自動(dòng)采集技術(shù),國內(nèi)外早期的網(wǎng)絡(luò)采集方法是針對(duì)特定采集對(duì)象編寫的程序,這個(gè)程序稱為wrapper。近幾年,越來越多的采集工具被開發(fā)出來用來代替?zhèn)鹘y(tǒng)的手工編寫wrapper程序的方法。目前較為流行的采集工具可以分為六大類:傳統(tǒng)的wrapper由于是手工編寫針對(duì)某一個(gè)目標(biāo),如果要為大量目標(biāo)手工編寫非常不效率,通過專用高級(jí)語言可以方便編寫wrapper。例如:Minerva,TSIMMIS,WebOQL,F(xiàn)LORID,Jedi等。(HTMLaware Tools)這些工具在抽取時(shí)主要依賴HTML文檔的內(nèi)在結(jié)構(gòu)特征。在抽取過程之前,這些工具先把文檔轉(zhuǎn)換成標(biāo)簽樹;再根據(jù)標(biāo)簽樹自動(dòng)或半自動(dòng)地抽取數(shù)據(jù)。代表工具有Knowlesys,MDR。(Natural language processing)的工具(NLPbased Tools)這些工具通常利用filtering、partofspeech tagging、lexical semantic tagging等NLP技術(shù)建立短語和句子元素之間的關(guān)系,推導(dǎo)出抽取規(guī)則。這些工具比較適合于抽取那些包含符合文法的頁面。代表工具有 RAPIER,SRV,WHISK。(Wrapper Induction Tools)包裝器的歸納工具從一組訓(xùn)練樣例中歸納出基于分隔符的抽取規(guī)則。這些工具和基于NLP的工具之間最大的差別在于:這些工具不依賴于語言約束,而是依賴于數(shù)據(jù)的格式化特征。這個(gè)特點(diǎn)決定了這些工具比基于NLP的工具更適合于抽取HTML文檔。代表工具有:WIEN,SoftMealy,STALKER。(Modelingbased Tools)這些工具讓用戶通過圖形界面,建立文檔中其感興趣的對(duì)象的結(jié)構(gòu)模型,“教”工具學(xué)會(huì)如何識(shí)別文檔中的對(duì)象,從而抽取出對(duì)象。代表工具有:NoDoSE,DEByE。(Ontologybased Tools)這些工具首先需要專家參與,人工建立某領(lǐng)域的知識(shí)庫,然后工具基于知識(shí)庫去做抽取操作。如果知識(shí)庫具有足夠的表達(dá)能力,那么抽取操作可以做到完全自動(dòng)。而且由這些工具生成的包裝器具有比較好的靈活性和適應(yīng)性。代表工具有:BYU,Xtract。網(wǎng)絡(luò)輿情分析系統(tǒng)為整個(gè)系統(tǒng)的核心功能,其主要包括以下功能:熱點(diǎn)識(shí)別能力、聚類分析、傾向性分析與統(tǒng)計(jì)、信息自動(dòng)摘要功能。由于網(wǎng)絡(luò)信息的更新和變化速度非???,導(dǎo)致網(wǎng)絡(luò)熱點(diǎn)也時(shí)常轉(zhuǎn)化,因此識(shí)別熱點(diǎn)成為整個(gè)分析系統(tǒng)的前提條件。一般對(duì)于一段時(shí)間內(nèi)的熱門話題的識(shí)別主要是根據(jù)信息出處權(quán)威度、評(píng)論數(shù)量、發(fā)言時(shí)間密集程度等參數(shù),給予一定的權(quán)重值,然后統(tǒng)計(jì)出該時(shí)間段內(nèi)的熱點(diǎn)。傳統(tǒng)的手工統(tǒng)計(jì)分析對(duì)于海量的數(shù)據(jù)基本是無能為力,即使是勉強(qiáng)統(tǒng)計(jì)也會(huì)因?yàn)閿?shù)據(jù)量而對(duì)數(shù)據(jù)的主題把握會(huì)產(chǎn)生偏差,從而造成統(tǒng)計(jì)數(shù)據(jù)失真,進(jìn)而造成分析結(jié)果錯(cuò)誤。對(duì)文章標(biāo)題和關(guān)鍵詞進(jìn)行聚類分析是現(xiàn)在常用的網(wǎng)絡(luò)輿情分析方法,現(xiàn)在被廣泛的采用,常用的聚類分析方法一般分為五類:首先創(chuàng)建k個(gè)劃分,k為要?jiǎng)?chuàng)建的劃分個(gè)數(shù);然后利用一個(gè)循環(huán)定位技術(shù)通過將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括:kmeans,kmedoids,CLARA,CLARANS,F(xiàn)CM。創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的這類方法包括:BIRCH方法,它首先利用樹的結(jié)構(gòu)對(duì)對(duì)象集進(jìn)行劃分;然后再利用其它聚類方法對(duì)這些聚類進(jìn)行優(yōu)化。CURE方法,它利用固定數(shù)目代表對(duì)象來表示相應(yīng)聚類;然后對(duì)各聚類按照指定量(向聚類中心)進(jìn)行收縮。ROCK方法,它利用聚類間的連接進(jìn)行聚類合并。CHEMALOEN方法,它則是在層次聚類時(shí)構(gòu)造動(dòng)態(tài)模型。根據(jù)密度完成對(duì)象的聚類。它根據(jù)對(duì)象周圍的密度(如DBSCAN)不斷增長(zhǎng)聚類。典型的基于密度方法包括:DBSCAN:該算法通過不斷生長(zhǎng)足夠高密度區(qū)域來進(jìn)行聚類;它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個(gè)聚類定義為一組“密度連接”的點(diǎn)集。OPTICS:并不明確產(chǎn)生一個(gè)聚類,而是為自動(dòng)交互的聚類分析計(jì)算出一個(gè)增強(qiáng)聚類順序。首先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利用網(wǎng)格結(jié)構(gòu)完成聚類。STING就是一個(gè)利用網(wǎng)格單元保存的統(tǒng)計(jì)信息進(jìn)行基于網(wǎng)格聚類的方法。CLIQUE和WaveCluster 則是一個(gè)將基于網(wǎng)格與基于密度相結(jié)合的方法。它假設(shè)每個(gè)聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的基于模型方法包括:統(tǒng)計(jì)方法COBWEB:是一個(gè)常用的且簡(jiǎn)單的增量式概念聚類方法。它的輸入對(duì)象是采用符號(hào)量(屬性值)對(duì)來加以描述的。采用分類樹的形式來創(chuàng)建一個(gè)層次聚類。CLASSIT是COBWEB的另一個(gè)版本。它可以對(duì)連續(xù)取值屬性進(jìn)行增量式聚類。對(duì)信息的闡述的觀點(diǎn)、主旨進(jìn)行傾向性分析。可以為網(wǎng)絡(luò)輿情的分析提供參考依據(jù)。但是由于網(wǎng)絡(luò)詞匯的多樣性,網(wǎng)絡(luò)上出現(xiàn)許多新詞,要判斷這些詞的傾向性就比較困難,一般傾向性分析可分為三種:中文詞語情感傾向詞典是給定一組已知極性的詞語集合作為種子,對(duì)于一個(gè)情感傾向未知的新詞,在電子詞典中找到與該詞語義相近、并且在種子集合中出現(xiàn)的若干個(gè)詞,根據(jù)這幾個(gè)種子詞的極性對(duì)未知詞的情感傾向進(jìn)行推斷。與詞典法比較類似,也是給予一些已知極性的詞語作為種子詞,對(duì)于一個(gè)新詞根據(jù)它和種子詞的緊密程度對(duì)其情感傾向性進(jìn)行推斷,不同的是他是根據(jù)詞語在種子庫中的同現(xiàn)情況判斷其聯(lián)系緊密程度來作為判斷依據(jù)。首先對(duì)情感傾向性分析種子庫進(jìn)行手工標(biāo)注,標(biāo)注的級(jí)別包括文檔集的標(biāo)注、短語級(jí)標(biāo)注和分句級(jí)標(biāo)注。在這些基礎(chǔ)上,利用詞語的共現(xiàn)關(guān)系、搭配關(guān)系或者語義關(guān)系,以判斷詞語的情感傾向性。能夠根據(jù)文檔內(nèi)容自動(dòng)抽取文檔摘要信息,這些摘要能夠準(zhǔn)確代表文章內(nèi)容主題和中心思想。用戶無需查看全部文章內(nèi)容,通過該智能摘要即可快速了解文章大意與核心內(nèi)容,提高用戶信息利用效率。而且該智能摘要可以根據(jù)用戶需求調(diào)整不同長(zhǎng)度,滿足不同的需求。主要包括文本信息摘要與網(wǎng)頁信息摘要兩個(gè)方面。網(wǎng)絡(luò)輿情檢索分析系統(tǒng)產(chǎn)生的結(jié)果會(huì)實(shí)時(shí)存放進(jìn)入存儲(chǔ)系統(tǒng)之中,而檢索系統(tǒng)可以分時(shí)間、地點(diǎn)、類型、網(wǎng)站等等進(jìn)行分類檢索,然后提供給用戶。分析系統(tǒng)提供的熱點(diǎn)分析往往只是對(duì)已經(jīng)產(chǎn)生的熱點(diǎn),或者是將要成為熱點(diǎn)的次熱點(diǎn)。而檢索系統(tǒng)還可以讓用戶自定義關(guān)鍵詞對(duì)采集到的信息進(jìn)行自定義監(jiān)控。根據(jù)網(wǎng)絡(luò)輿情分析系統(tǒng)處理后的結(jié)果或網(wǎng)絡(luò)輿情檢索系統(tǒng)查詢的結(jié)果生成報(bào)告,系統(tǒng)可通過短信、電話、網(wǎng)頁瀏覽等各種手段及時(shí)告知,提供決策支持??傊?,網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)出現(xiàn)時(shí)間還比較短,基于其的算法和方法還都很不完善,而且隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)應(yīng)用技術(shù)也在不斷的變化,像近幾年微博等非結(jié)構(gòu)性的應(yīng)用形式的出現(xiàn),給檢測(cè)系統(tǒng)的監(jiān)測(cè)帶來不小的挑戰(zhàn)。方便、快捷、智能、通用將是今后輿情監(jiān)測(cè)系統(tǒng)發(fā)展的方向。參 考 文 獻(xiàn)[1][M].江蘇:江蘇人民出版社,20101102[2][M].江蘇:江蘇人民出版社,2009[3]郭建永,蔡永,[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(6).■
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1