【文章內(nèi)容簡(jiǎn)介】
意見領(lǐng)袖用戶對(duì)信息的累計(jì)人群覆蓋率都高于其他算法,這充分說(shuō)明該算法通過(guò)親近率引入個(gè)體傳播意愿和節(jié)點(diǎn)互動(dòng)程度后,能夠有效地逼近用戶的真實(shí)信息傳播能力。同時(shí)我們發(fā)現(xiàn)WeiboRank算法和用戶的followers兩個(gè)序列的傳播影響人次覆蓋率比較相近,這說(shuō)明如果在不太要求精確性的情況下,用戶粉絲數(shù)量基本上能夠反映用戶的傳播影響力。而用戶retweets的序列(轉(zhuǎn)發(fā)信息量)作為用戶的傳播影響力的評(píng)價(jià)指標(biāo)是效果最差的。轉(zhuǎn)發(fā)量大的用戶并不一定意味著其影響力也大。從圖中可以看出前20%的用戶的用戶影響力覆蓋了80%的用戶傳播影響人次,符合人們?nèi)粘UJ(rèn)識(shí)中的20/80分布規(guī)律。預(yù)警的概念源于對(duì)重大自然災(zāi)害征兆的研究。目前關(guān)于天氣、自然狀況的預(yù)警系統(tǒng)已經(jīng)在社會(huì)生活中發(fā)揮著顯著的作用。究其原因,自然現(xiàn)象內(nèi)外部影響因素之間的因果關(guān)系相對(duì)確定,而且這些現(xiàn)象都經(jīng)歷了長(zhǎng)期的觀察測(cè)量,有了較好的量化基礎(chǔ),因而可以方便地進(jìn)行預(yù)警。預(yù)警,究其實(shí)質(zhì)是一種特殊的預(yù)測(cè),因?yàn)轭A(yù)測(cè)是預(yù)警的基礎(chǔ)和條件,預(yù)警是選擇實(shí)施預(yù)案的前提和準(zhǔn)備。預(yù)警體現(xiàn)動(dòng)態(tài)的認(rèn)知,預(yù)案體現(xiàn)靜態(tài)的防范。微博輿情預(yù)警,就是發(fā)現(xiàn)對(duì)微博輿情出現(xiàn)、發(fā)展和消亡具有重要影響的因素,并連續(xù)不間斷地動(dòng)態(tài)監(jiān)測(cè)、度量、及采集它們的信息,根據(jù)預(yù)警體系內(nèi)容,運(yùn)用綜合分析技術(shù),對(duì)當(dāng)前微博輿情做出評(píng)價(jià)分析并預(yù)測(cè)其發(fā)展趨勢(shì),及時(shí)做出等級(jí)預(yù)報(bào)的活動(dòng)。網(wǎng)絡(luò)輿情預(yù)警等級(jí)的設(shè)定在綜合考慮國(guó)際慣例、我國(guó)相關(guān)機(jī)構(gòu)管理規(guī)定及微博輿情發(fā)展趨勢(shì)的前提下,微博輿情的預(yù)警等級(jí)被劃分為:輕警情(Ⅳ級(jí),非常態(tài))、中度警情(Ⅲ級(jí),警示級(jí))、重警情(Ⅱ級(jí),危險(xiǎn)級(jí))和特重警情(I級(jí),極度危險(xiǎn)級(jí))四個(gè)等級(jí),并依次采用藍(lán)色、黃色、橙色和紅色來(lái)加以表示。藍(lán)色級(jí)(IV級(jí)):出現(xiàn)輿情。微博用戶對(duì)該輿情關(guān)注度低,傳播速度慢,輿情影響局限在較小范圍內(nèi),沒有成為當(dāng)日熱點(diǎn)的可能;黃色級(jí)(Ⅲ級(jí)):出現(xiàn)輿情。微博用戶對(duì)該輿情關(guān)注度較高,傳播速度中等,輿情影響局限在一定范圍內(nèi),有一定可能成為當(dāng)日熱點(diǎn);橙色級(jí)(Ⅱ級(jí)):出現(xiàn)輿情。微博用戶對(duì)該輿情關(guān)注度高,傳播速度快,影響擴(kuò)散到了很大范圍,輿情有可能成為多日熱點(diǎn);紅色級(jí)(I級(jí)):出現(xiàn)輿情。微博用戶對(duì)該輿情關(guān)注度極高,傳播速度非???,影響擴(kuò)大到了整個(gè)社會(huì),輿情必定成為熱點(diǎn)并且持續(xù)一段時(shí)間。對(duì)曾經(jīng)成為過(guò)熱點(diǎn)的微博消息的傳播特點(diǎn)進(jìn)行整理后,得出兩種熱點(diǎn)傳播模型,一種是傳統(tǒng)媒體在微博建立的用戶的傳播方式,一種是微博達(dá)人的消息傳播模式,圖45就是兩種方式的轉(zhuǎn)發(fā)量時(shí)間曲線圖,例子選擇則是媒體模式選擇的是南方周末“一名中國(guó)公民在波士頓爆炸案中遇難”的消息傳播,微博達(dá)人模式選擇的是“國(guó)學(xué)大師劉文典說(shuō)過(guò)的一句話”,圖46和圖47選擇的是傳播量時(shí)間曲線圖,其中南方周末的微博消息在一天的時(shí)間內(nèi)的轉(zhuǎn)發(fā)量為997,傳播用戶量接近500萬(wàn),其中南方周末本身的粉絲數(shù)量就占了近450萬(wàn),轉(zhuǎn)發(fā)率非常低,但是傳播范圍廣,依然是熱點(diǎn),而微博達(dá)人模式則不一樣,轉(zhuǎn)發(fā)量為724,最終傳播用戶量接近10萬(wàn),在一定范圍內(nèi)也成為了熱點(diǎn),而它的傳播時(shí)間圖就和起點(diǎn)很高的南方周末的圖形很不一樣,有著較高的轉(zhuǎn)發(fā)率,雖然廣度不及南方周末,但也成為過(guò)熱點(diǎn)話題。從兩者的傳播圖形中可以看出,轉(zhuǎn)發(fā)率并不能成為熱點(diǎn)評(píng)估的標(biāo)準(zhǔn)。兩種模式中,有一共同點(diǎn)則是都曾經(jīng)出現(xiàn)過(guò)短時(shí)間內(nèi)的傳播量激增,然后成為熱點(diǎn),根據(jù)這一特性設(shè)計(jì)了趨勢(shì)分析模塊,從最早的意見領(lǐng)袖開始,每出現(xiàn)一個(gè)意見領(lǐng)袖,提取這一意見領(lǐng)袖后一小時(shí)的意見領(lǐng)袖的傳播廣度,設(shè)定不同的M值(一小時(shí)內(nèi)微博傳播量),根據(jù)以往數(shù)據(jù)可以得出,M值在5000以下為藍(lán)色級(jí)基本無(wú)威脅,在10000到50000為黃色級(jí),需要注意,有很大概率成為熱點(diǎn),而50000以上則肯定成為熱點(diǎn),但持續(xù)時(shí)間還未能有效的分級(jí),也就是還不能對(duì)橙色和紅色級(jí)進(jìn)行有效分級(jí),但已能區(qū)分熱點(diǎn)與否。當(dāng)M值在5000到10000時(shí),成為熱點(diǎn)的概率經(jīng)過(guò)統(tǒng)計(jì)在50%左右,而如果M值在5000到10000之間出現(xiàn)的次數(shù)能達(dá)到兩次,則成為熱點(diǎn)的概率能大大提高,大概能達(dá)到80%左右,所以若M值在5000到10000之間時(shí),統(tǒng)計(jì)M值的次數(shù),若只出現(xiàn)一次,則為藍(lán)色級(jí),若出現(xiàn)兩次或以上,為黃色級(jí)。而若10000以上也出現(xiàn)兩次或以上,則分為橙色級(jí),也就是很可能成為多日熱點(diǎn)。圖45 轉(zhuǎn)發(fā)量時(shí)間曲線圖圖46 微博達(dá)人模式圖圖47媒體模式傳播圖利用趨勢(shì)分析模塊對(duì)微博消息進(jìn)行分析,對(duì)分析結(jié)果與最終消息走勢(shì)進(jìn)行對(duì)比,結(jié)果如圖48所示,總共測(cè)試了15組微博消息,媒體模式10組句子和微博達(dá)人模式5組。前10組為媒體傳播模式的微博消息,其中“江蘇鹽城政府單位吃喝27萬(wàn)”,“南京一郵局被強(qiáng)拆”,“埃及浮雕刻有‘丁錦昊到此一游’”,“人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣萌裝天真”,“鄭州暴雨”,這5條微博成為熱點(diǎn),其余沒有成為熱點(diǎn),趨勢(shì)分析模塊沒有預(yù)測(cè)出“江蘇政府單位吃喝”, “人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣萌裝天真”這兩條熱點(diǎn);誤測(cè)了“李克強(qiáng)發(fā)表講話”,“人民日?qǐng)?bào):農(nóng)村孩子為何不愿躍‘龍門’” 為熱點(diǎn),準(zhǔn)確率只有60%。在微博達(dá)人模式中,“營(yíng)養(yǎng)餐食物變質(zhì),營(yíng)養(yǎng)縮水,問(wèn)題不斷”這條熱點(diǎn)沒有預(yù)測(cè)出,但其他熱點(diǎn)均成功預(yù)測(cè)并且沒有誤報(bào)熱點(diǎn),準(zhǔn)確率為80%。微博題目熱點(diǎn)預(yù)警結(jié)果消息最終走勢(shì)結(jié)果對(duì)比李克強(qiáng)將在波茨坦會(huì)議舊址發(fā)表講話黃色級(jí)藍(lán)色級(jí)錯(cuò)誤江蘇鹽城政府單位吃喝27萬(wàn)黃色級(jí)藍(lán)色級(jí)錯(cuò)誤南京一郵局被強(qiáng)拆橙色級(jí)橙色級(jí)正確李克強(qiáng):無(wú)論多忙都要抽時(shí)間讀書藍(lán)色級(jí)藍(lán)色級(jí)正確埃及浮雕刻有“丁錦昊到此一游”橙色級(jí)紅色級(jí)正確人民日?qǐng)?bào):農(nóng)村孩子為何不愿躍“龍門”黃色級(jí)藍(lán)色級(jí)錯(cuò)誤人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣萌裝天真藍(lán)色級(jí)黃色級(jí)錯(cuò)誤鄭州暴雨黃色級(jí)黃色級(jí)正確藍(lán)色級(jí)藍(lán)色級(jí)正確營(yíng)養(yǎng)餐食物變質(zhì),營(yíng)養(yǎng)縮水,問(wèn)題不斷藍(lán)色級(jí)黃色級(jí)錯(cuò)誤陳佩斯關(guān)于網(wǎng)絡(luò)輿論的評(píng)論黃色級(jí)黃色級(jí)正確王石:愛國(guó)主義與民族主義黃色級(jí)黃色級(jí)正確銀河SOHO環(huán)境監(jiān)測(cè)藍(lán)色級(jí)藍(lán)色級(jí)正確小學(xué)生作文《停車》藍(lán)色級(jí)藍(lán)色級(jí)正確Esports海濤:G1聯(lián)賽IG負(fù)于LGD黃色級(jí)黃色級(jí)正確圖48 分析結(jié)果分析圖根據(jù)與真實(shí)走向的對(duì)比,可以發(fā)現(xiàn)在微博達(dá)人模式中,趨勢(shì)分析預(yù)警成為熱點(diǎn)的結(jié)果的準(zhǔn)確率在80%左右,即使沒有成為當(dāng)日熱點(diǎn)也是關(guān)注比較靠前的話題。而媒體模式中的準(zhǔn)確率就比較差強(qiáng)人意了,只有60%左右,根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)媒體本身?yè)碛斜姸喾劢z數(shù),所以發(fā)表的消息雖然成為熱點(diǎn)的可能性非常大,但也總有40%的新聞只是新聞,傳播面廣而沒有成為熱點(diǎn),所以對(duì)媒體模式的更準(zhǔn)確預(yù)警分析有待改進(jìn)。初步設(shè)想對(duì)媒體認(rèn)證的意見領(lǐng)袖傳播的微博消息加上一個(gè)轉(zhuǎn)發(fā)率的對(duì)比,但尚未從已知數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)與轉(zhuǎn)發(fā)率的明顯關(guān)系。 五、結(jié)論與展望盡管微博輿情監(jiān)控技術(shù)日趨成熟,但是微博輿情本身的特點(diǎn)及復(fù)雜性使得微博輿情信息的處理不能像普通文本信息的處理那樣進(jìn)行。微博輿情信息與普通文本的最大區(qū)別在于它的擴(kuò)散性和不可控性,信息內(nèi)容非常動(dòng)態(tài)。由于時(shí)間和精力有限,這個(gè)系統(tǒng)尚未做到盡善盡美,主要還存在以下幾個(gè)方面問(wèn)題:對(duì)微博信息的實(shí)時(shí)獲取,是趨勢(shì)分析的關(guān)鍵,由于新浪API的限制,導(dǎo)致對(duì)微博消息的抓取有一定限制,在抓取數(shù)據(jù)時(shí)會(huì)有一定時(shí)間的延遲,在數(shù)據(jù)挖掘方面有待改進(jìn)。而且從系統(tǒng)功能方面,首先實(shí)現(xiàn)的是對(duì)指定微博內(nèi)容的熱點(diǎn)趨勢(shì)分析,而沒有實(shí)現(xiàn)從實(shí)時(shí)所有微博信息中發(fā)現(xiàn)熱點(diǎn),網(wǎng)絡(luò)抓取技術(shù)這方面有待改進(jìn)。漢語(yǔ)語(yǔ)義的豐富性與復(fù)雜性導(dǎo)致中文分詞與語(yǔ)義分析的困難,許多適用英文語(yǔ)義分析的算法無(wú)法用于中文語(yǔ)義,由于中文語(yǔ)義分析需要建立自然語(yǔ)料庫(kù),這方面需要的工作量過(guò)大,時(shí)間和精力不足,所以在這方面只有一些理論研究,沒有實(shí)現(xiàn)。而如果實(shí)現(xiàn)了中文語(yǔ)義分析,充分解析微博句子或詞語(yǔ),對(duì)于敏感話題識(shí)別和微博輿情趨勢(shì)分析將會(huì)有重要意義。,對(duì)于媒體傳播模式的微博消息的預(yù)警準(zhǔn)確率基帶提高,需要加入文本傾向性分析和轉(zhuǎn)發(fā)率等因素來(lái)提高分析準(zhǔn)確率。由于技術(shù)限制,對(duì)一些傳播特別廣的全國(guó)范圍性的消息熱點(diǎn)的監(jiān)測(cè)沒能實(shí)現(xiàn),希望能對(duì)挖掘算法進(jìn)行改進(jìn),完成對(duì)這種熱點(diǎn)的特點(diǎn)分析和模型建立。通過(guò)更多的數(shù)據(jù)抓取來(lái)改進(jìn)微博意見領(lǐng)袖影響力算法。進(jìn)而完成對(duì)趨勢(shì)分析模塊的改進(jìn),對(duì)趨勢(shì)分析模塊的初步改進(jìn)設(shè)想是將微博傳播趨勢(shì)分析進(jìn)行分類,微博達(dá)人模式適用現(xiàn)行模塊,媒體模塊則需要重新設(shè)定參數(shù),進(jìn)行修改,同時(shí)在趨勢(shì)分析模塊中加入文本傾向性分析,也就是語(yǔ)義分析模塊來(lái)提高微博分析的準(zhǔn)確性,并且實(shí)現(xiàn)對(duì)熱點(diǎn)的熱度分級(jí)。文本傾向性分析模塊傳統(tǒng)的輿情分析和調(diào)查主要采用靜態(tài)的手段,如:通過(guò)調(diào)查問(wèn)卷,電話和面談,國(guó)內(nèi)外都有不少專業(yè)的調(diào)查公司和院所參與調(diào)查問(wèn)題和場(chǎng)景的設(shè)計(jì)工作。而網(wǎng)絡(luò)輿情分析系統(tǒng)是讓計(jì)算機(jī)去動(dòng)態(tài)的收集數(shù)據(jù),對(duì)其進(jìn)行自動(dòng)分析形成輿情分析結(jié)果。網(wǎng)絡(luò)輿情分析系統(tǒng)所涉及的領(lǐng)域眾多,不過(guò)各個(gè)子領(lǐng)域的一些相關(guān)技術(shù)是可以互相參考和借鑒的。如美國(guó)專利局編號(hào)為4930077的專利提出了通過(guò)文本分析來(lái)預(yù)測(cè)輿情的方法加州大學(xué)伯克利分校社會(huì)科學(xué)計(jì)算實(shí)驗(yàn)室的SDA項(xiàng)目,主要針對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行自動(dòng)分析;國(guó)內(nèi)的方正智思是北大方正技術(shù)研究院挾多年積累的中文信息處理的技術(shù),研發(fā)推出的一個(gè)中文智能信息挖掘與知識(shí)管理的軟件開發(fā)包與服務(wù)系統(tǒng)。這些成型系統(tǒng)一般由數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析等模塊組成。對(duì)現(xiàn)有各種主題分類相關(guān)技術(shù)進(jìn)行研究,分類列出了這些技術(shù)中對(duì)文本傾向性分類仍然適用的方式和方法,并總結(jié)了其中面臨的主要技術(shù)瓶頸;通過(guò)列舉文本傾向性分類處理對(duì)象的特點(diǎn)規(guī)律,總結(jié)了在構(gòu)建傾向性分類器時(shí)需要著重考慮的問(wèn)題和因素。針對(duì)目前傾向性語(yǔ)義資源匱乏的現(xiàn)狀,收集和整理了當(dāng)前主要的基礎(chǔ)語(yǔ)義資源,分析了在構(gòu)建語(yǔ)義資源時(shí)需要考慮的因素,提出了用于傾向性分類的語(yǔ)義資源的構(gòu)建方法并實(shí)際構(gòu)建了一部領(lǐng)域極性詞典。通過(guò)加入語(yǔ)義分析模塊,可以極大提高預(yù)警的準(zhǔn)確率,實(shí)現(xiàn)對(duì)媒體模式微博消息的預(yù)警。隨著網(wǎng)絡(luò)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)逐漸發(fā)展成反映社會(huì)輿情的主要載體,微博輿情也成了網(wǎng)絡(luò)輿情的重要組成部分。微博輿情管理平臺(tái)在民意調(diào)查,輿情監(jiān)控和消息獲取等方面均有很大價(jià)值。針對(duì)目前輿情管理平臺(tái)的研究現(xiàn)狀,本文重在研究其中數(shù)據(jù)分析系統(tǒng)的內(nèi)容,有以下貢獻(xiàn):整合中文分詞系統(tǒng)與空間向量模型及Kmeans算法,實(shí)現(xiàn)了對(duì)微博數(shù)據(jù)的轉(zhuǎn)化及聚類,給出了微博意見領(lǐng)袖的評(píng)估算法及對(duì)微博消息的預(yù)警等功能。初步實(shí)現(xiàn)了微博輿情管理平臺(tái)的功能。參考文獻(xiàn)[1] 張洋, 何楚杰, 段俊文, 等. 微博輿情熱點(diǎn)分析系統(tǒng)設(shè)計(jì)研究[J]. 信息網(wǎng)絡(luò)安全, 2012 (9): 6064[2] 王藝. 重大突發(fā)公共事件的微博輿情監(jiān)測(cè)與引導(dǎo)初探[J]. 貴州民族學(xué)院學(xué)報(bào): 哲學(xué)社會(huì)科學(xué)版, 2011 (5): 148151[3] 楊濤. 智能信息處理技術(shù)在互聯(lián)網(wǎng)輿情分析中的應(yīng)用[D]. 同濟(jì)大學(xué), 2008[4] 張超. 文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應(yīng)用研究 [D][D]. 北京: 北京郵電大學(xué), 2008.[5] 唐曉波, 宋承偉. 基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析[J]. 情報(bào)學(xué)報(bào), 2012, 31(11): 11531162.[6] 王晶, 朱珂, 汪斌強(qiáng). 基于信息數(shù)據(jù)分析的微博研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2012, 12(32): 7.[7] 莫溢, 劉盛華, 劉悅, 等. 一種相關(guān)話題微博信息的篩選規(guī)則學(xué)習(xí)算法[J]. 中文信息學(xué)報(bào), 2012, 26(5): 16.[8] 譚俊武. 面向網(wǎng)絡(luò)輿情分析的文本傾向性分類技術(shù)的研究與實(shí)現(xiàn) [D][D]. 國(guó)防科學(xué)技術(shù)大學(xué), 2009.[9] 陸浩. 網(wǎng)絡(luò)輿情監(jiān)測(cè)研究與原型實(shí)現(xiàn) [D][D]. 北京: 北京郵電大學(xué), 2009.[10] 肖宇, 許煒, 商召璽. 微博用戶區(qū)域影響力識(shí)別算法及分析[J]. 計(jì)算機(jī)科學(xué), 2012, 39(9): 3842.[11] 楊春霞, 胡丹婷, 胡森. 微博病毒傳播模型研究[J]. Computer Engineering, 2012, 38(15).[12] 李雯靜, 許鑫, 陳正權(quán). 網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計(jì)與分析[J]. 情報(bào)科學(xué), 2009, 27(7): 986991.[13] 滕達(dá). 基于趨勢(shì)分析的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng) (TANCMS) 的研究與實(shí)現(xiàn)[D]. 國(guó)防科學(xué)技術(shù)大學(xué), 2008.[14] Larsen B, Aone C. Fast and effective text mining using lineartime document clustering[C]//Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 1999: 1622.[15] Kumar V, Tan P N, Steinbach M. Cluster analysis: basic concepts and algorithms[J]. Introduction to data mining, 2006: 487586.[16] Page L, Brin S, Motwani R, et al. The PageRank citation ranking: bringing order to the web[J]. 1999.附錄Ⅰ: 翻譯原文Cluster Analysis:Basic Concepts and AlgorithmsCluster analysis divides data into groups (clusters) that are meaningful, useful,or both. If meaningful groups are the goal, then the clusters should capture the natural structure of the data. In some cases,