【正文】
l the data could have been used.? Compression. Cluster prototypes can also be used for data pression. In particular, a table is created that consists of the prototypes for each cluster。初步實(shí)現(xiàn)了微博輿情管理平臺(tái)的功能。如美國(guó)專利局編號(hào)為4930077的專利提出了通過文本分析來預(yù)測(cè)輿情的方法加州大學(xué)伯克利分校社會(huì)科學(xué)計(jì)算實(shí)驗(yàn)室的SDA項(xiàng)目,主要針對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行自動(dòng)分析;國(guó)內(nèi)的方正智思是北大方正技術(shù)研究院挾多年積累的中文信息處理的技術(shù),研發(fā)推出的一個(gè)中文智能信息挖掘與知識(shí)管理的軟件開發(fā)包與服務(wù)系統(tǒng)。而如果實(shí)現(xiàn)了中文語義分析,充分解析微博句子或詞語,對(duì)于敏感話題識(shí)別和微博輿情趨勢(shì)分析將會(huì)有重要意義。微博題目熱點(diǎn)預(yù)警結(jié)果消息最終走勢(shì)結(jié)果對(duì)比李克強(qiáng)將在波茨坦會(huì)議舊址發(fā)表講話黃色級(jí)藍(lán)色級(jí)錯(cuò)誤江蘇鹽城政府單位吃喝27萬黃色級(jí)藍(lán)色級(jí)錯(cuò)誤南京一郵局被強(qiáng)拆橙色級(jí)橙色級(jí)正確李克強(qiáng):無論多忙都要抽時(shí)間讀書藍(lán)色級(jí)藍(lán)色級(jí)正確埃及浮雕刻有“丁錦昊到此一游”橙色級(jí)紅色級(jí)正確人民日?qǐng)?bào):農(nóng)村孩子為何不愿躍“龍門”黃色級(jí)藍(lán)色級(jí)錯(cuò)誤人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣萌裝天真藍(lán)色級(jí)黃色級(jí)錯(cuò)誤鄭州暴雨黃色級(jí)黃色級(jí)正確藍(lán)色級(jí)藍(lán)色級(jí)正確營(yíng)養(yǎng)餐食物變質(zhì),營(yíng)養(yǎng)縮水,問題不斷藍(lán)色級(jí)黃色級(jí)錯(cuò)誤陳佩斯關(guān)于網(wǎng)絡(luò)輿論的評(píng)論黃色級(jí)黃色級(jí)正確王石:愛國(guó)主義與民族主義黃色級(jí)黃色級(jí)正確銀河SOHO環(huán)境監(jiān)測(cè)藍(lán)色級(jí)藍(lán)色級(jí)正確小學(xué)生作文《停車》藍(lán)色級(jí)藍(lán)色級(jí)正確Esports海濤:G1聯(lián)賽IG負(fù)于LGD黃色級(jí)黃色級(jí)正確圖48 分析結(jié)果分析圖根據(jù)與真實(shí)走向的對(duì)比,可以發(fā)現(xiàn)在微博達(dá)人模式中,趨勢(shì)分析預(yù)警成為熱點(diǎn)的結(jié)果的準(zhǔn)確率在80%左右,即使沒有成為當(dāng)日熱點(diǎn)也是關(guān)注比較靠前的話題。對(duì)曾經(jīng)成為過熱點(diǎn)的微博消息的傳播特點(diǎn)進(jìn)行整理后,得出兩種熱點(diǎn)傳播模型,一種是傳統(tǒng)媒體在微博建立的用戶的傳播方式,一種是微博達(dá)人的消息傳播模式,圖45就是兩種方式的轉(zhuǎn)發(fā)量時(shí)間曲線圖,例子選擇則是媒體模式選擇的是南方周末“一名中國(guó)公民在波士頓爆炸案中遇難”的消息傳播,微博達(dá)人模式選擇的是“國(guó)學(xué)大師劉文典說過的一句話”,圖46和圖47選擇的是傳播量時(shí)間曲線圖,其中南方周末的微博消息在一天的時(shí)間內(nèi)的轉(zhuǎn)發(fā)量為997,傳播用戶量接近500萬,其中南方周末本身的粉絲數(shù)量就占了近450萬,轉(zhuǎn)發(fā)率非常低,但是傳播范圍廣,依然是熱點(diǎn),而微博達(dá)人模式則不一樣,轉(zhuǎn)發(fā)量為724,最終傳播用戶量接近10萬,在一定范圍內(nèi)也成為了熱點(diǎn),而它的傳播時(shí)間圖就和起點(diǎn)很高的南方周末的圖形很不一樣,有著較高的轉(zhuǎn)發(fā)率,雖然廣度不及南方周末,但也成為過熱點(diǎn)話題。預(yù)警體現(xiàn)動(dòng)態(tài)的認(rèn)知,預(yù)案體現(xiàn)靜態(tài)的防范。同時(shí)我們發(fā)現(xiàn)WeiboRank算法和用戶的followers兩個(gè)序列的傳播影響人次覆蓋率比較相近,這說明如果在不太要求精確性的情況下,用戶粉絲數(shù)量基本上能夠反映用戶的傳播影響力。將所有節(jié)點(diǎn)的WeiboRank初始值設(shè)為0.1,通過迭代到收斂為止,可以得到所有用戶的WR值。SC(i)為用戶i在監(jiān)測(cè)時(shí)間段內(nèi)所轉(zhuǎn)發(fā)的所有微博數(shù)量。每個(gè)節(jié)點(diǎn)的PR值為所有鄰居好友對(duì)其貢獻(xiàn)PR值的綜合 WeiboRank算法微博中用戶的傳播影響力受到很多因素的影響,例如用戶的跟隨者數(shù)量、關(guān)注用戶量、帳號(hào)是否有認(rèn)證,以及微博本身的質(zhì)量、新鮮度等。 PageRank算法著名的PageRank算法是衡量網(wǎng)絡(luò)中節(jié)點(diǎn)重要程度的經(jīng)典算法。2. 隨機(jī)選擇n個(gè)文本作為聚類中心。一般實(shí)在是數(shù)據(jù)組中包含最終結(jié)果(0,1)。目前,常用的使用這個(gè)思想的算法有:Kmeans 算法、Kmedoids 算法,系統(tǒng)中使用的是Kmeans 算法機(jī)器學(xué)習(xí)(Machine Learning)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。一個(gè)文本表現(xiàn)為一個(gè)由文字和標(biāo)點(diǎn)符號(hào)組成的字符串,由字或字符組成詞,由詞組成短語,進(jìn)而形成句、段、節(jié)、章、篇的結(jié)構(gòu)。假設(shè)文檔向量為di=(di1, di2, ?, dit),查詢向量為Q=(wq1,wq2, ?, wqt)。圖42 VSM文檔向量化表示示例然而,二值表示的方法并沒有考慮一個(gè)詞項(xiàng)在文檔中出現(xiàn)的次數(shù)。圖32 微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)主要流程四、微博輿情管理平臺(tái)的實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的主要功能是搜集Internet中的各種信息。通過研究發(fā)現(xiàn),消息成為熱點(diǎn)中有以下3種規(guī)律,每一種都會(huì)在熱點(diǎn)的成長(zhǎng)曲線中出現(xiàn)。草根用戶積極參與用戶間的互動(dòng),并且努力發(fā)布有價(jià)值的消息給粉絲,也可以獲得較大的影響力。圖21 微博用戶狀態(tài)圖意見領(lǐng)袖這一說法起源于20世紀(jì)40年代初傳播學(xué)關(guān)于媒介傳播效果的研究,傳播學(xué)者拉扎斯菲爾德在1940年美國(guó)大選的調(diào)查研究中發(fā)現(xiàn),大部分選民的投票不依靠大眾傳媒,依靠的是身邊的親戚、朋友和團(tuán)體的影響。但也為微博輿情管理增加了難度,對(duì)微博內(nèi)容的分類提出了更高的要求。二、微博消息傳播模型微博輿情作為網(wǎng)絡(luò)輿情重要組成部分,有著與網(wǎng)絡(luò)輿情共同的特點(diǎn),網(wǎng)絡(luò)輿情的特點(diǎn)有以下幾點(diǎn):直接性,突發(fā)性,偏差性,豐富性和互動(dòng)性。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和時(shí)代的進(jìn)步,網(wǎng)絡(luò)輿情的重要性已經(jīng)毋庸置疑,有關(guān)網(wǎng)絡(luò)輿情管理與檢測(cè)的研究也日趨成熟,有關(guān)網(wǎng)絡(luò)輿情管理與監(jiān)測(cè)的系統(tǒng)越來越多,微博輿情的分析平臺(tái)也有出現(xiàn),不過多數(shù)為政府和企業(yè)服務(wù),只監(jiān)控有可能爆發(fā)的負(fù)面信息和重大事件,不對(duì)普通用戶開放,而有關(guān)微博消息的分析軟件不但費(fèi)用昂貴而且只是對(duì)信息的已傳播軌跡進(jìn)行呈現(xiàn)和分析,缺乏對(duì)微博消息未來走向的一個(gè)分析預(yù)測(cè),也無對(duì)微博消息傳播范圍廣度的分級(jí)。 帶有廣大網(wǎng)民的主觀性,未經(jīng)媒體驗(yàn)證和包裝,直接通過多種形式發(fā)布于互聯(lián)網(wǎng)上?!备嗟膶W(xué)者傾向于如下認(rèn)識(shí):“輿情是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度。2011年10月,成世界第一大國(guó)。根據(jù)對(duì)數(shù)據(jù)分析的結(jié)果提出了趨勢(shì)分析的算法。相當(dāng)一部分用戶訪問和發(fā)送微博的行為發(fā)生在手機(jī)終端上,%的微博用戶使用手機(jī)終端訪問微博。它是較多群眾關(guān)于社會(huì)中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。任何一種技術(shù)的出現(xiàn)及發(fā)展,或多或少會(huì)對(duì)社會(huì)生活造成一定的沖擊和影響?;蛘哒f,輿情在網(wǎng)絡(luò)上要為人所知、激起網(wǎng)民共鳴、或者在網(wǎng)絡(luò)上被傳播,必然要借助于一定的載體。論文分為4章。而微博也有其自身獨(dú)特的特點(diǎn):便捷性,原創(chuàng)性,背對(duì)臉。在調(diào)研文獻(xiàn)時(shí),病毒在傳播的時(shí)候會(huì)出現(xiàn)三種用戶狀態(tài),感染態(tài),免疫態(tài),易感染態(tài)。微博意見領(lǐng)袖通常有著數(shù)量龐大的粉絲群,通常用戶有著幾十或幾百的粉絲,而微博領(lǐng)袖的粉絲數(shù)量則通常為上萬甚至幾十萬上百萬,成為微博平臺(tái)上的明星,通過發(fā)布微博消息領(lǐng)導(dǎo)著他們的粉絲意見??偨Y(jié)上述特點(diǎn)可以得出評(píng)估用戶影響力的標(biāo)準(zhǔn):粉絲數(shù),轉(zhuǎn)發(fā)率,歷史轉(zhuǎn)發(fā)率(該用戶的活躍程度),是否認(rèn)證用戶。三、微博輿情管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)微博輿情管理平臺(tái)的三大模塊如圖31所示,分為微博信息數(shù)據(jù)獲取模塊,數(shù)據(jù)分析模塊,分析結(jié)果呈現(xiàn)模塊,本文主要研究的是數(shù)據(jù)分析模塊。此時(shí),就可以通過計(jì)算向量間的相似性來度量文檔間的相似性。通過使用向量空間模型,文本數(shù)據(jù)被表示為計(jì)算機(jī)能夠處理的結(jié)構(gòu)化數(shù)據(jù)。聚類的目的是找到對(duì)象組,進(jìn)一步目的是通過數(shù)據(jù)分析確定對(duì)數(shù)據(jù)分析有用的群體。文本聚類算法有劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科。 classify)。5. 重復(fù)步驟3,4直到達(dá)到用戶的設(shè)定條件為止【9】。基本思想:如果網(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。給定一個(gè)權(quán)重有向網(wǎng)絡(luò)G=( V,E,W ),節(jié)點(diǎn)為V,邊為E,邊權(quán)為w,其中i和j節(jié)點(diǎn)間邊權(quán)Wij表示節(jié)點(diǎn)i對(duì)節(jié)點(diǎn)j的影響力。親近率定義為節(jié)點(diǎn)d對(duì)i的歷史轉(zhuǎn)發(fā)率和所有節(jié)點(diǎn)J轉(zhuǎn)發(fā)過的用戶節(jié)點(diǎn)的歷史轉(zhuǎn)發(fā)率之和的比值。本文采用信息傳播實(shí)際影響人次覆蓋率P作為用戶的傳播能力的評(píng)測(cè)指標(biāo)。從圖中可以看出前20%的用戶的用戶影響力覆蓋了80%的用戶傳播影響人次,符合人們?nèi)粘UJ(rèn)識(shí)中的20/80分布規(guī)律。藍(lán)色級(jí)(IV級(jí)):出現(xiàn)輿情。當(dāng)M值在5000到10000時(shí),成為熱點(diǎn)的概率經(jīng)過統(tǒng)計(jì)在50%左右,而如果M值在5000到10000之間出現(xiàn)的次數(shù)能達(dá)到兩次,則成為熱點(diǎn)的概率能大大提高,大概能達(dá)到80%左右,所以若M值在5000到10000之間時(shí),統(tǒng)計(jì)M值的次數(shù),若只出現(xiàn)一次,則為藍(lán)色級(jí),若出現(xiàn)兩次或以上,為黃色級(jí)。 五、結(jié)論與展望盡管微博輿情監(jiān)控技術(shù)日趨成熟,但是微博輿情本身的特點(diǎn)及復(fù)雜性使得微博輿情信息的處理不能像普通文本信息的處理那樣進(jìn)行。通過更多的數(shù)據(jù)抓取來改進(jìn)微博意見領(lǐng)袖影響力算法。針對(duì)目前傾向性語義資源匱乏的現(xiàn)狀,收集和整理了當(dāng)前主要的基礎(chǔ)語義資源,分析了在構(gòu)建語義資源時(shí)需要考慮的因素,提出了用于傾向性分類的語義資源的構(gòu)建方法并實(shí)際構(gòu)建了一部領(lǐng)域極性詞典。 ., each prototype is assigned an integer value that is its position (index) in the table. Each object is represented by the index of the prototype associated with its cluster. This type of pression is known as vector quantization and is often applied to image, sound, and video data, where (1) many of the data objects are highly similar to one another, (2) some loss of information is acceptable, and (3) a substantial reduction in the data size is desired? Effciently Finding Nearest Neighbors. Finding nearest neighbors can require puting the pairwise distance between all points. Often clusters and their cluster prototypes can be found much more effciently. If objects are relatively close to the prototype of their cluster, then we can use the prototypes to reduce the number of distance putations that are necessary to ?nd the nearest neighbors of an object. Intuitively, if two cluster prototypes are far apart, then the objects in the corresponding clusters cannot be nearest neighbors of each other. Consequently, to ?nd an object’s nearest neighbors it is only necessary to pute the distance to objects in nearby clusters, where the nearness of two clusters is measured by the distance between their prototypes. This chapter provides an introduction to cluster analysis. We begin with a highlevel overview of clustering, including a discussion of the various ap proaches to dividing objects into sets of clusters and the different types of clusters. We then describe three speci?c clustering techniques that represent broad categories of algorithms and illustrate a variety of concepts: Kmeans, agglomerative hierarchical clustering, and DBSCAN. The ?nal section of this chapter is devoted to cluster validity—methods for evaluating the goodness of the clusters produced by a clustering algorithm. More advanced clusteringconcepts and algorithms will be discussed in Chapter 9. Whenever possible,we discuss the strengths and weaknesses of different schemes. In addition,the bibliographic no