【正文】
., new, unlabeled objects are assigned a class label using a model developed from objects with known class labels. For this reason, cluster analysis is sometimes referred to as unsupervised classi?cation. When the term classi?cation is used without any quali?cation within data mining, it typically refers to supervised classi?cation.Also, while the terms segmentation and partitioning are sometimesused as synonyms for clustering, these terms are frequently used for approaches outside the traditional bounds of cluster analysis. For example, the termpartitioning is often used in connection with techniques that divide graphs into subgraphs and that are not strongly connected to clustering. Segmentation often refers to the division of data into groups using simple techniques。 ., a data object that is representative of the other objects in the cluster. These cluster prototypes can be used as the basis for a number of data analysis or data processing techniques. Therefore, in the context of utility, cluster analysis is the study of techniques for ?nding the most representative cluster prototypes.? Summarization. Many data analysis techniques, such as regression or PCA, have a time or space plexity of O(m2) or higher (where m is the number of objects), and thus, are not practical for large data sets. However, instead of applying the algorithm to the entire data set, it can be applied to a reduced data set consisting only of cluster prototypes. Depending on the type of analysis, the number of prototypes, and the accuracy with which the prototypes represent the data, the results can be parable to those that would have been obtained if all the data could have been used.? Compression. Cluster prototypes can also be used for data pression. In particular, a table is created that consists of the prototypes for each cluster。初步實(shí)現(xiàn)了微博輿情管理平臺(tái)的功能。微博輿情管理平臺(tái)在民意調(diào)查,輿情監(jiān)控和消息獲取等方面均有很大價(jià)值。通過(guò)加入語(yǔ)義分析模塊,可以極大提高預(yù)警的準(zhǔn)確率,實(shí)現(xiàn)對(duì)媒體模式微博消息的預(yù)警。對(duì)現(xiàn)有各種主題分類(lèi)相關(guān)技術(shù)進(jìn)行研究,分類(lèi)列出了這些技術(shù)中對(duì)文本傾向性分類(lèi)仍然適用的方式和方法,并總結(jié)了其中面臨的主要技術(shù)瓶頸;通過(guò)列舉文本傾向性分類(lèi)處理對(duì)象的特點(diǎn)規(guī)律,總結(jié)了在構(gòu)建傾向性分類(lèi)器時(shí)需要著重考慮的問(wèn)題和因素。如美國(guó)專(zhuān)利局編號(hào)為4930077的專(zhuān)利提出了通過(guò)文本分析來(lái)預(yù)測(cè)輿情的方法加州大學(xué)伯克利分校社會(huì)科學(xué)計(jì)算實(shí)驗(yàn)室的SDA項(xiàng)目,主要針對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行自動(dòng)分析;國(guó)內(nèi)的方正智思是北大方正技術(shù)研究院挾多年積累的中文信息處理的技術(shù),研發(fā)推出的一個(gè)中文智能信息挖掘與知識(shí)管理的軟件開(kāi)發(fā)包與服務(wù)系統(tǒng)。而網(wǎng)絡(luò)輿情分析系統(tǒng)是讓計(jì)算機(jī)去動(dòng)態(tài)的收集數(shù)據(jù),對(duì)其進(jìn)行自動(dòng)分析形成輿情分析結(jié)果。進(jìn)而完成對(duì)趨勢(shì)分析模塊的改進(jìn),對(duì)趨勢(shì)分析模塊的初步改進(jìn)設(shè)想是將微博傳播趨勢(shì)分析進(jìn)行分類(lèi),微博達(dá)人模式適用現(xiàn)行模塊,媒體模塊則需要重新設(shè)定參數(shù),進(jìn)行修改,同時(shí)在趨勢(shì)分析模塊中加入文本傾向性分析,也就是語(yǔ)義分析模塊來(lái)提高微博分析的準(zhǔn)確性,并且實(shí)現(xiàn)對(duì)熱點(diǎn)的熱度分級(jí)。由于技術(shù)限制,對(duì)一些傳播特別廣的全國(guó)范圍性的消息熱點(diǎn)的監(jiān)測(cè)沒(méi)能實(shí)現(xiàn),希望能對(duì)挖掘算法進(jìn)行改進(jìn),完成對(duì)這種熱點(diǎn)的特點(diǎn)分析和模型建立。而如果實(shí)現(xiàn)了中文語(yǔ)義分析,充分解析微博句子或詞語(yǔ),對(duì)于敏感話(huà)題識(shí)別和微博輿情趨勢(shì)分析將會(huì)有重要意義。而且從系統(tǒng)功能方面,首先實(shí)現(xiàn)的是對(duì)指定微博內(nèi)容的熱點(diǎn)趨勢(shì)分析,而沒(méi)有實(shí)現(xiàn)從實(shí)時(shí)所有微博信息中發(fā)現(xiàn)熱點(diǎn),網(wǎng)絡(luò)抓取技術(shù)這方面有待改進(jìn)。微博輿情信息與普通文本的最大區(qū)別在于它的擴(kuò)散性和不可控性,信息內(nèi)容非常動(dòng)態(tài)。初步設(shè)想對(duì)媒體認(rèn)證的意見(jiàn)領(lǐng)袖傳播的微博消息加上一個(gè)轉(zhuǎn)發(fā)率的對(duì)比,但尚未從已知數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)與轉(zhuǎn)發(fā)率的明顯關(guān)系。微博題目熱點(diǎn)預(yù)警結(jié)果消息最終走勢(shì)結(jié)果對(duì)比李克強(qiáng)將在波茨坦會(huì)議舊址發(fā)表講話(huà)黃色級(jí)藍(lán)色級(jí)錯(cuò)誤江蘇鹽城政府單位吃喝27萬(wàn)黃色級(jí)藍(lán)色級(jí)錯(cuò)誤南京一郵局被強(qiáng)拆橙色級(jí)橙色級(jí)正確李克強(qiáng):無(wú)論多忙都要抽時(shí)間讀書(shū)藍(lán)色級(jí)藍(lán)色級(jí)正確埃及浮雕刻有“丁錦昊到此一游”橙色級(jí)紅色級(jí)正確人民日?qǐng)?bào):農(nóng)村孩子為何不愿躍“龍門(mén)”黃色級(jí)藍(lán)色級(jí)錯(cuò)誤人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣(mài)萌裝天真藍(lán)色級(jí)黃色級(jí)錯(cuò)誤鄭州暴雨黃色級(jí)黃色級(jí)正確藍(lán)色級(jí)藍(lán)色級(jí)正確營(yíng)養(yǎng)餐食物變質(zhì),營(yíng)養(yǎng)縮水,問(wèn)題不斷藍(lán)色級(jí)黃色級(jí)錯(cuò)誤陳佩斯關(guān)于網(wǎng)絡(luò)輿論的評(píng)論黃色級(jí)黃色級(jí)正確王石:愛(ài)國(guó)主義與民族主義黃色級(jí)黃色級(jí)正確銀河SOHO環(huán)境監(jiān)測(cè)藍(lán)色級(jí)藍(lán)色級(jí)正確小學(xué)生作文《停車(chē)》藍(lán)色級(jí)藍(lán)色級(jí)正確Esports海濤:G1聯(lián)賽IG負(fù)于LGD黃色級(jí)黃色級(jí)正確圖48 分析結(jié)果分析圖根據(jù)與真實(shí)走向的對(duì)比,可以發(fā)現(xiàn)在微博達(dá)人模式中,趨勢(shì)分析預(yù)警成為熱點(diǎn)的結(jié)果的準(zhǔn)確率在80%左右,即使沒(méi)有成為當(dāng)日熱點(diǎn)也是關(guān)注比較靠前的話(huà)題。前10組為媒體傳播模式的微博消息,其中“江蘇鹽城政府單位吃喝27萬(wàn)”,“南京一郵局被強(qiáng)拆”,“埃及浮雕刻有‘丁錦昊到此一游’”,“人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣(mài)萌裝天真”,“鄭州暴雨”,這5條微博成為熱點(diǎn),其余沒(méi)有成為熱點(diǎn),趨勢(shì)分析模塊沒(méi)有預(yù)測(cè)出“江蘇政府單位吃喝”, “人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣(mài)萌裝天真”這兩條熱點(diǎn);誤測(cè)了“李克強(qiáng)發(fā)表講話(huà)”,“人民日?qǐng)?bào):農(nóng)村孩子為何不愿躍‘龍門(mén)’” 為熱點(diǎn),準(zhǔn)確率只有60%。而若10000以上也出現(xiàn)兩次或以上,則分為橙色級(jí),也就是很可能成為多日熱點(diǎn)。兩種模式中,有一共同點(diǎn)則是都曾經(jīng)出現(xiàn)過(guò)短時(shí)間內(nèi)的傳播量激增,然后成為熱點(diǎn),根據(jù)這一特性設(shè)計(jì)了趨勢(shì)分析模塊,從最早的意見(jiàn)領(lǐng)袖開(kāi)始,每出現(xiàn)一個(gè)意見(jiàn)領(lǐng)袖,提取這一意見(jiàn)領(lǐng)袖后一小時(shí)的意見(jiàn)領(lǐng)袖的傳播廣度,設(shè)定不同的M值(一小時(shí)內(nèi)微博傳播量),根據(jù)以往數(shù)據(jù)可以得出,M值在5000以下為藍(lán)色級(jí)基本無(wú)威脅,在10000到50000為黃色級(jí),需要注意,有很大概率成為熱點(diǎn),而50000以上則肯定成為熱點(diǎn),但持續(xù)時(shí)間還未能有效的分級(jí),也就是還不能對(duì)橙色和紅色級(jí)進(jìn)行有效分級(jí),但已能區(qū)分熱點(diǎn)與否。對(duì)曾經(jīng)成為過(guò)熱點(diǎn)的微博消息的傳播特點(diǎn)進(jìn)行整理后,得出兩種熱點(diǎn)傳播模型,一種是傳統(tǒng)媒體在微博建立的用戶(hù)的傳播方式,一種是微博達(dá)人的消息傳播模式,圖45就是兩種方式的轉(zhuǎn)發(fā)量時(shí)間曲線(xiàn)圖,例子選擇則是媒體模式選擇的是南方周末“一名中國(guó)公民在波士頓爆炸案中遇難”的消息傳播,微博達(dá)人模式選擇的是“國(guó)學(xué)大師劉文典說(shuō)過(guò)的一句話(huà)”,圖46和圖47選擇的是傳播量時(shí)間曲線(xiàn)圖,其中南方周末的微博消息在一天的時(shí)間內(nèi)的轉(zhuǎn)發(fā)量為997,傳播用戶(hù)量接近500萬(wàn),其中南方周末本身的粉絲數(shù)量就占了近450萬(wàn),轉(zhuǎn)發(fā)率非常低,但是傳播范圍廣,依然是熱點(diǎn),而微博達(dá)人模式則不一樣,轉(zhuǎn)發(fā)量為724,最終傳播用戶(hù)量接近10萬(wàn),在一定范圍內(nèi)也成為了熱點(diǎn),而它的傳播時(shí)間圖就和起點(diǎn)很高的南方周末的圖形很不一樣,有著較高的轉(zhuǎn)發(fā)率,雖然廣度不及南方周末,但也成為過(guò)熱點(diǎn)話(huà)題。微博用戶(hù)對(duì)該輿情關(guān)注度高,傳播速度快,影響擴(kuò)散到了很大范圍,輿情有可能成為多日熱點(diǎn);紅色級(jí)(I級(jí)):出現(xiàn)輿情。微博用戶(hù)對(duì)該輿情關(guān)注度低,傳播速度慢,輿情影響局限在較小范圍內(nèi),沒(méi)有成為當(dāng)日熱點(diǎn)的可能;黃色級(jí)(Ⅲ級(jí)):出現(xiàn)輿情。網(wǎng)絡(luò)輿情預(yù)警等級(jí)的設(shè)定在綜合考慮國(guó)際慣例、我國(guó)相關(guān)機(jī)構(gòu)管理規(guī)定及微博輿情發(fā)展趨勢(shì)的前提下,微博輿情的預(yù)警等級(jí)被劃分為:輕警情(Ⅳ級(jí),非常態(tài))、中度警情(Ⅲ級(jí),警示級(jí))、重警情(Ⅱ級(jí),危險(xiǎn)級(jí))和特重警情(I級(jí),極度危險(xiǎn)級(jí))四個(gè)等級(jí),并依次采用藍(lán)色、黃色、橙色和紅色來(lái)加以表示。預(yù)警體現(xiàn)動(dòng)態(tài)的認(rèn)知,預(yù)案體現(xiàn)靜態(tài)的防范。究其原因,自然現(xiàn)象內(nèi)外部影響因素之間的因果關(guān)系相對(duì)確定,而且這些現(xiàn)象都經(jīng)歷了長(zhǎng)期的觀察測(cè)量,有了較好的量化基礎(chǔ),因而可以方便地進(jìn)行預(yù)警。預(yù)警的概念源于對(duì)重大自然災(zāi)害征兆的研究。轉(zhuǎn)發(fā)量大的用戶(hù)并不一定意味著其影響力也大。同時(shí)我們發(fā)現(xiàn)WeiboRank算法和用戶(hù)的followers兩個(gè)序列的傳播影響人次覆蓋率比較相近,這說(shuō)明如果在不太要求精確性的情況下,用戶(hù)粉絲數(shù)量基本上能夠反映用戶(hù)的傳播影響力。為了進(jìn)一步對(duì)比和分析算法在真實(shí)影響人次這一評(píng)價(jià)指標(biāo)下對(duì)用戶(hù)影響力的識(shí)別準(zhǔn)確程度,通過(guò)相關(guān)算法獲得用戶(hù)影響力的排名,然后通過(guò)對(duì)排名的意見(jiàn)領(lǐng)袖用戶(hù)影響人次覆蓋率進(jìn)行對(duì)比,并與真實(shí)用戶(hù)傳播影響人次序列進(jìn)行對(duì)比,考察各序列之間的相對(duì)關(guān)系,結(jié)果如圖44所示。該數(shù)據(jù)是以用戶(hù)的微博信息在區(qū)域內(nèi)被真實(shí)傳播的過(guò)程中所能影響到的人次的實(shí)測(cè)結(jié)果為依據(jù),將每個(gè)微博用戶(hù)所發(fā)出的所有微博的實(shí)測(cè)影響人數(shù)進(jìn)行迭加獲得的每個(gè)微博用戶(hù)的真實(shí)傳播影響力。2)粉絲數(shù)量(Followers):該數(shù)量表示微博中所有收聽(tīng)該用戶(hù)的粉絲數(shù)量。將所有節(jié)點(diǎn)的WeiboRank初始值設(shè)為0.1,通過(guò)迭代到收斂為止,可以得到所有用戶(hù)的WR值。在微博信息傳播網(wǎng)絡(luò)中,我們借鑒PageRank算法的核心思想,提出weiboRank(wR)算法來(lái)評(píng)估每個(gè)節(jié)點(diǎn)的信息影響力,定義如下:WRi=1d+d*j∈BiWRj*C(i,j)式中,WR(i )是節(jié)點(diǎn)i的WeiboRank值,B 是指向i的節(jié)點(diǎn)的集合,其中C(i,j)是節(jié)點(diǎn)j的傳播影響力分配給i的比例因子,這里采用上文定義的親近率。其物理上表征在節(jié)點(diǎn)j的所有鄰居的互動(dòng)關(guān)系中,節(jié)點(diǎn)i相對(duì)于j的重要程度。為了衡量鄰居i對(duì)J的重要程度,本文提出節(jié)點(diǎn)間親近率的概念。SC(i)為用戶(hù)i在監(jiān)測(cè)時(shí)間段內(nèi)所轉(zhuǎn)發(fā)的所有微博數(shù)量。定義如下:Rti,j=Rtci,j+1SCi+1式中Rtc(i,j))是用戶(hù)j曾經(jīng)轉(zhuǎn)載作者i的微博的次數(shù)。本研究中邊權(quán)Wij采用歷史轉(zhuǎn)發(fā)比率 Rt(i,j)來(lái)表示。通過(guò)借鑒PageRank算法的設(shè)計(jì)思想,綜合考慮用戶(hù)的傳播意愿的互動(dòng)程度,提出了WeiboRank算法來(lái)準(zhǔn)確評(píng)估每個(gè)節(jié)點(diǎn)的傳播影響力。每個(gè)節(jié)點(diǎn)的PR值為所有鄰居好友對(duì)其貢獻(xiàn)PR值的綜合 WeiboRank算法微博中用戶(hù)的傳播影響力受到很多因素的影響,例如用戶(hù)的跟隨者數(shù)量、關(guān)注用戶(hù)量、帳號(hào)是否有認(rèn)證,以及微博本身的質(zhì)量、新鮮度等。不足:人們的查詢(xún)具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很?chē)?yán)重的對(duì)新網(wǎng)頁(yè)的歧視。這個(gè)重要性得分值為:PR(T)/C(T)其中PR(T)為T(mén)的PageRank值,C(T)為T(mén)的出鏈數(shù),則A的PageRank值為一系列類(lèi)似于T的頁(yè)面重要性得分值的累加。在揉合了諸如Title標(biāo)識(shí)和Keywords標(biāo)識(shí)等所有其它因素之后,Google通過(guò)PageRank來(lái)調(diào)整結(jié)果,使那些更具“等級(jí)/重要性”的網(wǎng)頁(yè)在搜索結(jié)果中的排名獲得提升,從而提高搜索結(jié)果的相關(guān)性和質(zhì)量。 PageRank算法著名的PageRank算法是衡量網(wǎng)絡(luò)中節(jié)點(diǎn)重要程度的經(jīng)典算法。進(jìn)行不斷循環(huán)迭代,直到目標(biāo)函數(shù)收斂不再變化。圖43 Kmeans算法流程圖Kmeans算法的基本思想是:先設(shè)置一個(gè)聚類(lèi)數(shù)目n,系統(tǒng)隨機(jī)選擇n個(gè)文本作為初始的聚類(lèi)中心,然后挨個(gè)比較每個(gè)文本與各個(gè)類(lèi)中心的相似度,將它賦予給最相似的那個(gè)類(lèi)中心所在的類(lèi)。4. 重新計(jì)算聚類(lèi)中心。2. 隨機(jī)選擇n個(gè)文本作為聚類(lèi)中心。Kmeans文本聚類(lèi)算法就是一種應(yīng)用非監(jiān)督的機(jī)器學(xué)習(xí)的劃分法文本聚類(lèi)算法。非監(jiān)督學(xué)習(xí)又稱(chēng)歸納性學(xué)習(xí)(clustering)利用K方式(Kmeans),建立中心(centriole),通過(guò)循環(huán)和遞減運(yùn)算(iterationamp。這一類(lèi)學(xué)習(xí)主要應(yīng)用于分類(lèi)和預(yù)測(cè) (regression amp。一般實(shí)在是數(shù)據(jù)組中包含最終結(jié)果(0,1)。機(jī)器學(xué)習(xí)按學(xué)習(xí)形