freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計(jì)微博輿情管理平臺(tái)數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-展示頁

2025-08-05 16:22本頁面
  

【正文】 Clustering 48? DBSCAN 48附錄Ⅱ: 中文翻譯 48聚類分析:基本概念及算法 481概述 51? 51 52 53 56?Kmeans算法 56?凝聚層次聚類 56?DBSCAN 56 58北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁一、 概述 課題背景與研究意義隨著時(shí)代的進(jìn)步,網(wǎng)絡(luò)輿情也呈現(xiàn)蓬勃發(fā)展的勢頭,截至2012年12月底,較2011年底增長了5873萬,網(wǎng)民中的微博用戶比例較上年底提升了六個(gè)百分點(diǎn),%。根據(jù)對(duì)數(shù)據(jù)分析的結(jié)果提出了趨勢分析的算法。 畢業(yè)設(shè)計(jì)(論文)中文題目:微博輿情管理平臺(tái) 數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)英文題目: MicroBlog Public Opinion Management Platform: The Design and Implementation of the Data Analysis System 中文摘要隨著網(wǎng)絡(luò)技術(shù)應(yīng)用的普及和發(fā)展,輿情的傳播方式和傳播速度都發(fā)生了根本性變化, 網(wǎng)絡(luò)輿情對(duì)人類的社會(huì)狀態(tài)產(chǎn)生了全方位的影響,微博輿情則是網(wǎng)絡(luò)輿情的重要組成部分,它的特點(diǎn)有:直接性,突發(fā)性,偏差性,豐富性和互動(dòng)性。本文以微博消息為研究對(duì)象,研究了微博消息傳播的特點(diǎn)與模型,通過對(duì)抓取數(shù)據(jù)的分析發(fā)現(xiàn)了微博傳播的單向性,便捷性,背對(duì)臉等特點(diǎn),還有微博意見領(lǐng)袖在微博傳播中的重要作用,微博熱點(diǎn)的產(chǎn)生規(guī)律。利用空間向量模型完成對(duì)微博內(nèi)容的結(jié)構(gòu)數(shù)據(jù)化,利用Kmeans算法完成對(duì)微博消息的聚類分析,找到所要分析的某類微博內(nèi)容,進(jìn)而在這類微博中找出微博消息意見領(lǐng)袖,提出微博意見領(lǐng)袖影響力評(píng)估算法,WeiboRank算法,并結(jié)合算法完成了微博消息預(yù)警模塊的實(shí)現(xiàn),初步實(shí)現(xiàn)了微博輿情管理平臺(tái)的數(shù)據(jù)預(yù)警分析功能。相當(dāng)一部分用戶訪問和發(fā)送微博的行為發(fā)生在手機(jī)終端上,%的微博用戶使用手機(jī)終端訪問微博。美國埃文2007年,中國第一家?guī)в形⒉┥实木W(wǎng)站“飯否網(wǎng)”開張,到2009年新浪微博的開通,中國第一家推出微博的門戶網(wǎng)站,微博正式進(jìn)入中文上網(wǎng)主流人群視野。微博成為網(wǎng)絡(luò)輿情的一大組成部分。它是較多群眾關(guān)于社會(huì)中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。有研究者指出:“所謂‘輿情’,實(shí)際上就是大眾密切關(guān)心的熱門話題或反映了某些社會(huì)心理的觀點(diǎn)與看法,其較高層次是‘思潮’,基本層次是‘情緒’?!绷碛醒芯空哒J(rèn)為:“輿情即民意情況,涉及公眾對(duì)社會(huì)生活中各個(gè)方面的問題尤其是熱點(diǎn)問題的公開意見(外露的部分)或情緒反應(yīng)(既可能外露又可能不外露的部分)。如果把中間的一些定語省略掉,輿情就是民眾的社會(huì)政治態(tài)度。任何一種技術(shù)的出現(xiàn)及發(fā)展,或多或少會(huì)對(duì)社會(huì)生活造成一定的沖擊和影響。與此同時(shí),現(xiàn)實(shí)生活與虛擬世界交互影響,呈現(xiàn)出一種你中有我、我中有你的局面。以網(wǎng)絡(luò)為載體的網(wǎng)絡(luò)輿情,核心是單個(gè)或多個(gè)事件,是海量網(wǎng)民感情、態(tài)度、建議、觀點(diǎn)的表達(dá),互動(dòng)與傳播,以及后續(xù)的影響力的集合。輿情管理與監(jiān)控,就是通過對(duì)互聯(lián)網(wǎng)信息挖掘采集技術(shù)的整合,實(shí)現(xiàn)自動(dòng)抓取互聯(lián)網(wǎng)中的海量信息,可以利用一些算法自動(dòng)對(duì)信息分類,主題分析,傾向分析等功能,形成圖表或者簡報(bào)結(jié)論,便于用戶掌握?;蛘哒f,輿情在網(wǎng)絡(luò)上要為人所知、激起網(wǎng)民共鳴、或者在網(wǎng)絡(luò)上被傳播,必然要借助于一定的載體。與傳統(tǒng)輿情相比,網(wǎng)絡(luò)輿情具有傳播快速和實(shí)時(shí)互動(dòng)的特點(diǎn)。相應(yīng)的,某個(gè)輿情通過各大網(wǎng)站、論壇的轉(zhuǎn)貼可以在極短時(shí)間內(nèi)為大量人知曉,這在以前是難以想象的;在網(wǎng)絡(luò)輿情體現(xiàn)最明顯的論壇、社區(qū)、博客、微博等空間,每一個(gè)網(wǎng)民都可以實(shí)時(shí)地發(fā)表自己的觀點(diǎn),大家共同討論或辯論,不同觀點(diǎn)或立場的網(wǎng)民進(jìn)行交鋒,可以通過互動(dòng)推動(dòng)輿情的發(fā)展或深化,引起更多人的關(guān)注。網(wǎng)絡(luò)輿情反映了民情民意,在為國家管理者決策提供參考依據(jù)的同時(shí)也存在引發(fā)社會(huì)問題的風(fēng)險(xiǎn),尤其是國內(nèi)外敵對(duì)勢力經(jīng)常利用互聯(lián)網(wǎng),別有用心地煽動(dòng)不良情緒或發(fā)動(dòng)串聯(lián),以期影響我國社會(huì)穩(wěn)定。論文分為4章。第二章分析了微博消息傳播的模型,研究了微博消息傳播的特點(diǎn),建立了微博消息傳播的模型。第四章針對(duì)數(shù)據(jù)分析系統(tǒng)的局限性,提出了未來的改進(jìn)方向。網(wǎng)民根據(jù)現(xiàn)實(shí)社會(huì)或者網(wǎng)絡(luò)上發(fā)生的新聞可以在各種平臺(tái)上直接發(fā)表自己的見解和意見,根據(jù)其他網(wǎng)民的見解進(jìn)行交換觀點(diǎn),而網(wǎng)絡(luò)的虛擬性也使虛假不良信息的發(fā)布變得容易和更具蠱惑性,容易成為熱點(diǎn)。而微博也有其自身獨(dú)特的特點(diǎn):便捷性,原創(chuàng)性,背對(duì)臉。而以新浪微博為例,其用戶可以選擇一個(gè)或多個(gè)的關(guān)注組別,例如娛樂,新聞,經(jīng)濟(jì)等,這就讓用戶可以更加便捷的了解自己需要的某些方面的信息。微博消息是由140字左右的短文本構(gòu)成的,所以其原創(chuàng)性遠(yuǎn)大于例如BBS,論壇,博客等平臺(tái),可能表達(dá)的意思相同,但發(fā)出的微博卻不一樣,同樣以雅安地震為例,“為雅安祈?!?,“雅安平安”,“支援雅安”等消息出現(xiàn)在微博上,雖然是不同文本,但同樣表達(dá)了對(duì)雅安地震災(zāi)情的關(guān)注和祝福,這種原創(chuàng)性大大豐富了微博的內(nèi)容,也直接體現(xiàn)了網(wǎng)絡(luò)輿情的偏差性與豐富性。背對(duì)臉這種特性,則是很生動(dòng)表明了微博與平常網(wǎng)絡(luò)平臺(tái)相比最大的特點(diǎn),其傳播消息的途徑是單向的,被關(guān)注者發(fā)布消息無需理會(huì)關(guān)注者的反應(yīng),關(guān)注者關(guān)注著被關(guān)注者的消息,就類似一個(gè)人在玩電腦游戲,而他的粉絲就是站在他背后觀看的人,觀看者可以看到游戲的進(jìn)度,但游戲者卻不用理會(huì)觀看者在做什么,這就是微博消息傳播背對(duì)臉的特性。在調(diào)研文獻(xiàn)時(shí),病毒在傳播的時(shí)候會(huì)出現(xiàn)三種用戶狀態(tài),感染態(tài),免疫態(tài),易感染態(tài)。未知狀態(tài)就是不知道消息的狀態(tài),通常就是他所關(guān)注的人中沒有傳播這條消息;轉(zhuǎn)發(fā)狀態(tài)就是這個(gè)用戶知道這條消息,并且對(duì)這條消息很感興趣,轉(zhuǎn)發(fā)了這條狀態(tài),就把這條消息通過他的粉絲繼續(xù)傳播了下去;已知不傳播狀態(tài)則是知道了這條消息,但是因?yàn)椴桓信d趣,沒有轉(zhuǎn)發(fā)這消息或發(fā)布相關(guān)的消息。在消息傳播過程中,這三種狀態(tài)是單向轉(zhuǎn)變的,未知狀態(tài)可以變成已知不傳播狀態(tài),已知不傳播狀態(tài)可以變成轉(zhuǎn)發(fā)狀態(tài),但不能反向轉(zhuǎn)變,已知不傳播狀態(tài)可能在多次從不同用戶得知同一消息后變得感興趣從而轉(zhuǎn)變?yōu)檗D(zhuǎn)發(fā)狀態(tài)。從而有了意見領(lǐng)袖這一概念,在人際傳播網(wǎng)絡(luò)中經(jīng)常為他人提供信息、意見、評(píng)論,并對(duì)他人施加影響的“活躍分子”,是大眾傳播效果的形成過程的中介或過濾的環(huán)節(jié)。微博意見領(lǐng)袖通常有著數(shù)量龐大的粉絲群,通常用戶有著幾十或幾百的粉絲,而微博領(lǐng)袖的粉絲數(shù)量則通常為上萬甚至幾十萬上百萬,成為微博平臺(tái)上的明星,通過發(fā)布微博消息領(lǐng)導(dǎo)著他們的粉絲意見。排名昵稱粉絲用戶類型時(shí)間二次轉(zhuǎn)發(fā)1思想焦距1209767個(gè)人認(rèn)證201339 15:03:003682杜子健324621個(gè)人認(rèn)證201339 13:07:01513歷史塵封檔案538570微博達(dá)人201339 15:45:02404煮酒談史214251微博達(dá)人201339 16:11:35375人性之美麗213917微博達(dá)人201339 15:06:26226長江直播47390微博達(dá)人201339 15:17:05187敵我媒體采訪團(tuán)275145個(gè)人認(rèn)證201339 15:03:0698彭三金176135個(gè)人認(rèn)證201339 15:03:0739笑著做教師11370個(gè)人認(rèn)證201339 16:38:55310王周生7162個(gè)人認(rèn)證201339 15:23:093圖22 微博消息影響力前10名不過轉(zhuǎn)發(fā)量并不是判斷意見領(lǐng)袖影響力的唯一標(biāo)準(zhǔn),包括粉絲數(shù),轉(zhuǎn)發(fā)率以及活躍程度均是評(píng)估意見領(lǐng)袖影響程度的重要參考標(biāo)準(zhǔn),通過對(duì)實(shí)驗(yàn)數(shù)據(jù)結(jié)果的總結(jié),發(fā)現(xiàn)微博意見領(lǐng)袖有以下幾個(gè)特點(diǎn):基本上所有的微博意見領(lǐng)袖均是新浪認(rèn)證用戶,圖22也說明了這一觀點(diǎn),而且認(rèn)證用戶容易獲得普通用戶認(rèn)可和接受,發(fā)布消息的真實(shí)性也比較可靠。粉絲數(shù)量也不是必然要求,類似消息的二級(jí)傳播原理,活躍且粉絲質(zhì)量高的用戶也會(huì)有相當(dāng)大的影響力,這也是一些草根用戶能夠成為影響力大的意見領(lǐng)袖的原因。也有部分用戶從來不與粉絲互動(dòng),但其絕對(duì)粉絲數(shù)量較多,也可以獲得較大影響力??偨Y(jié)上述特點(diǎn)可以得出評(píng)估用戶影響力的標(biāo)準(zhǔn):粉絲數(shù),轉(zhuǎn)發(fā)率,歷史轉(zhuǎn)發(fā)率(該用戶的活躍程度),是否認(rèn)證用戶。通過對(duì)抓取的微博數(shù)據(jù)的分析,發(fā)現(xiàn)20%的用戶領(lǐng)導(dǎo)著80%的用戶意見,而且越是在消息初期,微博意見領(lǐng)袖的作用就越大,意見領(lǐng)袖的加入會(huì)使消息有一個(gè)爆炸式的增長,而隨著加入的意見領(lǐng)袖增加,消息傳播增長趨勢放緩,意見領(lǐng)袖的作用降低,當(dāng)消息的傳播廣度到達(dá)一定范圍后,意見領(lǐng)袖的影響力就趨近于零了。圖23 微博消息傳播路徑圖通過對(duì)數(shù)據(jù)分析可以發(fā)現(xiàn)在消息的傳播廣度和初始微博意見領(lǐng)袖加入的多少有一定關(guān)系,當(dāng)單位時(shí)間內(nèi)意見領(lǐng)袖的影響力達(dá)到了一個(gè)閾值M后,可以認(rèn)為在之后的一段時(shí)間內(nèi),此消息的傳播范圍會(huì)有一個(gè)明顯的增長。對(duì)一個(gè)范圍內(nèi)的微博意見領(lǐng)袖進(jìn)行監(jiān)控,發(fā)現(xiàn)意見領(lǐng)袖對(duì)一條微博消息的轉(zhuǎn)發(fā)比例達(dá)到10%時(shí),可以認(rèn)為此消息會(huì)有一個(gè)廣泛的傳播,會(huì)成為一個(gè)熱點(diǎn)話題;通過對(duì)已知此消息但未轉(zhuǎn)發(fā)的意見領(lǐng)袖的比例與已知此消息并轉(zhuǎn)發(fā)的意見領(lǐng)袖所占比例的對(duì)比,可實(shí)現(xiàn)對(duì)未來的微博消息傳播范圍的判斷;在單位時(shí)間內(nèi)(設(shè)為1個(gè)小時(shí))的消息傳播量達(dá)到一個(gè)閾值M后,可以認(rèn)為此消息傳播進(jìn)入爆發(fā)期,會(huì)出現(xiàn)較大增長,通過設(shè)置不同M值,可對(duì)未來的消息傳播范圍有一個(gè)大致的分級(jí),不同級(jí)別表示預(yù)測此消息傳播的最大廣度。三、微博輿情管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)微博輿情管理平臺(tái)的三大模塊如圖31所示,分為微博信息數(shù)據(jù)獲取模塊,數(shù)據(jù)分析模塊,分析結(jié)果呈現(xiàn)模塊,本文主要研究的是數(shù)據(jù)分析模塊。然后進(jìn)入中文分詞模塊,將微博內(nèi)容分詞后進(jìn)入VSM,將微博內(nèi)容的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),將所有相關(guān)微博內(nèi)容預(yù)處理后,進(jìn)入Kmeans算法對(duì)微博內(nèi)容進(jìn)行分類,找到離關(guān)鍵詞最近的那個(gè)類,認(rèn)為這個(gè)類中的微博內(nèi)容表達(dá)的是同一意思,并作為數(shù)據(jù)分析的主類,然后找出類中符合意見領(lǐng)袖標(biāo)準(zhǔn)的微博領(lǐng)袖逐一進(jìn)行影響力評(píng)估,分析出各意見領(lǐng)袖的影響力指標(biāo),然后進(jìn)入趨勢分析預(yù)警模塊,根據(jù)微博的走勢代入趨勢分析算法進(jìn)行分析,得出結(jié)果將數(shù)據(jù)上傳到管理平臺(tái),管理平臺(tái)對(duì)數(shù)據(jù)進(jìn)行處理將結(jié)果輸出。以小時(shí)為單位,計(jì)算單位時(shí)間內(nèi)的微博內(nèi)容傳播廣度,設(shè)定不同等級(jí)閾值M,存在超過M值的時(shí)間段即可分析預(yù)測出消息未來走勢,進(jìn)而將意見領(lǐng)袖重要性在前10名的用戶數(shù)據(jù)反饋數(shù)據(jù)庫,將用戶按時(shí)間順序進(jìn)行排序存儲(chǔ)到數(shù)據(jù)庫交給管理平臺(tái)進(jìn)行結(jié)果反饋,這就是整個(gè)數(shù)據(jù)分析系統(tǒng)的主要流程。它利用網(wǎng)頁中的超文本鏈接(Hyperlink)來訪問網(wǎng)頁,從一個(gè)事先制訂好的URL列表開始,這個(gè)列表中的URL一般是從過去的訪問記錄里提取出來的,通常是一些比較流行的站點(diǎn)和新聞網(wǎng)頁,利用HTTP等標(biāo)準(zhǔn)協(xié)議,通過URL從一個(gè)頁面爬行到另一個(gè)頁面,直到?jīng)]有滿足條件的新的URL產(chǎn)生為止。此時(shí),就可以通過計(jì)算向量間的相似性來度量文檔間的相似性。1)構(gòu)建向量表示文檔中的詞項(xiàng)對(duì)于文檔集中的每一個(gè)不同的詞項(xiàng),在向量中只記錄一個(gè)分量。經(jīng)過向量化的文檔,就可以在坐標(biāo)系中表示,如圖42 所示。所以,擴(kuò)展這種表示形式,將詞項(xiàng)在文檔中出現(xiàn)的頻率作為向量中各個(gè)分量的值。通過使用向量空間模型,文本數(shù)據(jù)被表示為計(jì)算機(jī)能夠處理的結(jié)構(gòu)化數(shù)據(jù)。2)度量任意文檔向量和查詢向量的相似性余弦距離經(jīng)常被用在文本相似性比較中。不同文檔長度的歸一化是通過計(jì)算向量內(nèi)積與文檔向量的長度的比值實(shí)現(xiàn)的,即前提是忽略文檔向量長度的影響。余弦的計(jì)算公式:SCQ,Di=j=1twijdijj=1t(dij)2j=1t(wij)2經(jīng)過VSM分類的文本文檔,可以看做粗略的分類,不過不夠精確,所以需要后續(xù)的文本聚類的精確分類來確定所需要的微博消息。聚類的目的是找到對(duì)象組,進(jìn)一步目的是通過數(shù)據(jù)分析確定對(duì)數(shù)據(jù)分析有用的群體。文本聚類的基礎(chǔ)是著名的聚類假設(shè):聚為一類的文本相似性較大,而聚為不同類的文本相似性較小。目前,文本聚類已經(jīng)成為對(duì)文本信息進(jìn)行摘要、組織和導(dǎo)航的重要手段,受到了越來越多的關(guān)注。要使計(jì)算機(jī)能夠高效地處理文本,就必須找到一種理想的形式化表示方法。文本聚類算法有劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。劃分法:對(duì)于一個(gè)有N 個(gè)記錄的數(shù)據(jù)集,將構(gòu)造K個(gè)分組,每一個(gè)分組屬于同一個(gè)聚類,KN。這里提到的好的標(biāo)準(zhǔn)是:對(duì)于同一個(gè)分組中的記錄,越近越好;對(duì)于不同分組中的記錄,越遠(yuǎn)越好【9】。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科。這里所說的“機(jī)器”,指的就是計(jì)算機(jī)。監(jiān)督學(xué)習(xí),即在機(jī)械學(xué)習(xí)過程中提供對(duì)錯(cuò)指示。通過算法讓機(jī)器自我減少誤差。 classify)。descent)來減小誤差,達(dá)到分類的目的。Kmeans算法是屬于劃分類的聚類方法,它的基本原理如下:1. 用戶輸入想要?jiǎng)澐值奈谋揪垲愝攏。3. 對(duì)其他文本計(jì)算到這n個(gè)聚類中心的距離,并把它分到距離 最近的那個(gè)聚類里面。5. 重復(fù)步驟3,4直到達(dá)到用戶的設(shè)定條件為止【9】。然后重新計(jì)算選擇每個(gè)類的中心。從前文中可以知道,微博意見領(lǐng)袖在微博消息傳播中的重要性,而意見領(lǐng)袖本身也存在著影響力不同的問題,所以根據(jù)PageRank算法提出改進(jìn)的WeiboRank算法來對(duì)意見領(lǐng)袖的重要性進(jìn)行評(píng)估。是Google排名運(yùn)算法則(排名公式)的一部分,是Google用于用來標(biāo)識(shí)網(wǎng)頁的等級(jí)/重要性的一種方法,是Google用來衡量一個(gè)網(wǎng)站的好壞的唯一標(biāo)準(zhǔn)?;舅枷耄喝绻W(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。優(yōu)點(diǎn):是一個(gè)與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。PageRank的核心思想是每個(gè)節(jié)點(diǎn)的PR值根據(jù)反向鏈接的數(shù)量,均勻“流”向所有的關(guān)系節(jié)點(diǎn)。同時(shí)與微博用戶自身的活躍性、是否經(jīng)常登錄微
點(diǎn)擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1