freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計(jì)_微博輿情管理平臺(tái):數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-免費(fèi)閱讀

2024-10-01 21:56 上一頁面

下一頁面
  

【正文】 微博輿情 管理平臺(tái) 在 民意調(diào)查, 輿情 監(jiān)控 和 消息獲取 等 方面均有很大價(jià)值。 而網(wǎng)絡(luò)輿情分析系統(tǒng)是讓計(jì)算機(jī)去動(dòng)態(tài)的收集數(shù)據(jù),對(duì)其進(jìn)行自動(dòng)分析形成輿情分析結(jié)果。 而且 從系統(tǒng)功能方面,首先實(shí)現(xiàn)的是對(duì)指定微博內(nèi)容的熱點(diǎn)趨勢(shì)分析,而沒有實(shí)現(xiàn)從實(shí)時(shí)所有微博信息中發(fā)現(xiàn)熱點(diǎn), 網(wǎng)絡(luò) 抓取技術(shù)這 方面有待改進(jìn)。 前 10 組 為媒體傳播模式的微博消息,其中 ―江蘇鹽城政府單位吃喝 27萬 ‖, ―南京 一郵局被強(qiáng)拆 ‖, ―埃及浮雕刻有‘丁錦昊到此一游 ’ ‖, ―人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣萌裝天真 ‖, ―鄭州暴雨 ‖,這 5 條 微博成為熱點(diǎn),其 余 沒有成為熱點(diǎn) , 趨勢(shì)分析模塊 沒有預(yù)測(cè)出 ―江蘇政府單位吃喝 ‖, ―人民日?qǐng)?bào)海外版:房地產(chǎn)商哭窮屬賣萌裝天真 ‖這 兩 條熱點(diǎn) ;誤 測(cè)了 ―李克強(qiáng)發(fā)表講話 ‖, ―人民日?qǐng)?bào):農(nóng)村孩子為何不愿躍‘龍門’ ‖ 為 熱點(diǎn) ,準(zhǔn)確率 只 有 60%。 微博用戶 對(duì)該輿情關(guān)注度高,傳播速度快,影響擴(kuò)散到了很 大范圍,輿情有 可能 成為 多日熱點(diǎn) ; 紅色級(jí) (I 級(jí) ):出現(xiàn)輿情。究其原因,自然現(xiàn)象內(nèi)外部影響因素之間的因果關(guān)系相對(duì)確定,而且這些現(xiàn)象都經(jīng)歷了長(zhǎng)期的觀察測(cè)量,有了較好的量化基礎(chǔ),因而可以方便地進(jìn)行預(yù)警。 為了進(jìn)一步對(duì)比和分析算法在真實(shí)影響人次這一評(píng)價(jià)指標(biāo)下對(duì)用戶影響力的識(shí)別準(zhǔn)確程度,通過相關(guān)算法獲得用戶影響力的排名,然后通過對(duì)排名的 意見領(lǐng)袖 用戶影響人次覆蓋率進(jìn)行對(duì)比,并與真實(shí)用戶傳播影響人次序列進(jìn)行對(duì)比,考察各序列之間的相 對(duì)關(guān)系,結(jié)果如 圖 44 所示。 在微博信息傳播網(wǎng)絡(luò)中,我們借鑒 PageRank 算法的核心思想,提出weiboRank(wR)算法來評(píng)估每個(gè)節(jié)點(diǎn)的信息影響力,定義如下: 式中, WR(i )是節(jié)點(diǎn) i 的 WeiboRank 值, B 是指向 i 的節(jié)點(diǎn)的集合,其中 C(i, j)是節(jié)點(diǎn) j 的傳播影響力分配給 i 的比例因子,這里采用 上文定義的親近率。定義如下: 式中 Rtc( i, j) )是用戶 j 曾經(jīng)轉(zhuǎn)載作者 i 的微博的次數(shù)。 不足:人們的查詢具有主題特征, PageRank 忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外, PageRank 有很嚴(yán)重的對(duì)新網(wǎng)頁的歧視。進(jìn)行不斷循環(huán) 迭代 ,直到目標(biāo)函數(shù)收斂不再變化。 Kmeans 文本聚類算法就是一種 應(yīng)用 非監(jiān)督 的 機(jī)器學(xué)習(xí) 的 劃分法文本聚類算法。 機(jī)器 學(xué)習(xí)按學(xué)習(xí)形式分類,可分為監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí) 。K 個(gè)分組所要滿足的條件: 1)至少一個(gè)數(shù)據(jù)紀(jì)錄屬于一個(gè)分組 2)每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組對(duì)于給定的 K,算法首先給出一個(gè)初始的分組方法,通過迭代的方法來不斷優(yōu)化分組,每一次優(yōu)化后的分組方案都會(huì)較前一次好。文本聚類是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,不依賴于訓(xùn)練過程,并且不需要提前手 動(dòng)劃分文本類別,因此具有一定的靈活性和較高的自動(dòng)化處理能力。余弦結(jié)果為一個(gè) 0到 1的數(shù),1表示向量一致, 0則表示正交,符合相似性百分比的特性。 圖 41 VSM 主要思想 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁 16 如果詞項(xiàng)出現(xiàn),則在對(duì)應(yīng)向量的分量處記 1;如果詞項(xiàng)未出現(xiàn),則在對(duì)應(yīng)的分量處記 0。 數(shù)據(jù) 分析 系統(tǒng) 設(shè)計(jì) 流程 數(shù)據(jù) 分析系統(tǒng)的主要流程如圖 32所示 , 獲得 關(guān)鍵詞或核心微博后,從數(shù)據(jù)庫中 獲取 微博相關(guān)數(shù)據(jù),將微博內(nèi)容與微博 ID 掛鉤 ,用中文 分詞系統(tǒng)將 微博 內(nèi)容進(jìn)行 分詞 , 然后 在數(shù)據(jù)庫中新建一表項(xiàng),用于存儲(chǔ)分詞后的文本內(nèi)容, 繼續(xù)以 微博 ID 為區(qū)分 , 將分詞后的文本 放入 Kmeans 算法中進(jìn)行迭代 聚類 ,選出關(guān)鍵詞或核心微博所在類 為 相關(guān)微博類,刪除數(shù)據(jù)庫中其他 無關(guān) 微博,進(jìn)而篩選出符合微博意見領(lǐng)袖定義的 用戶 , 進(jìn)入 微博意見領(lǐng)袖影響力評(píng)估 算法 ,分析出每個(gè)意見領(lǐng)袖的重要程度 。圖 23是 一條有關(guān)波士頓爆炸案的微博消息路徑圖的一部分,通過 圖 23可以 看出意見 領(lǐng)袖 在微博消息傳播所占的重要作用,是傳播路徑上的重要節(jié)點(diǎn),與 消息傳播的廣度 息息相關(guān) 。 粉絲數(shù) 量也不是必然要求,類似消息的二級(jí)傳播 原理 , 活躍 且粉絲質(zhì)量高 的 用戶也 會(huì) 有相當(dāng)大的影響力, 這也 是一些草根用戶能夠成為影響力 大 的意見領(lǐng)袖的原因 。 在 消息傳播過程中,這三種狀態(tài)是單向轉(zhuǎn)變 的 ,未知 狀態(tài) 可以變成已知不傳播狀態(tài), 已知 不傳播狀態(tài)可以變成轉(zhuǎn)發(fā)狀態(tài),但不能反向轉(zhuǎn)變,已知不傳播狀態(tài)可能在多次從不同用戶得知 同一 消息后變得感興趣從而轉(zhuǎn)變?yōu)檗D(zhuǎn)發(fā)狀態(tài)。 微博消息 是由 140 字 左右的 短 文本 構(gòu)成 的 , 所以其原創(chuàng)性遠(yuǎn)大于例如BBS,論壇,博客等平臺(tái) , 可能 表達(dá) 的意思相同, 但發(fā)出 的微博卻不一樣,同樣以雅安地震為例, “為 雅安祈福 ” , “ 雅安 平安 ” , “ 支援 雅安 ” 等消息 出現(xiàn)在微博上,雖然是不同文本,但同樣表達(dá)了對(duì)雅安地震災(zāi)情的關(guān)注和祝福,這種原創(chuàng)性大大豐富了微博的內(nèi)容, 也直接 體現(xiàn) 了網(wǎng)絡(luò)輿情的偏差性 與豐富性。 第四章 針對(duì)數(shù)據(jù) 分析系統(tǒng)的局限性,提出了未來的改進(jìn)方向。相應(yīng)的,某個(gè)輿情通過各大網(wǎng)站、論壇的轉(zhuǎn)貼可以在極短時(shí)間內(nèi)為大量人知 曉,這在以前是難以想象的;在網(wǎng)絡(luò)輿情體現(xiàn)最明顯的論壇、社區(qū)、博客、 微博等空間,每一個(gè)網(wǎng)民都可以實(shí)時(shí)地發(fā)表自己的觀點(diǎn),大家共同討論或辯論,不同觀點(diǎn)或立場(chǎng)的網(wǎng)民進(jìn)行交鋒,可以通過互動(dòng)推動(dòng)輿情的發(fā)展或深化,引起更多人的關(guān)注。 以網(wǎng)絡(luò)為載體 的 網(wǎng)絡(luò)輿情 ,核心 是單個(gè) 或多個(gè) 事件 ,是 海量 網(wǎng)民 感情 、態(tài)度、 建議 、觀點(diǎn)的表達(dá), 互動(dòng)與傳播 ,以及后續(xù) 的 影響力的集合?!绷碛醒芯空哒J(rèn)為:“輿情即民意情況,涉及公眾對(duì)社會(huì)生活中各個(gè)方面的問題尤其是熱點(diǎn)問 題的公開意見 (外露的部分 )或情緒反應(yīng) (既可能外露又可能不外露的部分 )。 2020 年 ,中國(guó)第一家?guī)в形⒉┥实木W(wǎng)站 “ 飯否網(wǎng) ” 開張 ,到 2020 年 新浪微博 的 開通 , 中國(guó)第一家推出微博的門戶網(wǎng)站,微博正式進(jìn)入 中文 上網(wǎng)主流人群 視野 。 本文以 微博消息為研究對(duì)象, 研究 了微博消息傳播的特點(diǎn)與模型, 通過對(duì) 抓取 數(shù)據(jù) 的分析 發(fā)現(xiàn) 了 微博 傳播的單向性,便捷性,背對(duì)臉等特點(diǎn),還有 微博意見領(lǐng)袖 在 微博傳播中的重要作用, 微博 熱點(diǎn)的產(chǎn)生 規(guī)律 。微博,即微博客( MicroBlog)的簡(jiǎn)稱,是一個(gè)基于用戶關(guān)系信息分享、傳 播以及獲取平臺(tái),用戶可以通過 WEB、 WAP 等各種客戶端組建個(gè)人社區(qū),以 140 字左右的文字更新信息,并實(shí)現(xiàn)即時(shí)分享。 對(duì)于輿情的內(nèi)涵,國(guó)內(nèi)的研究者們有著不同的認(rèn)識(shí)。網(wǎng)絡(luò)從誕生的那一天起,就開始深刻地影響人們的 生活、學(xué)習(xí)、思考、交流和娛樂的方式。在網(wǎng)絡(luò)上,輿情的載體主要有新聞評(píng)論,論壇 (社區(qū) )發(fā)帖、跟帖,博客,播客, 微博 等。 第一章概述 介紹了 我 選擇這個(gè)課題的 背景 , 敘述 了目前 國(guó)內(nèi)外 關(guān)于微博輿情管理平臺(tái)的研究現(xiàn)狀, 分析 了微博輿情管理平臺(tái)的重要意義 。 隨著 智能手機(jī)的普及 以及 各種便捷移動(dòng)電子設(shè)備的出現(xiàn),各種微博移動(dòng)終端 使得 微博消息的 發(fā)表 與接收變得非常便捷,使得網(wǎng)絡(luò)輿情的直接性和突發(fā)性表現(xiàn)的更為突出 。 由于 病毒傳播與微博消息 的 相似性, 假設(shè) 一個(gè)用戶發(fā)布一條消息后,他的粉絲用戶都一定會(huì)看到這條消息, 類比 病毒 傳播的三種狀態(tài),將微博用戶也分為三種狀態(tài), 未知 狀態(tài), 轉(zhuǎn)發(fā) 狀態(tài), 已知 不傳播狀態(tài)。 通過 對(duì) 收集到的數(shù)據(jù)的分析, 從 數(shù)據(jù)表明,基本上可以 認(rèn)為 20%的 意見 領(lǐng)袖 用戶領(lǐng)導(dǎo)著 80%的用戶的意見 , 如圖 22, 從一條轉(zhuǎn)發(fā)量為 561 次 的微博消息 的 前10名 的 數(shù)據(jù) 可以看出, 昵稱 為 “思想 焦距 ”“ 杜子健 ”“ 歷史塵封 檔案 ”的 3 位 用戶 是 此次消息傳播 中 最重要的 3 位 意見領(lǐng)袖 。 具體重要性的評(píng)估算法將在 節(jié) 具體闡述 。 三、 微博 輿情管理平臺(tái)的設(shè)計(jì) 與實(shí)現(xiàn) 微博 輿情管理平臺(tái)的總體流程 微博 輿情管理平臺(tái)的 三大模塊 如圖 31所示, 分為 微博 信息 數(shù)據(jù)獲取模塊, 數(shù)據(jù) 分析模塊, 分析 結(jié)果呈現(xiàn)模塊, 本文 主要研究的是數(shù)據(jù)分析模塊 。此時(shí),就可以通過計(jì)算向量間的相似性來度量文檔間的相似性。 通過使用向量空間模型,文本數(shù)據(jù)被表示為計(jì)算機(jī)能夠處理的結(jié)構(gòu)化數(shù)據(jù)。 聚類 的 目的是找到對(duì)象組, 進(jìn)一步目的 是通過數(shù)據(jù)分析確定 對(duì) 數(shù)據(jù)分析有用的群體。 文本聚類算法有劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁 18 基于模型的方法。 機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科。 classify)。 5. 重復(fù)步驟 3, 4直到 達(dá)到用戶的設(shè)定條件為止 【 9】 。 基本思想:如果網(wǎng)頁 T存在一個(gè)指向網(wǎng)頁 A的連接,則表明 T的所有者認(rèn)為 A比較重要,從而把 T 的一部分重要性得分賦予 A。 給定一個(gè)權(quán)重有向網(wǎng)絡(luò) G=( V, E, W ),節(jié)點(diǎn)為 V,邊為 E,邊權(quán)為 w,其中 i和 j節(jié)點(diǎn)間邊權(quán) Wij 表示節(jié)點(diǎn) i對(duì)節(jié)點(diǎn) j的影響力。親近率定義為節(jié)點(diǎn) d 對(duì) i 的歷史轉(zhuǎn)發(fā)率和所有節(jié)點(diǎn) J 轉(zhuǎn)發(fā)過的用戶節(jié) 點(diǎn)的歷史轉(zhuǎn)發(fā)率之和的比值。 本文采用信息傳播實(shí)際影響人次覆蓋率 P 作為用戶的傳 播能力的評(píng)測(cè)指標(biāo)。從圖中可以看出前 20%的用戶的用戶影北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁 25 響力覆蓋了 80%的用戶傳播影響人次,符合人們?nèi)粘UJ(rèn)識(shí)中的 20/ 80 分布規(guī)律。 藍(lán)色級(jí) (IV級(jí) ):出現(xiàn)輿情。當(dāng) M值在 5000 到 10000 時(shí) ,成為熱點(diǎn)的概率經(jīng)過統(tǒng)計(jì)在 50%左右,而如果 M值在 5000 到 10000 之間 出現(xiàn)的次數(shù)能達(dá)到兩次,則成為熱點(diǎn)的概率能大大提高,大概能達(dá)到 80%左右,所以 若 M 值在 5000到 10000 之間 時(shí),統(tǒng)計(jì) M值 的 次數(shù), 若 只出現(xiàn)一次,則為 藍(lán)色 級(jí),若出現(xiàn)兩次 或 以上,為黃色級(jí) 。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁 31 五 、 結(jié)論 與展望 系統(tǒng) 不足 盡管微博輿情 監(jiān)控技術(shù)日趨成熟, 但是微博 輿情本身 的 特點(diǎn)及復(fù)雜性使得微博輿情信息 的 處理不能 像 普通 文本信息 的 處理那樣進(jìn)行 。 通過 更多 的數(shù)據(jù)抓取來改進(jìn)微博意見領(lǐng)袖 影響力 算法。針對(duì)目前傾向性語義資源匱乏的現(xiàn)狀,收集和整理了當(dāng)前主要的基礎(chǔ)語義資源,分析了在構(gòu)建語義資源時(shí)需要考慮的因素,提出了用于傾向性分類的語義資源的構(gòu)建方法并實(shí)際構(gòu)建了一部領(lǐng)域極性詞典。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁 34 參考文獻(xiàn) [1] 張洋 , 何楚杰 , 段俊文 , 等 . 微博輿情熱點(diǎn)分析系統(tǒng)設(shè)計(jì)研究 [J]. 信息網(wǎng) 絡(luò)安全 , 2020 (9): 6064 [2] 王藝 . 重大突發(fā)公共事件的微博輿情監(jiān)測(cè)與引導(dǎo)初探 [J]. 貴州民族學(xué)院學(xué)報(bào) : 哲學(xué)社會(huì)科學(xué)版 , 2020 (5): 148151 [3] 楊濤 . 智能信息處理技術(shù)在互聯(lián)網(wǎng)輿情分析中的應(yīng)用 [D]. 同濟(jì)大學(xué) , 2020 [4] 張超 . 文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應(yīng)用研究 [D][D]. 北京 : 北京郵電大學(xué) , 2020. [5] 唐曉波 , 宋承偉 . 基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析 [J]. 情報(bào)學(xué)報(bào) , 2020, 31(11): 11531162. [6] 王晶 , 朱珂 , 汪斌強(qiáng) . 基于信息數(shù)據(jù)分析的微博研究綜述 [J]. 計(jì)算機(jī)應(yīng)用 , 2020, 12(32): 7. [7] 莫溢 , 劉盛華 , 劉悅 , 等 . 一種相關(guān)話題微博信息的篩選規(guī)則學(xué)習(xí)算法 [J]. 中文信息學(xué)報(bào) , 2020, 26(5): 16. [8] 譚俊武 . 面向網(wǎng)絡(luò)輿情分析的文本傾向性分類技術(shù)的研究與實(shí)現(xiàn) [D][D]. 國(guó)防科學(xué)技術(shù)大學(xué) , 2020. [9] 陸浩 . 網(wǎng)絡(luò)輿情監(jiān)測(cè)研究與原型實(shí)現(xiàn) [D][D]. 北京 : 北京郵電大學(xué) , 2020. [10] 肖宇 , 許煒 , 商召璽 . 微博用戶區(qū)域影響力識(shí)別算法及分析 [J]. 計(jì)算機(jī)科學(xué) , 2020, 39(9): 3842. [11] 楊春霞 , 胡丹婷 , 胡森 . 微博病毒傳播模型研究 [J]. Computer Engineering, 2020, 38(15). 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁 35 [12] 李雯靜 , 許鑫 , 陳正權(quán) . 網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計(jì)與分析 [J]. 情報(bào)科學(xué) , 2020, 27(7): 986991. [13] 滕達(dá) . 基于趨勢(shì)分析的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng) (TANCMS) 的研究與實(shí)現(xiàn) [D]. 國(guó)防科學(xué)技術(shù)大學(xué) , 2020. [14] Larsen B, Aone C. Fast and effective text mining using lineartime document clustering[C]//Proceedings of the fifth ACM SIGKDD inte
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1