freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計_微博輿情管理平臺:數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)-全文預(yù)覽

2024-09-27 21:56 上一頁面

下一頁面
  

【正文】 組句子 和 微博達人 模式 5 組。 而 媒體 模式中的準(zhǔn)確率就比較差強人意了 ,只有 60%左右,根據(jù) 實驗結(jié)果發(fā)現(xiàn)媒體本身擁有眾多粉絲數(shù),所以發(fā)表的消息雖然成為熱點的可能性非常大,但也總有 40%的新聞只是 新聞 , 傳播 面廣 而沒有成為熱點,所以對媒體模式的更準(zhǔn)確預(yù)警分析有待 改進 。 由于 時間 和精力有限,這個系統(tǒng)尚未做到盡善盡美,主要還存在以下幾個方面問題: 動態(tài)監(jiān)測 對 微博信息的實時獲取,是 趨勢 分析的 關(guān)鍵 ,由于新 浪 API 的限制 ,導(dǎo)致對微博 消息 的抓取有一定限制,在抓取數(shù)據(jù)時會有一定時間的延遲,在數(shù)據(jù)挖掘方面有待改進。 分析準(zhǔn)確率 從 的 結(jié)果分析中發(fā)現(xiàn),對于媒體傳播模式的微博消息的 預(yù)警 準(zhǔn)確率 基帶 提高 , 需要加入 文本 傾向性分析 和 轉(zhuǎn)發(fā)率等因素來提高 分析 準(zhǔn)確北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 32 率。 新增 功能 文本 傾向性分析模塊 傳統(tǒng)的輿情分析和調(diào)查主要采用靜態(tài)的手段,如:通過調(diào)查問卷,電話和面談,國內(nèi)外都有不少專業(yè)的調(diào)查公司和院所參與調(diào)查問題和場景的設(shè)計工作。這些成型系統(tǒng)一般由數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析等模塊組成。 結(jié)束語 隨著網(wǎng)絡(luò) 在 全球 范圍內(nèi) 的 飛速發(fā)展, 網(wǎng)絡(luò)已經(jīng) 逐漸發(fā)展 成反映 社會輿情的 主要 載體 , 微博輿情也成了網(wǎng)絡(luò)輿情的重要組成 部分 。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 34 參考文獻 [1] 張洋 , 何楚杰 , 段俊文 , 等 . 微博輿情熱點分析系統(tǒng)設(shè)計研究 [J]. 信息網(wǎng) 絡(luò)安全 , 2020 (9): 6064 [2] 王藝 . 重大突發(fā)公共事件的微博輿情監(jiān)測與引導(dǎo)初探 [J]. 貴州民族學(xué)院學(xué)報 : 哲學(xué)社會科學(xué)版 , 2020 (5): 148151 [3] 楊濤 . 智能信息處理技術(shù)在互聯(lián)網(wǎng)輿情分析中的應(yīng)用 [D]. 同濟大學(xué) , 2020 [4] 張超 . 文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應(yīng)用研究 [D][D]. 北京 : 北京郵電大學(xué) , 2020. [5] 唐曉波 , 宋承偉 . 基于復(fù)雜網(wǎng)絡(luò)的微博輿情分析 [J]. 情報學(xué)報 , 2020, 31(11): 11531162. [6] 王晶 , 朱珂 , 汪斌強 . 基于信息數(shù)據(jù)分析的微博研究綜述 [J]. 計算機應(yīng)用 , 2020, 12(32): 7. [7] 莫溢 , 劉盛華 , 劉悅 , 等 . 一種相關(guān)話題微博信息的篩選規(guī)則學(xué)習(xí)算法 [J]. 中文信息學(xué)報 , 2020, 26(5): 16. [8] 譚俊武 . 面向網(wǎng)絡(luò)輿情分析的文本傾向性分類技術(shù)的研究與實現(xiàn) [D][D]. 國防科學(xué)技術(shù)大學(xué) , 2020. [9] 陸浩 . 網(wǎng)絡(luò)輿情監(jiān)測研究與原型實現(xiàn) [D][D]. 北京 : 北京郵電大學(xué) , 2020. [10] 肖宇 , 許煒 , 商召璽 . 微博用戶區(qū)域影響力識別算法及分析 [J]. 計算機科學(xué) , 2020, 39(9): 3842. [11] 楊春霞 , 胡丹婷 , 胡森 . 微博病毒傳播模型研究 [J]. Computer Engineering, 2020, 38(15). 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 35 [12] 李雯靜 , 許鑫 , 陳正權(quán) . 網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計與分析 [J]. 情報科學(xué) , 2020, 27(7): 986991. [13] 滕達 . 基于趨勢分析的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng) (TANCMS) 的研究與實現(xiàn) [D]. 國防科學(xué)技術(shù)大學(xué) , 2020. [14] Larsen B, Aone C. Fast and effective text mining using lineartime document clustering[C]//Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 1999: 1622. [15] Kumar V, Tan P N, Steinbach M. Cluster analysis: basic concepts and algorithms[J]. Introduction to data mining, 2020: 487586. [16] Page L, Brin S, Motwani R, et al. The PageRank citation ranking: bringing order to the web[J]. 1999. 附錄Ⅰ: 翻譯原文 Cluster Analysis:Basic Concepts and Algorithms Cluster analysis divides data into groups (clusters) that are meaningful, useful,or both. If meaningful groups are the goal, then the clusters shou。 針對目前輿情 管理平臺的研究現(xiàn)狀, 本文 重在研究其中數(shù)據(jù)分析系統(tǒng)的內(nèi)容, 有 以下貢獻: 整合 中文分詞系統(tǒng)與 空間向量 模型 及 Kmeans 算法,實現(xiàn) 了對微博 數(shù)據(jù)的 轉(zhuǎn)化及聚類,給出了微博意見領(lǐng)袖的 評估 算法 及 對微博消息的預(yù)警等功能 。針對目前傾向性語義資源匱乏的現(xiàn)狀,收集和整理了當(dāng)前主要的基礎(chǔ)語義資源,分析了在構(gòu)建語義資源時需要考慮的因素,提出了用于傾向性分類的語義資源的構(gòu)建方法并實際構(gòu)建了一部領(lǐng)域極性詞典。網(wǎng)絡(luò)輿情分析系統(tǒng)所涉及的領(lǐng)域眾多,不過各個子領(lǐng)域的一些相關(guān)技術(shù)是可以互相參考和借鑒的。 通過 更多 的數(shù)據(jù)抓取來改進微博意見領(lǐng)袖 影響力 算法。 分析技術(shù) 漢語 語義的豐富性與 復(fù)雜 性導(dǎo)致中文分詞與語義分析的困難 , 許多適用英文語義分析 的 算法 無法 用于中文 語義, 由于中文 語義 分析 需要建立自然語料庫,這方面 需要 的工作量過大,時間和精力不足,所以在這方面只有一些理論研究,沒有實現(xiàn)。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 31 五 、 結(jié)論 與展望 系統(tǒng) 不足 盡管微博輿情 監(jiān)控技術(shù)日趨成熟, 但是微博 輿情本身 的 特點及復(fù)雜性使得微博輿情信息 的 處理不能 像 普通 文本信息 的 處理那樣進行 。 在 微博達人模式中, ―營養(yǎng)餐食物變質(zhì),營養(yǎng)縮水,問題不斷 ‖這條 熱點沒有預(yù)測出,但其他熱點均成功預(yù)測并且沒有 誤報 熱點, 準(zhǔn)確率 為 80%。當(dāng) M值在 5000 到 10000 時 ,成為熱點的概率經(jīng)過統(tǒng)計在 50%左右,而如果 M值在 5000 到 10000 之間 出現(xiàn)的次數(shù)能達到兩次,則成為熱點的概率能大大提高,大概能達到 80%左右,所以 若 M 值在 5000到 10000 之間 時,統(tǒng)計 M值 的 次數(shù), 若 只出現(xiàn)一次,則為 藍色 級,若出現(xiàn)兩次 或 以上,為黃色級 。微博用戶 對該輿情關(guān)注度極高,傳播速度非常快,影響擴 大到了整個社會, 輿情必定 成為熱點并且持續(xù)一段時間 。 藍色級 (IV級 ):出現(xiàn)輿情。預(yù)警,究其實質(zhì)是一種特殊的預(yù)測,因為 預(yù)測是預(yù)警的基礎(chǔ)和條件,預(yù)警是選擇實施預(yù)案的前提和準(zhǔn)備。從圖中可以看出前 20%的用戶的用戶影北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 25 響力覆蓋了 80%的用戶傳播影響人次,符合人們?nèi)粘UJ(rèn)識中的 20/ 80 分布規(guī)律。 圖 44 3 種 算法 意見領(lǐng)袖 累計覆蓋率統(tǒng)計 通過對 圖 44 中的數(shù)據(jù)分析發(fā)現(xiàn), WeiboRank 算法 意見領(lǐng)袖 用戶對信息的累計人群覆蓋率都高于其他算法,這充分說明該算法通過親近率引入個體傳播意愿和節(jié)點互動程度后,能夠有效地逼近用戶的真實信息傳播能力。 本文采用信息傳播實際影響人次覆蓋率 P 作為用戶的傳 播能力的評測指標(biāo)。 d 是阻尼系數(shù),可設(shè)定在 (0, 1)之間,本文中選取 0. 85。親近率定義為節(jié)點 d 對 i 的歷史轉(zhuǎn)發(fā)率和所有節(jié)點 J 轉(zhuǎn)發(fā)過的用戶節(jié) 點的歷史轉(zhuǎn)發(fā)率之和的比值。顯然,如果用戶 j 過去經(jīng)常轉(zhuǎn)發(fā) i 的微博,今后也很有可能轉(zhuǎn)發(fā)。 給定一個權(quán)重有向網(wǎng)絡(luò) G=( V, E, W ),節(jié)點為 V,邊為 E,邊權(quán)為 w,其中 i和 j節(jié)點間邊權(quán) Wij 表示節(jié)點 i對節(jié)點 j的影響力。 PageRank 的核心思想是每個節(jié)點的 PR 值根據(jù)反向鏈接的數(shù)量,均勻北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 22 “流”向所有的關(guān)系節(jié)點。 基本思想:如果網(wǎng)頁 T存在一個指向網(wǎng)頁 A的連接,則表明 T的所有者認(rèn)為 A比較重要,從而把 T 的一部分重要性得分賦予 A。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 21 微博 意見 領(lǐng)袖重要性評估 從前文 中可以知道 , 微博意見領(lǐng)袖在微博消息傳播中的重要性,而意見領(lǐng)袖本身也存在著影響力 不同 的問題,所以 根據(jù) PageRank 算法提出 改進 的 WeiboRank 算法來對意見領(lǐng)袖的重要性進行評估。 5. 重復(fù)步驟 3, 4直到 達到用戶的設(shè)定條件為止 【 9】 。 算法 Kmeans 算法是 屬于 劃分類的聚類方法,它的基本 原理 如下: 1. 用戶輸入想要 劃分 的文本聚類輸 n。 classify)。監(jiān)督學(xué)習(xí),北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 19 即在機械學(xué)習(xí)過程中提供對錯指示。 機器學(xué)習(xí)是研究如何使用機器來模擬人類學(xué)習(xí)活動的一門學(xué)科。這里提到的好的標(biāo)準(zhǔn)是:對于同一個分組中的記錄,越近越好;對于不同分組中的記錄,越遠越好 【 9】 。 文本聚類算法有劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 18 基于模型的方法。目前,文本聚類已經(jīng)成為對文本信息進行摘要、組織和導(dǎo)航的重要手段,受到了越來越多的關(guān)注。 聚類 的 目的是找到對象組, 進一步目的 是通過數(shù)據(jù)分析確定 對 數(shù)據(jù)分析有用的群體。 不同文檔長度的歸一化是通過計算向量內(nèi)積與文檔向量的長度的比值實現(xiàn)的,即前提是忽略文檔向量長度的影響。 通過使用向量空間模型,文本數(shù)據(jù)被表示為計算機能夠處理的結(jié)構(gòu)化數(shù)據(jù)。經(jīng)過向量化的文檔,就可以在坐標(biāo)系中表示,如 圖 42 所示。此時,就可以通過計算向量間的相似性來度量文檔間的相似性。 以 小時 為單位,計算單位時間內(nèi)的微博內(nèi)容傳播廣度,設(shè)定 不同 等級閾值 M, 存在 超過 M 值 的時間 段即可 分析 預(yù)測出消息未來走勢,進而將 意見 領(lǐng)袖重要性在前 10 名的 用戶數(shù)據(jù)反饋數(shù)據(jù)庫,將用戶按時間順序進行排序存儲 到 數(shù)據(jù)北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 14 庫 交給 管理平臺進行結(jié)果反饋,這就是整個數(shù)據(jù)分析系統(tǒng)的主要流程。 三、 微博 輿情管理平臺的設(shè)計 與實現(xiàn) 微博 輿情管理平臺的總體流程 微博 輿情管理平臺的 三大模塊 如圖 31所示, 分為 微博 信息 數(shù)據(jù)獲取模塊, 數(shù)據(jù) 分析模塊, 分析 結(jié)果呈現(xiàn)模塊, 本文 主要研究的是數(shù)據(jù)分析模塊 。北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 11 圖 23 微博 消息傳播路徑圖 通過 對 數(shù)據(jù) 分析 可以 發(fā)現(xiàn) 在 消息的傳播廣度和初始微博意見領(lǐng)袖加入的多少 有 一定關(guān)系,當(dāng)單位時間內(nèi) 意見領(lǐng)袖的 影響力達到了一個 閾值 M后, 可以 認(rèn)為在之后的一段時間內(nèi),此消息的傳播范圍會有一個明顯的增長 , 關(guān)于 M值會在 詳細 介紹 。 具體重要性的評估算法將在 節(jié) 具體闡述 。 草根 用戶積極參與用戶間的 互動, 并且 努力發(fā)布有價值的消息 給 粉絲, 也可以 獲得較大的影響力。 通過 對 收集到的數(shù)據(jù)的分析, 從 數(shù)據(jù)表明,基本上可以 認(rèn)為 20%的 意見 領(lǐng)袖 用戶領(lǐng)導(dǎo)著 80%的用戶的意見 , 如圖 22, 從一條轉(zhuǎn)發(fā)量為 561 次 的微博消息 的 前10名 的 數(shù)據(jù) 可以看出, 昵稱 為 “思想 焦距 ”“ 杜子健 ”“ 歷史塵封 檔案 ”的 3 位 用戶 是 此次消息傳播 中 最重要的 3 位 意見領(lǐng)袖 。北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 7 圖 21 微博 用戶狀態(tài)圖 微博 意見領(lǐng)袖 意見 領(lǐng)袖這一說法起源于 20世紀(jì) 40年代 初傳播學(xué)關(guān)于媒介傳播效果的研究 , 傳播學(xué)者拉扎斯菲爾德 在 1940 年 美國大選的 調(diào)查 研究中發(fā)現(xiàn),大部分選民的投票不依靠大眾傳媒,依靠的是身邊的 親戚、 朋友和團體的影響。 由于 病毒傳播與微博消息 的 相似性, 假設(shè) 一個用戶發(fā)布一條消息后,他的粉絲用戶都一定會看到這條消息, 類比 病毒 傳播的三種狀態(tài),將微博用戶也分為三種狀態(tài), 未知 狀態(tài), 轉(zhuǎn)發(fā) 狀態(tài), 已知 不傳播狀態(tài)。 但也為微博輿情管理增加了難度, 對 微博內(nèi)容的分類提出了更高的要求。 隨著 智能手
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1