freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計_微博輿情管理平臺:數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)-文庫吧資料

2024-09-04 10:58本頁面
  

【正文】 于模型的方法。要使計算機(jī)能夠高效地處理文本,就必須找到一種理想的形式化表示方法。目前,文本聚類已經(jīng)成為對文本信息進(jìn)行摘要、組織和導(dǎo)航的重要手段,受到了越來越多的關(guān)注。文本聚類的基礎(chǔ)是著名的聚類假設(shè):聚為一類的文本相似性較大,而聚為不同類的文本相似性較小。 聚類 的 目的是找到對象組, 進(jìn)一步目的 是通過數(shù)據(jù)分析確定 對 數(shù)據(jù)分析有用的群體。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 17 余弦的計算公式: 經(jīng)過 VSM 分類的文本 文檔,可以 看做粗略的分類,不過不夠精確, 所以 需要后續(xù)的文本聚類 的 精確分類來確定 所需 要的微博消息。 不同文檔長度的歸一化是通過計算向量內(nèi)積與文檔向量的長度的比值實現(xiàn)的,即前提是忽略文檔向量長度的影響。 2)度量任意文檔向量和查詢向量的相似性 余弦距離經(jīng)常被用在文本相似性比較中。 通過使用向量空間模型,文本數(shù)據(jù)被表示為計算機(jī)能夠處理的結(jié)構(gòu)化數(shù)據(jù)。所以,擴(kuò)展這種表示形式,將詞項在文檔中出現(xiàn)的頻率作為向量中各個分量的值。經(jīng)過向量化的文檔,就可以在坐標(biāo)系中表示,如 圖 42 所示。 1)構(gòu)建向量表示文檔中的詞項 對于文檔集中的每一個不同的詞項,在向量中只記錄一個分量。此時,就可以通過計算向量間的相似性來度量文檔間的相似性。它利用網(wǎng)頁中的超文本鏈接 (Hyperlink)來訪問網(wǎng)頁,從一個事先制訂好的 URL 列表開始,這個列表中的 URL 一般是從過去的訪問記錄里提取出來的 ,通常是一些比較流行的站點和新聞網(wǎng)頁,利用 HTTP 等標(biāo)準(zhǔn)協(xié)議,通過 URL 從一個頁面爬行到另一個頁面,直到?jīng)]有滿足條件的新的 URL 產(chǎn)生為止。 以 小時 為單位,計算單位時間內(nèi)的微博內(nèi)容傳播廣度,設(shè)定 不同 等級閾值 M, 存在 超過 M 值 的時間 段即可 分析 預(yù)測出消息未來走勢,進(jìn)而將 意見 領(lǐng)袖重要性在前 10 名的 用戶數(shù)據(jù)反饋數(shù)據(jù)庫,將用戶按時間順序進(jìn)行排序存儲 到 數(shù)據(jù)北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 14 庫 交給 管理平臺進(jìn)行結(jié)果反饋,這就是整個數(shù)據(jù)分析系統(tǒng)的主要流程。 然后 進(jìn)入 中文分詞模塊,將微博內(nèi)容分詞 后 進(jìn)入 VSM,將 微博內(nèi)容的文本數(shù)據(jù)轉(zhuǎn)化為計算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù), 將 所有相關(guān)微博內(nèi)容 預(yù)處理 后, 進(jìn)入 Kmeans 算法 對 微博內(nèi)容進(jìn)行分類,找到離關(guān)鍵詞最近的那個類, 認(rèn)為 這個類 中 的微博內(nèi)容表達(dá)的是同一意思, 并 作為數(shù)據(jù)分析的 主類 , 然后找出 類中符合意見領(lǐng)袖標(biāo)準(zhǔn)的 微博 領(lǐng)袖 逐一 進(jìn)行 影響力 評估, 分析 出 各 意見領(lǐng)袖的影響力指標(biāo), 然后進(jìn)入趨勢分析預(yù)警模塊, 根據(jù) 微博的走勢 代入 趨勢分析算法進(jìn)行 分析 ,得出結(jié)果將數(shù)據(jù)上傳到管理平臺,管理平臺對數(shù)據(jù)進(jìn)行處理 將 結(jié)果輸出 。 三、 微博 輿情管理平臺的設(shè)計 與實現(xiàn) 微博 輿情管理平臺的總體流程 微博 輿情管理平臺的 三大模塊 如圖 31所示, 分為 微博 信息 數(shù)據(jù)獲取模塊, 數(shù)據(jù) 分析模塊, 分析 結(jié)果呈現(xiàn)模塊, 本文 主要研究的是數(shù)據(jù)分析模塊 。對 一個范圍內(nèi)的 微博意見領(lǐng)袖進(jìn)行監(jiān)控, 發(fā)現(xiàn) 意見 領(lǐng)袖 對一條微博消息的轉(zhuǎn)發(fā) 比例 達(dá)到 10%時,北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 12 可以 認(rèn)為此消息會有一個廣泛的傳播,會成為一個熱點話題 ;通過 對已知此 消息 但 未轉(zhuǎn)發(fā)的意見領(lǐng)袖的比例與已知此消息并轉(zhuǎn)發(fā)的意見領(lǐng)袖所占比例的對比,可實現(xiàn)對未來的微博消息傳播 范圍的 判斷 ;在 單位時間內(nèi)( 設(shè)為 1 個小時 ) 的 消息傳播量 達(dá)到一個 閾值 M后 , 可以 認(rèn)為 此 消息傳播進(jìn)入爆發(fā)期, 會 出現(xiàn)較大增長,通過設(shè)置不同 M值,可對未來的消息傳播 范圍有一個大致的分 級,不同 級別表示預(yù)測此消息傳播的 最大 廣度。北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 11 圖 23 微博 消息傳播路徑圖 通過 對 數(shù)據(jù) 分析 可以 發(fā)現(xiàn) 在 消息的傳播廣度和初始微博意見領(lǐng)袖加入的多少 有 一定關(guān)系,當(dāng)單位時間內(nèi) 意見領(lǐng)袖的 影響力達(dá)到了一個 閾值 M后, 可以 認(rèn)為在之后的一段時間內(nèi),此消息的傳播范圍會有一個明顯的增長 , 關(guān)于 M值會在 詳細(xì) 介紹 。 通過 對抓取的微博數(shù)據(jù)的分析,發(fā)現(xiàn)20%的用戶領(lǐng)導(dǎo)著 80%的用戶意見,而且越是在消息初期,微博意見領(lǐng)袖的作用就越大, 意見 領(lǐng)袖的加入會使消息有一個爆炸式的增長,而 隨著 加入的意見領(lǐng)袖 增加 ,消息傳播增長趨勢放緩, 意見 領(lǐng)袖的作用降低 , 當(dāng)消息 的 傳播廣度到達(dá)一 定 范圍 后 , 意見領(lǐng)袖 的 影響力 就趨近于零 了 。 具體重要性的評估算法將在 節(jié) 具體闡述 。 也有 草根用戶 憑借 實時 發(fā)布 極有價值信息發(fā)布獲得較大影響力,隨之而來的則是轉(zhuǎn)發(fā)和粉絲數(shù)量激增。 草根 用戶積極參與用戶間的 互動, 并且 努力發(fā)布有價值的消息 給 粉絲, 也可以 獲得較大的影響力。 認(rèn)證 用戶中有部分是 在 現(xiàn)實社會中有著一定影響力, 微博 則是 其社會影響 力在網(wǎng)絡(luò)中的映射。 通過 對 收集到的數(shù)據(jù)的分析, 從 數(shù)據(jù)表明,基本上可以 認(rèn)為 20%的 意見 領(lǐng)袖 用戶領(lǐng)導(dǎo)著 80%的用戶的意見 , 如圖 22, 從一條轉(zhuǎn)發(fā)量為 561 次 的微博消息 的 前10名 的 數(shù)據(jù) 可以看出, 昵稱 為 “思想 焦距 ”“ 杜子健 ”“ 歷史塵封 檔案 ”的 3 位 用戶 是 此次消息傳播 中 最重要的 3 位 意見領(lǐng)袖 。 而在 微博 消息傳遞過程中, 人際傳播 網(wǎng)絡(luò)化 為微博用戶傳播網(wǎng)絡(luò), 微博 意見領(lǐng)袖在其中發(fā)揮著巨大作用 【 10】 。北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 7 圖 21 微博 用戶狀態(tài)圖 微博 意見領(lǐng)袖 意見 領(lǐng)袖這一說法起源于 20世紀(jì) 40年代 初傳播學(xué)關(guān)于媒介傳播效果的研究 , 傳播學(xué)者拉扎斯菲爾德 在 1940 年 美國大選的 調(diào)查 研究中發(fā)現(xiàn),大部分選民的投票不依靠大眾傳媒,依靠的是身邊的 親戚、 朋友和團(tuán)體的影響。如 圖 21所示 , 這是 一個 用戶 狀態(tài)示意圖, 用戶 A發(fā)布了一條狀態(tài), B 和 C 關(guān)注 了 A,所以知道了 A 發(fā)布的消息, B 不感興趣,忽略了這條消息,成為了已知不傳播狀態(tài),這條消息 的 傳播 在 B 處中斷,而 C 對這條消息很感興趣,轉(zhuǎn)發(fā)了這條消息,則成為轉(zhuǎn)發(fā)狀態(tài),繼續(xù)向 C自己的粉絲傳播這條消息,則 D由不知道這條消息的未知狀態(tài)變?yōu)榱酥肋@條消息的已知不 傳播 狀態(tài), 而 E關(guān)注 了 B,雖然 被 D關(guān)注,但根據(jù)微博背對臉的特性, E無法知道這條消息,一直處于未知狀態(tài)。 由于 病毒傳播與微博消息 的 相似性, 假設(shè) 一個用戶發(fā)布一條消息后,他的粉絲用戶都一定會看到這條消息, 類比 病毒 傳播的三種狀態(tài),將微博用戶也分為三種狀態(tài), 未知 狀態(tài), 轉(zhuǎn)發(fā) 狀態(tài), 已知 不傳播狀態(tài)。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 6 根據(jù) 微博典型的這 3 種 特 點 , 我們 看出 它 與其他網(wǎng)絡(luò) 平臺 輿情傳播的顯著差別 , 而 想要 對微博輿情進(jìn)行管理, 必須 很好的 利用這三種特點。 但也為微博輿情管理增加了難度, 對 微博內(nèi)容的分類提出了更高的要求。微博 的便捷性 讓 網(wǎng)絡(luò)輿情的 消息 爆發(fā)更加突然,在 前 不久的 雅安 地震 中 , 震后 3分鐘 即有第一條 關(guān)于震區(qū)震后 實情的微博消息出現(xiàn),這與微博的便捷性是分不開的 。 隨著 智能手機(jī)的普及 以及 各種便捷移動電子設(shè)備的出現(xiàn),各種微博移動終端 使得 微博消息的 發(fā)表 與接收變得非常便捷,使得網(wǎng)絡(luò)輿情的直接性和突發(fā)性表現(xiàn)的更為突出 。 這也對 網(wǎng)絡(luò)輿情的監(jiān)管提出了要求。 二、 微博 消息傳播模型 微博消息 傳播的特點 微博輿情 作為網(wǎng)絡(luò)輿情 重要 組成部分 , 有著 與 網(wǎng)絡(luò)輿情 共 同的特點,網(wǎng)絡(luò) 輿情的特點有以下幾點: 直接性,突發(fā)性,偏差 性,豐富性和互動性。 第三章 概述 了微博輿情管理平臺的總體流程,詳細(xì)講解了數(shù)據(jù)分析系統(tǒng)的設(shè)計流程, 講述了 分詞模塊,聚類模塊 及 趨勢分析模塊的算法思想,基本原理。 第一章概述 介紹了 我 選擇這個課題的 背景 , 敘述 了目前 國內(nèi)外 關(guān)于微博輿情管理平臺的研究現(xiàn)狀, 分析 了微博輿情管理平臺的重要意義 。因此,研究如何發(fā)現(xiàn)互聯(lián)網(wǎng)上的輿情、做出預(yù)警并在必要時采取合理的預(yù)控措施,成為擺在相關(guān)部門面前亟待解決的問題。 研究 現(xiàn)狀 隨著網(wǎng)絡(luò) 技術(shù)的發(fā)展和時代的進(jìn)步,網(wǎng)絡(luò)輿情的重要性已經(jīng)毋庸置疑,有關(guān)網(wǎng)絡(luò)輿情管理與檢測的研究也日趨成熟,有關(guān)網(wǎng)絡(luò)輿情 管理 與 監(jiān)測 的系統(tǒng)越來 越多 ,微博輿情的分析平臺也有出現(xiàn), 不過 多數(shù) 為 政府和企業(yè)服務(wù),只監(jiān)控有可能爆發(fā)的負(fù)面信息 和 重大事件,不對普通用戶開放,而有關(guān)微博消息的 分析 軟 件 不但 費用 昂貴而且 只是 對信息 的已傳播軌跡進(jìn)行呈現(xiàn)和分析,缺乏對微博消息未來走向的一個分析預(yù)測, 也無 對微博消息 傳播 范圍 廣度 的 分級 。網(wǎng)絡(luò)的出現(xiàn)使得地球村的夢想得以實現(xiàn),一條消息可以在瞬間傳遍世界。在網(wǎng)絡(luò)上,輿情的載體主要有新聞評論,論壇 (社區(qū) )發(fā)帖、跟帖,博客,播客, 微博 等。 輿情的本質(zhì)是民眾的社會政治態(tài)度,而在網(wǎng)絡(luò)上,某種抽象的社會政治態(tài)度是需要以一些具體的形式反映出來的。 帶有廣大網(wǎng)民的主觀性,未經(jīng)媒體驗證和包裝,直接通過多種形式發(fā)布于互聯(lián)網(wǎng)上。以網(wǎng)絡(luò)為平臺,通過新聞、評論、發(fā)帖、回復(fù)等為載體表現(xiàn)出來的輿情,就是網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)從誕生的那一天起,就開始深刻地影響人們的 生活、學(xué)習(xí)、思考、交流和娛樂的方式。”這一定義將輿情界定為民眾的社會政治態(tài)度,突出了民眾與國家管理者之間的關(guān)系,抓住了輿情的核心,因此本文在以下的論述中,也采用這一定義?!备嗟膶W(xué)者傾向于如下認(rèn)識:“輿情是指在一定的社會空間內(nèi),圍繞中介性社會事件的發(fā)生、發(fā)展和變化,民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度。大眾傳媒對此應(yīng)該有足夠的敏感,并以恰當(dāng)?shù)姆绞竭M(jìn)行輿論引導(dǎo),減少社會震蕩。 對于輿情的內(nèi)涵,國內(nèi)的研究者們有著不同的認(rèn)識。 輿情是“輿論情況”的簡稱,是指在一定的社會空間內(nèi),圍繞中介性社會事件的 發(fā)生、發(fā)展和變化,作為主體的民眾對作為客體的社會管理者北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 2 及其政治取向產(chǎn)生和持有的社會政治態(tài)度。 2020 年 10 月,中國微博用戶總數(shù)達(dá)到 億,成世界第一大國。威廉姆斯推出的 twitter 是 最早的微博平臺,也是目前最著名的平臺。微博,即微博客( MicroBlog)的簡稱,是一個基于用戶關(guān)系信息分享、傳 播以及獲取平臺,用戶可以通過 WEB、 WAP 等各種客戶端組建個人社區(qū),以 140 字左右的文字更新信息,并實現(xiàn)即時分享。 關(guān)鍵詞: 微博輿情 文本聚類 趨勢分析 北京交通大學(xué)畢業(yè)設(shè)計(論文) Abstract Along with the universal application and rapid development of work technology, the approaches that the mediated public sentiment spread have been fundamentally changed. The mediated public sentiment has exerted huge influence on the way that the society operates. As the one of the most significant parts of the mediated public sentiment, the public sentiment which is produced and spread by the microblog has several important characters, such as directness, immediacy, deviation, variability, interactivity. Taking the microblog messages as our investigating subject, this paper aimed to do research on the characteristics and models of delivering messages between microblog users, Through the analysis of the capture data found unidirectional, microblog munication convenience, back on the face and other characteristics, and raised an effective algorithm to sort these kinds of messages. Using the spatial vector model, the Kmeans algorithm did cluster analysis on microbl
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1