freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計_微博輿情管理平臺:數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)(編輯修改稿)

2024-10-02 10:58 本頁面
 

【文章內(nèi)容簡介】 息很感興趣,轉(zhuǎn)發(fā)了這條 狀態(tài) , 就把 這條消息通過 他 的粉絲繼續(xù)傳播了下去 ;已知不傳播狀態(tài)則是知道了 這條 消息 ,但是因為不感興趣,沒有轉(zhuǎn)發(fā)這消息或發(fā)布相關(guān)的消息。如 圖 21所示 , 這是 一個 用戶 狀態(tài)示意圖, 用戶 A發(fā)布了一條狀態(tài), B 和 C 關(guān)注 了 A,所以知道了 A 發(fā)布的消息, B 不感興趣,忽略了這條消息,成為了已知不傳播狀態(tài),這條消息 的 傳播 在 B 處中斷,而 C 對這條消息很感興趣,轉(zhuǎn)發(fā)了這條消息,則成為轉(zhuǎn)發(fā)狀態(tài),繼續(xù)向 C自己的粉絲傳播這條消息,則 D由不知道這條消息的未知狀態(tài)變?yōu)榱酥肋@條消息的已知不 傳播 狀態(tài), 而 E關(guān)注 了 B,雖然 被 D關(guān)注,但根據(jù)微博背對臉的特性, E無法知道這條消息,一直處于未知狀態(tài)。 在 消息傳播過程中,這三種狀態(tài)是單向轉(zhuǎn)變 的 ,未知 狀態(tài) 可以變成已知不傳播狀態(tài), 已知 不傳播狀態(tài)可以變成轉(zhuǎn)發(fā)狀態(tài),但不能反向轉(zhuǎn)變,已知不傳播狀態(tài)可能在多次從不同用戶得知 同一 消息后變得感興趣從而轉(zhuǎn)變?yōu)檗D(zhuǎn)發(fā)狀態(tài)。北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 7 圖 21 微博 用戶狀態(tài)圖 微博 意見領(lǐng)袖 意見 領(lǐng)袖這一說法起源于 20世紀(jì) 40年代 初傳播學(xué)關(guān)于媒介傳播效果的研究 , 傳播學(xué)者拉扎斯菲爾德 在 1940 年 美國大選的 調(diào)查 研究中發(fā)現(xiàn),大部分選民的投票不依靠大眾傳媒,依靠的是身邊的 親戚、 朋友和團(tuán)體的影響。 從而 有了意見領(lǐng)袖這一概念,在人際傳播網(wǎng)絡(luò)中經(jīng)常為他人提供信息、意見、評論,并對他人施加影響的 “ 活躍分子 ” ,是大眾傳播效果的形成過程的中介或過濾的環(huán)節(jié) 。 而在 微博 消息傳遞過程中, 人際傳播 網(wǎng)絡(luò)化 為微博用戶傳播網(wǎng)絡(luò), 微博 意見領(lǐng)袖在其中發(fā)揮著巨大作用 【 10】 。 微博 意見 領(lǐng)袖 通常有著數(shù)量龐大的粉絲群, 通常 用戶有著幾 十 或幾百的粉絲,而微博領(lǐng)袖的粉絲數(shù)量則通常 為 上萬甚至幾十萬上百 萬, 成為微北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 8 博平臺上的明星, 通過 發(fā)布微博消息 領(lǐng)導(dǎo) 著他們的粉絲 意見 。 通過 對 收集到的數(shù)據(jù)的分析, 從 數(shù)據(jù)表明,基本上可以 認(rèn)為 20%的 意見 領(lǐng)袖 用戶領(lǐng)導(dǎo)著 80%的用戶的意見 , 如圖 22, 從一條轉(zhuǎn)發(fā)量為 561 次 的微博消息 的 前10名 的 數(shù)據(jù) 可以看出, 昵稱 為 “思想 焦距 ”“ 杜子健 ”“ 歷史塵封 檔案 ”的 3 位 用戶 是 此次消息傳播 中 最重要的 3 位 意見領(lǐng)袖 。 排名 昵稱 粉絲 用戶類型 時間 二次轉(zhuǎn)發(fā) 1 思想焦距 1209767 個人認(rèn)證 202039 15:03:00 368 2 杜子健 324621 個人認(rèn)證 202039 13:07:01 51 3 歷史塵封檔案 538570 微博達(dá)人 202039 15:45:02 40 4 煮酒談史 214251 微博達(dá)人 202039 16:11:35 37 5 人性之美麗 213917 微博達(dá)人 202039 15:06:26 22 6 長江直播 47390 微博達(dá)人 202039 15:17:05 18 7 敵我媒體采訪團(tuán) 275145 個人認(rèn)證 202039 15:03:06 9 8 彭三金 176135 個人認(rèn)證 202039 15:03:07 3 9 笑著做教師 11370 個人認(rèn)證 202039 16:38:55 3 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 9 10 王周生 7162 個人認(rèn)證 202039 15:23:09 3 圖 22 微博 消息影響力前 10 名 不過 轉(zhuǎn)發(fā)量并不是 判斷 意見領(lǐng)袖影響力的唯一標(biāo)準(zhǔn),包 括粉絲數(shù),轉(zhuǎn)發(fā)率 以及 活躍程度均是評估意見領(lǐng)袖 影響 程度的 重要 參考標(biāo)準(zhǔn), 通過 對實驗數(shù)據(jù)結(jié)果的總結(jié),發(fā)現(xiàn)微博意見領(lǐng)袖有以下幾個 特點 :基本上所有的微博意見領(lǐng)袖均是新浪 認(rèn)證 用戶,圖 22也 說明了這一觀點, 而 且認(rèn)證用戶容易獲得普通用戶 認(rèn)可 和接受 , 發(fā)布消息 的真實性 也比較可靠。 認(rèn)證 用戶中有部分是 在 現(xiàn)實社會中有著一定影響力, 微博 則是 其社會影響 力在網(wǎng)絡(luò)中的映射。 粉絲數(shù) 量也不是必然要求,類似消息的二級傳播 原理 , 活躍 且粉絲質(zhì)量高 的 用戶也 會 有相當(dāng)大的影響力, 這也 是一些草根用戶能夠成為影響力 大 的意見領(lǐng)袖的原因 。 草根 用戶積極參與用戶間的 互動, 并且 努力發(fā)布有價值的消息 給 粉絲, 也可以 獲得較大的影響力。 也有 部分用戶從來不 與 粉絲互動,但其絕對粉絲數(shù)量較多, 也可以 獲得較大影響力。 也有 草根用戶 憑借 實時 發(fā)布 極有價值信息發(fā)布獲得較大影響力,隨之而來的則是轉(zhuǎn)發(fā)和粉絲數(shù)量激增。 總結(jié) 上述特點可以得出評估用戶 影響力的 標(biāo)準(zhǔn):粉絲數(shù),轉(zhuǎn)發(fā)率,歷史轉(zhuǎn)發(fā) 率(該 用戶的活躍程度) , 是否認(rèn)證用戶。 具體重要性的評估算法將在 節(jié) 具體闡述 。 微博 傳播模型 由 微博背對臉的特點 可 以 知 道 微博 消息 傳播 的單向性, 類似 病毒的傳播,病毒感染一臺主機(jī)則這臺主機(jī)進(jìn)入感染態(tài),而感染一臺服務(wù)器 ,則訪問這臺服務(wù)器的所有主機(jī)都會了解這個病毒,或感染或免疫,微博中消息北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 10 傳播也是如此,普通用戶相當(dāng)于終端,而微博意見領(lǐng)袖 則 相當(dāng)于服務(wù)器,區(qū)別 在于,消息的接受是被動的,只要登錄微博就能看到關(guān)注者的消息,而不用 像 用戶一樣需要登錄服務(wù)器。 通過 對抓取的微博數(shù)據(jù)的分析,發(fā)現(xiàn)20%的用戶領(lǐng)導(dǎo)著 80%的用戶意見,而且越是在消息初期,微博意見領(lǐng)袖的作用就越大, 意見 領(lǐng)袖的加入會使消息有一個爆炸式的增長,而 隨著 加入的意見領(lǐng)袖 增加 ,消息傳播增長趨勢放緩, 意見 領(lǐng)袖的作用降低 , 當(dāng)消息 的 傳播廣度到達(dá)一 定 范圍 后 , 意見領(lǐng)袖 的 影響力 就趨近于零 了 。圖 23是 一條有關(guān)波士頓爆炸案的微博消息路徑圖的一部分,通過 圖 23 可以 看出意見 領(lǐng)袖 在微博消息傳播所占的重要作用,是傳播路徑上的重要節(jié)點,與 消息傳播的廣度 息息相關(guān) 。北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 11 圖 23 微博 消息傳播路徑圖 通過 對 數(shù)據(jù) 分析 可以 發(fā)現(xiàn) 在 消息的傳播廣度和初始微博意見領(lǐng)袖加入的多少 有 一定關(guān)系,當(dāng)單位時間內(nèi) 意見領(lǐng)袖的 影響力達(dá)到了一個 閾值 M后, 可以 認(rèn)為在之后的一段時間內(nèi),此消息的傳播范圍會有一個明顯的增長 , 關(guān)于 M值會在 詳細(xì) 介紹 。 通過 研究發(fā)現(xiàn), 消息 成為熱點 中 有以下3種 規(guī)律, 每一種 都會在熱點的成長曲線中 出現(xiàn)。對 一個范圍內(nèi)的 微博意見領(lǐng)袖進(jìn)行監(jiān)控, 發(fā)現(xiàn) 意見 領(lǐng)袖 對一條微博消息的轉(zhuǎn)發(fā) 比例 達(dá)到 10%時,北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 12 可以 認(rèn)為此消息會有一個廣泛的傳播,會成為一個熱點話題 ;通過 對已知此 消息 但 未轉(zhuǎn)發(fā)的意見領(lǐng)袖的比例與已知此消息并轉(zhuǎn)發(fā)的意見領(lǐng)袖所占比例的對比,可實現(xiàn)對未來的微博消息傳播 范圍的 判斷 ;在 單位時間內(nèi)( 設(shè)為 1 個小時 ) 的 消息傳播量 達(dá)到一個 閾值 M后 , 可以 認(rèn)為 此 消息傳播進(jìn)入爆發(fā)期, 會 出現(xiàn)較大增長,通過設(shè)置不同 M值,可對未來的消息傳播 范圍有一個大致的分 級,不同 級別表示預(yù)測此消息傳播的 最大 廣度。 從 趨勢分析角度來說,以上 3 種 規(guī)律無論應(yīng)用哪一種均可以對 消息 傳播趨 勢做一個分析,采用多種規(guī)律 對 趨勢分析精度的 提升 也是有限的,而對一 種 規(guī)律分析的足夠透徹已經(jīng)可以達(dá)到一個接受的趨勢 分析 的準(zhǔn)確度 了。 三、 微博 輿情管理平臺的設(shè)計 與實現(xiàn) 微博 輿情管理平臺的總體流程 微博 輿情管理平臺的 三大模塊 如圖 31所示, 分為 微博 信息 數(shù)據(jù)獲取模塊, 數(shù)據(jù) 分析模塊, 分析 結(jié)果呈現(xiàn)模塊, 本文 主要研究的是數(shù)據(jù)分析模塊 。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 13 圖 31 微博 輿情管理平臺三大模塊 微博 輿情管理平臺的主要流程 如下 , 首先 輸入要 查詢 的微博消息的關(guān)鍵詞或核心微博, 然后利用 網(wǎng)絡(luò)爬蟲 來 收集 微博 中的消息 內(nèi)容 , 包括微博內(nèi)容,轉(zhuǎn)發(fā)關(guān)系, 博主 ID,發(fā)布時間 等。 然后 進(jìn)入 中文分詞模塊,將微博內(nèi)容分詞 后 進(jìn)入 VSM,將 微博內(nèi)容的文本數(shù)據(jù)轉(zhuǎn)化為計算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù), 將 所有相關(guān)微博內(nèi)容 預(yù)處理 后, 進(jìn)入 Kmeans 算法 對 微博內(nèi)容進(jìn)行分類,找到離關(guān)鍵詞最近的那個類, 認(rèn)為 這個類 中 的微博內(nèi)容表達(dá)的是同一意思, 并 作為數(shù)據(jù)分析的 主類 , 然后找出 類中符合意見領(lǐng)袖標(biāo)準(zhǔn)的 微博 領(lǐng)袖 逐一 進(jìn)行 影響力 評估, 分析 出 各 意見領(lǐng)袖的影響力指標(biāo), 然后進(jìn)入趨勢分析預(yù)警模塊, 根據(jù) 微博的走勢 代入 趨勢分析算法進(jìn)行 分析 ,得出結(jié)果將數(shù)據(jù)上傳到管理平臺,管理平臺對數(shù)據(jù)進(jìn)行處理 將 結(jié)果輸出 。 數(shù)據(jù) 分析 系統(tǒng) 設(shè)計 流程 數(shù)據(jù) 分析系統(tǒng)的主要流程如圖 32所示 , 獲得 關(guān)鍵詞或核心微博后,從數(shù)據(jù)庫中 獲取 微博相關(guān)數(shù)據(jù),將微博內(nèi)容與微博 ID 掛鉤 ,用中文 分詞系統(tǒng)將 微博 內(nèi)容進(jìn)行 分詞 , 然后 在數(shù)據(jù)庫中新建一表項,用于存儲分詞后的文本內(nèi)容, 繼續(xù)以 微博 ID 為區(qū)分 , 將分詞后的文本 放入 Kmeans 算法中進(jìn)行迭代 聚類 ,選出關(guān)鍵詞或核心微博所在類 為 相關(guān)微博類,刪除數(shù)據(jù)庫中其他 無關(guān) 微博,進(jìn)而篩選出符合微博意見領(lǐng)袖定義的 用戶 , 進(jìn)入 微博意見領(lǐng)袖影響力評估 算法 ,分析出每個意見領(lǐng)袖的重要程度 。 以 小時 為單位,計算單位時間內(nèi)的微博內(nèi)容傳播廣度,設(shè)定 不同 等級閾值 M, 存在 超過 M 值 的時間 段即可 分析 預(yù)測出消息未來走勢,進(jìn)而將 意見 領(lǐng)袖重要性在前 10 名的 用戶數(shù)據(jù)反饋數(shù)據(jù)庫,將用戶按時間順序進(jìn)行排序存儲 到 數(shù)據(jù)北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 14 庫 交給 管理平臺進(jìn)行結(jié)果反饋,這就是整個數(shù)據(jù)分析系統(tǒng)的主要流程。 圖 32 微博輿情 管理平臺數(shù)據(jù)分析系統(tǒng)主要流程 四 、微博輿情管理平臺的實現(xiàn) 樣本 選取與數(shù)據(jù)來源 網(wǎng)絡(luò)爬蟲的主要功能是搜集 Inter 中的各種信息。它利用網(wǎng)頁中的超文本鏈接 (Hyperlink)來訪問網(wǎng)頁,從一個事先制訂好的 URL 列表開始,這個列表中的 URL 一般是從過去的訪問記錄里提取出來的 ,通常是一些比較流行的站點和新聞網(wǎng)頁,利用 HTTP 等標(biāo)準(zhǔn)協(xié)議,通過 URL 從一個頁面爬行到另一個頁面,直到?jīng)]有滿足條件的新的 URL 產(chǎn)生為止。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 15 微博數(shù)據(jù) 轉(zhuǎn)化 向量空間模型( Vector Space Model,簡稱 VSM),其主要思想是以向量空間中的向量運(yùn)算來處理文本內(nèi)容,并且使用空間上的相似性來描述語義的相似性,如 圖 41 所示。此時,就可以通過計算向量間的相似性來度量文檔間的相似性。 向量空間模型主要涉及以下兩方面的工作: 1)構(gòu)建向量表示文檔、查詢中的詞項 2)度量任意文檔向量和查詢向量的相似性 以 下則對該三方面的工作進(jìn)行詳細(xì)介紹。 1)構(gòu)建向量表示文檔中的詞項 對于文檔集中的每一個不同的詞項,在向量中只記錄一個分量。 圖 41 VSM 主要思想 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 16 如果詞項出現(xiàn),則在對應(yīng)向量的分量處記 1;如果詞項未出現(xiàn),則在對應(yīng)的分量處記 0。經(jīng)過向量化的文檔,就可以在坐標(biāo)系中表示,如 圖 42 所示。 圖 42 VSM 文檔 向量化 表示示例 然而,二值表示的方法并沒有考慮一個詞項在文檔中出現(xiàn)的次數(shù)。所以,擴(kuò)展這種表示形式,將詞項在文檔中出現(xiàn)的頻率作為向量中各個分量的值。在 圖 42 中, 如果文檔 D2 中 A出現(xiàn)了兩次,則向 量表 示為 2,0。 通過使用向量空間模型,文本數(shù)據(jù)被表示為計算機(jī)能夠處理的結(jié)構(gòu)化數(shù)據(jù)。此時,通過比較兩個向量的相似性就能解決兩個文檔之間的相似性問題。 2)度量任意文檔向量和查詢向量的相似性 余弦距離經(jīng)常被用在文本相似性比較中。余弦結(jié)果為一個 0到 1的數(shù),1表示向量一致, 0 則表示正交,符合相似性百分比的特性。 不同文檔長度的歸一化是通過計算向量內(nèi)積與文檔向量的長度的比值實現(xiàn)的,即前提是忽略文檔向量長度的影響。 假設(shè)文檔向量為 di=(di1, di2, ?, dit),查詢向量為 Q=(wq1,wq2, ?, wqt)。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 頁 17 余弦的計算公式: 經(jīng)過 VSM 分類的文本 文檔,可以 看做粗略的分類,不過不夠精確, 所以 需要后續(xù)的文本聚類 的 精確分類來確定 所需 要的微博消息。 微博 文本聚類 文本 聚類定義 所謂 聚
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1