freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計(jì)_微博輿情管理平臺(tái):數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(編輯修改稿)

2024-10-05 21:56 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 很感興趣,轉(zhuǎn)發(fā)了這條 狀態(tài) , 就把 這條消息通過(guò) 他 的粉絲繼續(xù)傳播了下去 ;已知不傳播狀態(tài)則是知道了 這條 消息 ,但是因?yàn)椴桓信d趣,沒(méi)有轉(zhuǎn)發(fā)這消息或發(fā)布相關(guān)的消息。如 圖 21所示 , 這是 一個(gè) 用戶 狀態(tài)示意圖, 用戶 A發(fā)布了一條狀態(tài), B和 C關(guān)注 了 A,所以知道了 A發(fā)布的消息, B不感興趣,忽略了這條消息,成為了已知不傳播狀態(tài),這條消息 的 傳播 在 B處中斷,而 C 對(duì)這條消息很感興趣,轉(zhuǎn)發(fā)了這條消息,則成為轉(zhuǎn)發(fā)狀態(tài),繼續(xù)向 C自己的粉絲傳播這條消息,則 D由不知道這條消息的未知狀態(tài)變?yōu)榱酥肋@條消息的已知不 傳播 狀態(tài), 而 E 關(guān)注 了 B,雖然 被 D 關(guān)注,但根據(jù)微博背對(duì)臉的特性, E 無(wú)法知道這條消息,一直處于未知狀態(tài)。 在 消息傳播過(guò)程中,這三種狀態(tài)是單向轉(zhuǎn)變 的 ,未知 狀態(tài) 可以變成已知不傳播狀態(tài), 已知 不傳播狀態(tài)可以變成轉(zhuǎn)發(fā)狀態(tài),但不能反向轉(zhuǎn)變,已知不傳播狀態(tài)可能在多次從不同用戶得知 同一 消息后變得感興趣從而轉(zhuǎn)變?yōu)檗D(zhuǎn)發(fā)狀態(tài)。北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 7 圖 21 微博 用戶狀態(tài)圖 微博 意見(jiàn)領(lǐng)袖 意見(jiàn) 領(lǐng)袖這一說(shuō)法起源于 20世紀(jì) 40年代 初傳播學(xué)關(guān)于媒介傳播效果的研究 , 傳播學(xué)者拉扎斯菲爾德 在 1940 年 美國(guó)大選的 調(diào)查 研究中發(fā)現(xiàn),大部分選民的投票不依靠大眾傳媒,依靠的是身邊的 親戚、 朋友和團(tuán)體的影響。 從而 有了意見(jiàn)領(lǐng)袖這一概念,在人際傳播網(wǎng)絡(luò)中經(jīng)常為他人提供信息、意見(jiàn)、評(píng)論,并對(duì)他人施加影響的 “ 活躍分子 ” ,是大眾傳播效果的形成過(guò)程的中介或過(guò)濾的環(huán)節(jié) 。 而在 微博 消息傳遞過(guò)程中, 人際傳播 網(wǎng)絡(luò)化 為微博用戶傳播網(wǎng)絡(luò), 微博 意見(jiàn)領(lǐng)袖在其中發(fā)揮著巨大作用 【 10】 。 微博 意見(jiàn) 領(lǐng)袖 通常有著數(shù)量龐大的粉絲群, 通常 用戶有著幾 十 或幾百的粉絲,而微博領(lǐng)袖的粉絲數(shù)量則通常 為 上萬(wàn)甚至幾十萬(wàn)上百 萬(wàn), 成為微北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 8 博平臺(tái)上的明星, 通過(guò) 發(fā)布微博消息 領(lǐng)導(dǎo) 著他們的粉絲 意見(jiàn) 。 通過(guò) 對(duì) 收集到的數(shù)據(jù)的分析, 從 數(shù)據(jù)表明,基本上可以 認(rèn)為 20%的 意見(jiàn) 領(lǐng)袖 用戶領(lǐng)導(dǎo)著 80%的用戶的意見(jiàn) , 如圖 22, 從一條轉(zhuǎn)發(fā)量為 561 次 的微博消息 的 前10名 的 數(shù)據(jù) 可以看出, 昵稱 為 “思想 焦距 ”“ 杜子健 ”“ 歷史塵封 檔案 ”的 3 位 用戶 是 此次消息傳播 中 最重要的 3 位 意見(jiàn)領(lǐng)袖 。 排名 昵稱 粉絲 用戶類型 時(shí)間 二次轉(zhuǎn)發(fā) 1 思想焦距 1209767 個(gè)人認(rèn)證 202039 15:03:00 368 2 杜子健 324621 個(gè)人認(rèn)證 202039 13:07:01 51 3 歷史塵封檔案 538570 微博達(dá)人 202039 15:45:02 40 4 煮酒談史 214251 微博達(dá)人 202039 16:11:35 37 5 人性之美麗 213917 微博達(dá)人 202039 15:06:26 22 6 長(zhǎng)江直播 47390 微博達(dá)人 202039 15:17:05 18 7 敵我媒體采訪團(tuán) 275145 個(gè)人認(rèn)證 202039 15:03:06 9 8 彭三金 176135 個(gè)人認(rèn)證 202039 15:03:07 3 9 笑著做教師 11370 個(gè)人認(rèn)證 202039 16:38:55 3 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 9 10 王周生 7162 個(gè)人認(rèn)證 202039 15:23:09 3 圖 22 微博 消息影響力前 10名 不過(guò) 轉(zhuǎn)發(fā)量并不是 判斷 意見(jiàn)領(lǐng)袖影響力的唯一標(biāo)準(zhǔn),包 括粉絲數(shù),轉(zhuǎn)發(fā)率 以及 活躍程度均是評(píng)估意見(jiàn)領(lǐng)袖 影響 程度的 重要 參考標(biāo)準(zhǔn), 通過(guò) 對(duì)實(shí)驗(yàn)數(shù)據(jù)結(jié)果的總結(jié),發(fā)現(xiàn)微博意見(jiàn)領(lǐng)袖有以下幾個(gè) 特點(diǎn) :基本上所有的微博意見(jiàn)領(lǐng)袖均是新浪 認(rèn)證 用戶,圖 22也 說(shuō)明了這一觀點(diǎn), 而 且認(rèn)證用戶容易獲得普通用戶 認(rèn)可 和接受 , 發(fā)布消息 的真實(shí)性 也比較可靠。 認(rèn)證 用戶中有部分是 在 現(xiàn)實(shí)社會(huì)中有著一定影響力, 微博 則是 其社會(huì)影響 力在網(wǎng)絡(luò)中的映射。 粉絲數(shù) 量也不是必然要求,類似消息的二級(jí)傳播 原理 , 活躍 且粉絲質(zhì)量高 的 用戶也 會(huì) 有相當(dāng)大的影響力, 這也 是一些草根用戶能夠成為影響力 大 的意見(jiàn)領(lǐng)袖的原因 。 草根 用戶積極參與用戶間的 互動(dòng), 并且 努力發(fā)布有價(jià)值的消息 給 粉絲, 也可以 獲得較大的影響力。 也有 部分用戶從來(lái)不 與 粉絲互動(dòng),但其絕對(duì)粉絲數(shù)量較多, 也可以 獲得較大影響力。 也有 草根用戶 憑借 實(shí)時(shí) 發(fā)布 極有價(jià)值信息發(fā)布獲得較大影響力,隨之而來(lái)的則是轉(zhuǎn)發(fā)和粉絲數(shù)量激增。 總結(jié) 上述特點(diǎn)可以得出評(píng)估用戶 影響力的 標(biāo)準(zhǔn):粉絲數(shù),轉(zhuǎn)發(fā)率,歷史轉(zhuǎn)發(fā) 率(該 用戶的活躍程度) , 是否認(rèn)證用戶。 具體重要性的評(píng)估算法將在 節(jié) 具體闡述 。 微博 傳播模型 由 微博背對(duì)臉的特點(diǎn) 可 以 知 道 微博 消息 傳播 的單向性, 類似 病毒的傳播,病毒感染一臺(tái)主機(jī)則這臺(tái)主機(jī)進(jìn)入感染態(tài),而感染一臺(tái)服務(wù)器 ,則訪問(wèn)這臺(tái)服務(wù)器的所有主機(jī)都會(huì)了解這個(gè)病毒,或感染或免疫,微博中消息北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 10 傳播也是如此,普通用戶相當(dāng)于終端,而微博意見(jiàn)領(lǐng)袖 則 相當(dāng)于服務(wù)器,區(qū)別 在于,消息的接受是被動(dòng)的,只要登錄微博就能看到關(guān)注者的消息,而不用 像 用戶一樣需要登錄服務(wù)器。 通過(guò) 對(duì)抓取的微博數(shù)據(jù)的分析,發(fā)現(xiàn)20%的用戶領(lǐng)導(dǎo)著 80%的用戶意見(jiàn),而且越是在消息初期,微博意見(jiàn)領(lǐng)袖的作用就越大, 意見(jiàn) 領(lǐng)袖的加入會(huì)使消息有一個(gè)爆炸式的增長(zhǎng),而 隨著 加入的意見(jiàn)領(lǐng)袖 增加 ,消息傳播增長(zhǎng)趨勢(shì)放緩, 意見(jiàn) 領(lǐng)袖的作用降低 , 當(dāng)消息 的 傳播廣度到達(dá)一 定 范圍 后 , 意見(jiàn)領(lǐng)袖 的 影響力 就趨近于零 了 。圖 23是 一條有關(guān)波士頓爆炸案的微博消息路徑圖的一部分,通過(guò) 圖 23可以 看出意見(jiàn) 領(lǐng)袖 在微博消息傳播所占的重要作用,是傳播路徑上的重要節(jié)點(diǎn),與 消息傳播的廣度 息息相關(guān) 。北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 11 圖 23 微博 消息傳播路徑圖 通過(guò) 對(duì) 數(shù)據(jù) 分析 可以 發(fā)現(xiàn) 在 消息的傳播廣度和初始微博意見(jiàn)領(lǐng)袖加入的多少 有 一定關(guān)系,當(dāng)單位時(shí)間內(nèi) 意見(jiàn)領(lǐng)袖的 影響力達(dá)到了一個(gè) 閾值 M后, 可以 認(rèn)為在之后的一段時(shí)間內(nèi),此消息的傳播范圍會(huì)有一個(gè)明顯的增長(zhǎng) , 關(guān)于 M值會(huì)在 詳細(xì) 介紹 。 通過(guò) 研究發(fā)現(xiàn), 消息 成為熱點(diǎn) 中 有以下3種 規(guī)律, 每一種 都會(huì)在熱點(diǎn)的成長(zhǎng)曲線中 出現(xiàn)。對(duì) 一個(gè)范圍內(nèi)的 微博意見(jiàn)領(lǐng)袖進(jìn)行監(jiān)控, 發(fā)現(xiàn) 意見(jiàn) 領(lǐng)袖 對(duì)一條微博消息的轉(zhuǎn)發(fā) 比例 達(dá)到 10%時(shí),北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 12 可以 認(rèn)為此消息會(huì)有一個(gè)廣泛的傳播,會(huì)成為一個(gè)熱點(diǎn)話題 ;通過(guò) 對(duì)已知此 消息 但 未轉(zhuǎn)發(fā)的意見(jiàn)領(lǐng)袖的比例與已知此消息并轉(zhuǎn)發(fā)的意見(jiàn)領(lǐng)袖所占比例的對(duì)比,可實(shí)現(xiàn)對(duì)未來(lái)的微博消息傳播 范圍的 判斷 ;在 單位時(shí)間內(nèi)( 設(shè)為 1 個(gè)小時(shí) ) 的 消息傳播量 達(dá)到一個(gè) 閾值 M后 , 可以 認(rèn)為 此 消息傳播進(jìn)入爆發(fā)期, 會(huì) 出現(xiàn)較大增長(zhǎng),通過(guò)設(shè)置不同 M值,可對(duì)未來(lái)的消息傳播 范圍有一個(gè)大致的分 級(jí),不同 級(jí)別表示預(yù)測(cè)此消息傳播的 最大 廣度。 從 趨勢(shì)分析角度來(lái)說(shuō),以上 3種 規(guī)律無(wú)論應(yīng)用哪一種均可以對(duì) 消息 傳播趨 勢(shì)做一個(gè)分析,采用多種規(guī)律 對(duì) 趨勢(shì)分析精度的 提升 也是有限的,而對(duì)一 種 規(guī)律分析的足夠透徹已經(jīng)可以達(dá)到一個(gè)接受的趨勢(shì) 分析 的準(zhǔn)確度 了。 三、 微博 輿情管理平臺(tái)的設(shè)計(jì) 與實(shí)現(xiàn) 微博 輿情管理平臺(tái)的總體流程 微博 輿情管理平臺(tái)的 三大模塊 如圖 31所示, 分為 微博 信息 數(shù)據(jù)獲取模塊, 數(shù)據(jù) 分析模塊, 分析 結(jié)果呈現(xiàn)模塊, 本文 主要研究的是數(shù)據(jù)分析模塊 。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 13 圖 31 微博 輿情管理平臺(tái)三大模塊 微博 輿情管理平臺(tái)的主要流程 如下 , 首先 輸入要 查詢 的微博消息的關(guān)鍵詞或核心微博, 然后利用 網(wǎng)絡(luò)爬蟲(chóng) 來(lái) 收集 微博 中的消息 內(nèi)容 , 包括微博內(nèi)容,轉(zhuǎn)發(fā)關(guān)系, 博主 ID,發(fā)布時(shí)間 等。 然后 進(jìn)入 中文分詞模塊,將微博內(nèi)容分詞 后 進(jìn)入 VSM,將 微博內(nèi)容的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù), 將 所有相關(guān)微博內(nèi)容 預(yù)處理 后, 進(jìn)入 Kmeans 算法 對(duì) 微博內(nèi)容進(jìn)行分類,找到離關(guān)鍵詞最近的那個(gè)類, 認(rèn)為 這個(gè)類 中 的微博內(nèi)容表達(dá)的是同一意思, 并 作為數(shù)據(jù)分析的 主類 , 然后找出 類中符合意見(jiàn)領(lǐng)袖標(biāo)準(zhǔn)的 微博 領(lǐng)袖 逐一 進(jìn)行 影響力 評(píng)估, 分析 出 各 意見(jiàn)領(lǐng)袖的影響力指標(biāo), 然后進(jìn)入趨勢(shì)分析預(yù)警模塊, 根據(jù) 微博的走勢(shì) 代入 趨勢(shì)分析算法進(jìn)行 分析 ,得出結(jié)果將數(shù)據(jù)上傳到管理平臺(tái),管理平臺(tái)對(duì)數(shù)據(jù)進(jìn)行處理 將 結(jié)果輸出 。 數(shù)據(jù) 分析 系統(tǒng) 設(shè)計(jì) 流程 數(shù)據(jù) 分析系統(tǒng)的主要流程如圖 32所示 , 獲得 關(guān)鍵詞或核心微博后,從數(shù)據(jù)庫(kù)中 獲取 微博相關(guān)數(shù)據(jù),將微博內(nèi)容與微博 ID 掛鉤 ,用中文 分詞系統(tǒng)將 微博 內(nèi)容進(jìn)行 分詞 , 然后 在數(shù)據(jù)庫(kù)中新建一表項(xiàng),用于存儲(chǔ)分詞后的文本內(nèi)容, 繼續(xù)以 微博 ID 為區(qū)分 , 將分詞后的文本 放入 Kmeans 算法中進(jìn)行迭代 聚類 ,選出關(guān)鍵詞或核心微博所在類 為 相關(guān)微博類,刪除數(shù)據(jù)庫(kù)中其他 無(wú)關(guān) 微博,進(jìn)而篩選出符合微博意見(jiàn)領(lǐng)袖定義的 用戶 , 進(jìn)入 微博意見(jiàn)領(lǐng)袖影響力評(píng)估 算法 ,分析出每個(gè)意見(jiàn)領(lǐng)袖的重要程度 。 以 小時(shí) 為單位,計(jì)算單位時(shí)間內(nèi)的微博內(nèi)容傳播廣度,設(shè)定 不同 等級(jí)閾值 M, 存在 超過(guò) M 值 的時(shí)間 段即可 分析 預(yù)測(cè)出消息未來(lái)走勢(shì),進(jìn)而將 意見(jiàn) 領(lǐng)袖重要性在前 10 名的 用戶數(shù)據(jù)反饋數(shù)據(jù)庫(kù),將用戶按時(shí)間順序進(jìn)行排序存儲(chǔ) 到 數(shù)據(jù)北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 14 庫(kù) 交給 管理平臺(tái)進(jìn)行結(jié)果反饋,這就是整個(gè)數(shù)據(jù)分析系統(tǒng)的主要流程。 圖 32 微博輿情 管理平臺(tái)數(shù)據(jù)分析系統(tǒng)主要流程 四 、微博輿情管理平臺(tái)的實(shí)現(xiàn) 樣本 選取與數(shù)據(jù)來(lái)源 網(wǎng)絡(luò)爬蟲(chóng)的主要功能是搜集 Inter 中的各種信息。它利用網(wǎng)頁(yè)中的超文本鏈接 (Hyperlink)來(lái)訪問(wèn)網(wǎng)頁(yè),從一個(gè)事先制訂好的 URL 列表開(kāi)始,這個(gè)列表中的 URL 一般是從過(guò)去的訪問(wèn)記錄里提取出來(lái)的 ,通常是一些比較流行的站點(diǎn)和新聞網(wǎng)頁(yè),利用 HTTP 等標(biāo)準(zhǔn)協(xié)議,通過(guò) URL 從一個(gè)頁(yè)面爬行到另一個(gè)頁(yè)面,直到?jīng)]有滿足條件的新的 URL 產(chǎn)生為止。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 15 微博數(shù)據(jù) 轉(zhuǎn)化 向量空間模型( Vector Space Model,簡(jiǎn)稱 VSM),其主要思想是以向量空間中的向量運(yùn)算來(lái)處理文本內(nèi)容,并且使用空間上的相似性來(lái)描述語(yǔ)義的相似性,如 圖 41 所示。此時(shí),就可以通過(guò)計(jì)算向量間的相似性來(lái)度量文檔間的相似性。 向量空間模型主要涉及以下兩方面的工作: 1)構(gòu)建向量表示文檔、查詢中的詞項(xiàng) 2)度量任意文檔向量和查詢向量的相似性 以 下則對(duì)該三方面的工作進(jìn)行詳細(xì)介紹。 1)構(gòu)建向量表示文檔中的詞項(xiàng) 對(duì)于文檔集中的每一個(gè)不同的詞項(xiàng),在向量中只記錄一個(gè)分量。 圖 41 VSM 主要思想 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 16 如果詞項(xiàng)出現(xiàn),則在對(duì)應(yīng)向量的分量處記 1;如果詞項(xiàng)未出現(xiàn),則在對(duì)應(yīng)的分量處記 0。經(jīng)過(guò)向量化的文檔,就可以在坐標(biāo)系中表示,如 圖 42 所示。 圖 42 VSM 文檔 向量化 表示示例 然而,二值表示的方法并沒(méi)有考慮一個(gè)詞項(xiàng)在文檔中出現(xiàn)的次數(shù)。所以,擴(kuò)展這種表示形式,將詞項(xiàng)在文檔中出現(xiàn)的頻率作為向量中各個(gè)分量的值。在 圖 42 中, 如果文檔 D2 中 A 出現(xiàn)了兩次,則向 量表 示為 2,0。 通過(guò)使用向量空間模型,文本數(shù)據(jù)被表示為計(jì)算機(jī)能夠處理的結(jié)構(gòu)化數(shù)據(jù)。此時(shí),通過(guò)比較兩個(gè)向量的相似性就能解決兩個(gè)文檔之間的相似性問(wèn)題。 2)度量任意文檔向量和查詢向量的相似性 余弦距離經(jīng)常被用在文本相似性比較中。余弦結(jié)果為一個(gè) 0到 1的數(shù),1表示向量一致, 0則表示正交,符合相似性百分比的特性。 不同文檔長(zhǎng)度的歸一化是通過(guò)計(jì)算向量?jī)?nèi)積與文檔向量的長(zhǎng)度的比值實(shí)現(xiàn)的,即前提是忽略文檔向量長(zhǎng)度的影響。 假設(shè)文檔向量為 di=(di1, di2, ?, dit),查詢向量為 Q=(wq1,wq2, ?, wqt)。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 17 余弦的計(jì)算公式: 經(jīng)過(guò) VSM 分類的文本 文檔,可以 看做粗略的分類,不過(guò)不夠精確, 所以 需要后續(xù)的文本聚類 的 精確分類來(lái)確定 所需 要的微博消息。 微博 文本聚類 文本 聚類定義 所謂 聚類, 就是
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1