freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計(jì)_微博輿情管理平臺(tái):數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-文庫(kù)吧資料

2024-09-07 21:56本頁(yè)面
  

【正文】 18 基于模型的方法。要使計(jì)算機(jī)能夠高效地處理文本,就必須找到一種理想的形式化表示方法。目前,文本聚類(lèi)已經(jīng)成為對(duì)文本信息進(jìn)行摘要、組織和導(dǎo)航的重要手段,受到了越來(lái)越多的關(guān)注。文本聚類(lèi)的基礎(chǔ)是著名的聚類(lèi)假設(shè):聚為一類(lèi)的文本相似性較大,而聚為不同類(lèi)的文本相似性較小。 聚類(lèi) 的 目的是找到對(duì)象組, 進(jìn)一步目的 是通過(guò)數(shù)據(jù)分析確定 對(duì) 數(shù)據(jù)分析有用的群體。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 17 余弦的計(jì)算公式: 經(jīng)過(guò) VSM 分類(lèi)的文本 文檔,可以 看做粗略的分類(lèi),不過(guò)不夠精確, 所以 需要后續(xù)的文本聚類(lèi) 的 精確分類(lèi)來(lái)確定 所需 要的微博消息。 不同文檔長(zhǎng)度的歸一化是通過(guò)計(jì)算向量?jī)?nèi)積與文檔向量的長(zhǎng)度的比值實(shí)現(xiàn)的,即前提是忽略文檔向量長(zhǎng)度的影響。 2)度量任意文檔向量和查詢向量的相似性 余弦距離經(jīng)常被用在文本相似性比較中。 通過(guò)使用向量空間模型,文本數(shù)據(jù)被表示為計(jì)算機(jī)能夠處理的結(jié)構(gòu)化數(shù)據(jù)。所以,擴(kuò)展這種表示形式,將詞項(xiàng)在文檔中出現(xiàn)的頻率作為向量中各個(gè)分量的值。經(jīng)過(guò)向量化的文檔,就可以在坐標(biāo)系中表示,如 圖 42 所示。 1)構(gòu)建向量表示文檔中的詞項(xiàng) 對(duì)于文檔集中的每一個(gè)不同的詞項(xiàng),在向量中只記錄一個(gè)分量。此時(shí),就可以通過(guò)計(jì)算向量間的相似性來(lái)度量文檔間的相似性。它利用網(wǎng)頁(yè)中的超文本鏈接 (Hyperlink)來(lái)訪問(wèn)網(wǎng)頁(yè),從一個(gè)事先制訂好的 URL 列表開(kāi)始,這個(gè)列表中的 URL 一般是從過(guò)去的訪問(wèn)記錄里提取出來(lái)的 ,通常是一些比較流行的站點(diǎn)和新聞網(wǎng)頁(yè),利用 HTTP 等標(biāo)準(zhǔn)協(xié)議,通過(guò) URL 從一個(gè)頁(yè)面爬行到另一個(gè)頁(yè)面,直到?jīng)]有滿足條件的新的 URL 產(chǎn)生為止。 以 小時(shí) 為單位,計(jì)算單位時(shí)間內(nèi)的微博內(nèi)容傳播廣度,設(shè)定 不同 等級(jí)閾值 M, 存在 超過(guò) M 值 的時(shí)間 段即可 分析 預(yù)測(cè)出消息未來(lái)走勢(shì),進(jìn)而將 意見(jiàn) 領(lǐng)袖重要性在前 10 名的 用戶數(shù)據(jù)反饋數(shù)據(jù)庫(kù),將用戶按時(shí)間順序進(jìn)行排序存儲(chǔ) 到 數(shù)據(jù)北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 14 庫(kù) 交給 管理平臺(tái)進(jìn)行結(jié)果反饋,這就是整個(gè)數(shù)據(jù)分析系統(tǒng)的主要流程。 然后 進(jìn)入 中文分詞模塊,將微博內(nèi)容分詞 后 進(jìn)入 VSM,將 微博內(nèi)容的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù), 將 所有相關(guān)微博內(nèi)容 預(yù)處理 后, 進(jìn)入 Kmeans 算法 對(duì) 微博內(nèi)容進(jìn)行分類(lèi),找到離關(guān)鍵詞最近的那個(gè)類(lèi), 認(rèn)為 這個(gè)類(lèi) 中 的微博內(nèi)容表達(dá)的是同一意思, 并 作為數(shù)據(jù)分析的 主類(lèi) , 然后找出 類(lèi)中符合意見(jiàn)領(lǐng)袖標(biāo)準(zhǔn)的 微博 領(lǐng)袖 逐一 進(jìn)行 影響力 評(píng)估, 分析 出 各 意見(jiàn)領(lǐng)袖的影響力指標(biāo), 然后進(jìn)入趨勢(shì)分析預(yù)警模塊, 根據(jù) 微博的走勢(shì) 代入 趨勢(shì)分析算法進(jìn)行 分析 ,得出結(jié)果將數(shù)據(jù)上傳到管理平臺(tái),管理平臺(tái)對(duì)數(shù)據(jù)進(jìn)行處理 將 結(jié)果輸出 。 三、 微博 輿情管理平臺(tái)的設(shè)計(jì) 與實(shí)現(xiàn) 微博 輿情管理平臺(tái)的總體流程 微博 輿情管理平臺(tái)的 三大模塊 如圖 31所示, 分為 微博 信息 數(shù)據(jù)獲取模塊, 數(shù)據(jù) 分析模塊, 分析 結(jié)果呈現(xiàn)模塊, 本文 主要研究的是數(shù)據(jù)分析模塊 。對(duì) 一個(gè)范圍內(nèi)的 微博意見(jiàn)領(lǐng)袖進(jìn)行監(jiān)控, 發(fā)現(xiàn) 意見(jiàn) 領(lǐng)袖 對(duì)一條微博消息的轉(zhuǎn)發(fā) 比例 達(dá)到 10%時(shí),北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 12 可以 認(rèn)為此消息會(huì)有一個(gè)廣泛的傳播,會(huì)成為一個(gè)熱點(diǎn)話題 ;通過(guò) 對(duì)已知此 消息 但 未轉(zhuǎn)發(fā)的意見(jiàn)領(lǐng)袖的比例與已知此消息并轉(zhuǎn)發(fā)的意見(jiàn)領(lǐng)袖所占比例的對(duì)比,可實(shí)現(xiàn)對(duì)未來(lái)的微博消息傳播 范圍的 判斷 ;在 單位時(shí)間內(nèi)( 設(shè)為 1 個(gè)小時(shí) ) 的 消息傳播量 達(dá)到一個(gè) 閾值 M后 , 可以 認(rèn)為 此 消息傳播進(jìn)入爆發(fā)期, 會(huì) 出現(xiàn)較大增長(zhǎng),通過(guò)設(shè)置不同 M值,可對(duì)未來(lái)的消息傳播 范圍有一個(gè)大致的分 級(jí),不同 級(jí)別表示預(yù)測(cè)此消息傳播的 最大 廣度。北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 11 圖 23 微博 消息傳播路徑圖 通過(guò) 對(duì) 數(shù)據(jù) 分析 可以 發(fā)現(xiàn) 在 消息的傳播廣度和初始微博意見(jiàn)領(lǐng)袖加入的多少 有 一定關(guān)系,當(dāng)單位時(shí)間內(nèi) 意見(jiàn)領(lǐng)袖的 影響力達(dá)到了一個(gè) 閾值 M后, 可以 認(rèn)為在之后的一段時(shí)間內(nèi),此消息的傳播范圍會(huì)有一個(gè)明顯的增長(zhǎng) , 關(guān)于 M值會(huì)在 詳細(xì) 介紹 。 通過(guò) 對(duì)抓取的微博數(shù)據(jù)的分析,發(fā)現(xiàn)20%的用戶領(lǐng)導(dǎo)著 80%的用戶意見(jiàn),而且越是在消息初期,微博意見(jiàn)領(lǐng)袖的作用就越大, 意見(jiàn) 領(lǐng)袖的加入會(huì)使消息有一個(gè)爆炸式的增長(zhǎng),而 隨著 加入的意見(jiàn)領(lǐng)袖 增加 ,消息傳播增長(zhǎng)趨勢(shì)放緩, 意見(jiàn) 領(lǐng)袖的作用降低 , 當(dāng)消息 的 傳播廣度到達(dá)一 定 范圍 后 , 意見(jiàn)領(lǐng)袖 的 影響力 就趨近于零 了 。 具體重要性的評(píng)估算法將在 節(jié) 具體闡述 。 也有 草根用戶 憑借 實(shí)時(shí) 發(fā)布 極有價(jià)值信息發(fā)布獲得較大影響力,隨之而來(lái)的則是轉(zhuǎn)發(fā)和粉絲數(shù)量激增。 草根 用戶積極參與用戶間的 互動(dòng), 并且 努力發(fā)布有價(jià)值的消息 給 粉絲, 也可以 獲得較大的影響力。 認(rèn)證 用戶中有部分是 在 現(xiàn)實(shí)社會(huì)中有著一定影響力, 微博 則是 其社會(huì)影響 力在網(wǎng)絡(luò)中的映射。 通過(guò) 對(duì) 收集到的數(shù)據(jù)的分析, 從 數(shù)據(jù)表明,基本上可以 認(rèn)為 20%的 意見(jiàn) 領(lǐng)袖 用戶領(lǐng)導(dǎo)著 80%的用戶的意見(jiàn) , 如圖 22, 從一條轉(zhuǎn)發(fā)量為 561 次 的微博消息 的 前10名 的 數(shù)據(jù) 可以看出, 昵稱(chēng) 為 “思想 焦距 ”“ 杜子健 ”“ 歷史塵封 檔案 ”的 3 位 用戶 是 此次消息傳播 中 最重要的 3 位 意見(jiàn)領(lǐng)袖 。 而在 微博 消息傳遞過(guò)程中, 人際傳播 網(wǎng)絡(luò)化 為微博用戶傳播網(wǎng)絡(luò), 微博 意見(jiàn)領(lǐng)袖在其中發(fā)揮著巨大作用 【 10】 。北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 7 圖 21 微博 用戶狀態(tài)圖 微博 意見(jiàn)領(lǐng)袖 意見(jiàn) 領(lǐng)袖這一說(shuō)法起源于 20世紀(jì) 40年代 初傳播學(xué)關(guān)于媒介傳播效果的研究 , 傳播學(xué)者拉扎斯菲爾德 在 1940 年 美國(guó)大選的 調(diào)查 研究中發(fā)現(xiàn),大部分選民的投票不依靠大眾傳媒,依靠的是身邊的 親戚、 朋友和團(tuán)體的影響。如 圖 21所示 , 這是 一個(gè) 用戶 狀態(tài)示意圖, 用戶 A發(fā)布了一條狀態(tài), B和 C關(guān)注 了 A,所以知道了 A發(fā)布的消息, B不感興趣,忽略了這條消息,成為了已知不傳播狀態(tài),這條消息 的 傳播 在 B處中斷,而 C 對(duì)這條消息很感興趣,轉(zhuǎn)發(fā)了這條消息,則成為轉(zhuǎn)發(fā)狀態(tài),繼續(xù)向 C自己的粉絲傳播這條消息,則 D由不知道這條消息的未知狀態(tài)變?yōu)榱酥肋@條消息的已知不 傳播 狀態(tài), 而 E 關(guān)注 了 B,雖然 被 D 關(guān)注,但根據(jù)微博背對(duì)臉的特性, E 無(wú)法知道這條消息,一直處于未知狀態(tài)。 由于 病毒傳播與微博消息 的 相似性, 假設(shè) 一個(gè)用戶發(fā)布一條消息后,他的粉絲用戶都一定會(huì)看到這條消息, 類(lèi)比 病毒 傳播的三種狀態(tài),將微博用戶也分為三種狀態(tài), 未知 狀態(tài), 轉(zhuǎn)發(fā) 狀態(tài), 已知 不傳播狀態(tài)。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 6 根據(jù) 微博典型的這 3 種 特 點(diǎn) , 我們 看出 它 與其他網(wǎng)絡(luò) 平臺(tái) 輿情傳播的顯著差別 , 而 想要 對(duì)微博輿情進(jìn)行管理, 必須 很好的 利用這三種特點(diǎn)。 但也為微博輿情管理增加了難度, 對(duì) 微博內(nèi)容的分類(lèi)提出了更高的要求。微博 的便捷性 讓 網(wǎng)絡(luò)輿情的 消息 爆發(fā)更加突然,在 前 不久的 雅安 地震 中 , 震后 3 分鐘 即有第一條 關(guān)于震區(qū)震后 實(shí)情的微博消息出現(xiàn),這與微博的便捷性是分不開(kāi)的 。 隨著 智能手機(jī)的普及 以及 各種便捷移動(dòng)電子設(shè)備的出現(xiàn),各種微博移動(dòng)終端 使得 微博消息的 發(fā)表 與接收變得非常便捷,使得網(wǎng)絡(luò)輿情的直接性和突發(fā)性表現(xiàn)的更為突出 。 這也對(duì) 網(wǎng)絡(luò)輿情的監(jiān)管提出了要求。 二、 微博 消息傳播模型 微博消息 傳播的特點(diǎn) 微博輿情 作為網(wǎng)絡(luò)輿情 重要 組成部分 , 有著 與 網(wǎng)絡(luò)輿情 共 同的特點(diǎn),網(wǎng)絡(luò) 輿情的特點(diǎn)有以下幾點(diǎn): 直接性,突發(fā)性,偏差 性,豐富性和互動(dòng)性。 第三章 概述 了微博輿情管理平臺(tái)的總體流程,詳細(xì)講解了數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)流程, 講述了 分詞模塊,聚類(lèi)模塊 及 趨勢(shì)分析模塊的算法思想,基本原理。 第一章概述 介紹了 我 選擇這個(gè)課題的 背景 , 敘述 了目前 國(guó)內(nèi)外 關(guān)于微博輿情管理平臺(tái)的研究現(xiàn)狀, 分析 了微博輿情管理平臺(tái)的重要意義 。因此,研究如何發(fā)現(xiàn)互聯(lián)網(wǎng)上的輿情、做出預(yù)警并在必要時(shí)采取合理的預(yù)控措施,成為擺在相關(guān)部門(mén)面前亟待解決的問(wèn)題。 研究 現(xiàn)狀 隨著網(wǎng)絡(luò) 技術(shù)的發(fā)展和時(shí)代的進(jìn)步,網(wǎng)絡(luò)輿情的重要性已經(jīng)毋庸置疑,有關(guān)網(wǎng)絡(luò)輿情管理與檢測(cè)的研究也日趨成熟,有關(guān)網(wǎng)絡(luò)輿情 管理 與 監(jiān)測(cè) 的系統(tǒng)越來(lái) 越多 ,微博輿情的分析平臺(tái)也有出現(xiàn), 不過(guò) 多數(shù) 為 政府和企業(yè)服務(wù),只監(jiān)控有可能爆發(fā)的負(fù)面信息 和 重大事件,不對(duì)普通用戶開(kāi)放,而有關(guān)微博消息的 分析 軟 件 不但 費(fèi)用 昂貴而且 只是 對(duì)信息 的已傳播軌跡進(jìn)行呈現(xiàn)和分析,缺乏對(duì)微博消息未來(lái)走向的一個(gè)分析預(yù)測(cè), 也無(wú) 對(duì)微博消息 傳播 范圍 廣度 的 分級(jí) 。網(wǎng)絡(luò)的出現(xiàn)使得地球村的夢(mèng)想得以實(shí)現(xiàn),一條消息可以在瞬間傳遍世界。在網(wǎng)絡(luò)上,輿情的載體主要有新聞評(píng)論,論壇 (社區(qū) )發(fā)帖、跟帖,博客,播客, 微博 等。 輿情的本質(zhì)是民眾的社會(huì)政治態(tài)度,而在網(wǎng)絡(luò)上,某種抽象的社會(huì)政治態(tài)度是需要以一些具體的形式反映出來(lái)的。 帶有廣大網(wǎng)民的主觀性,未經(jīng)媒體驗(yàn)證和包裝,直接通過(guò)多種形式發(fā)布于互聯(lián)網(wǎng)上。以網(wǎng)絡(luò)為平臺(tái),通過(guò)新聞、評(píng)論、發(fā)帖、回復(fù)等為載體表現(xiàn)出來(lái)的輿情,就是網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)從誕生的那一天起,就開(kāi)始深刻地影響人們的 生活、學(xué)習(xí)、思考、交流和娛樂(lè)的方式?!边@一定義將輿情界定為民眾的社會(huì)政治態(tài)度,突出了民眾與國(guó)家管理者之間的關(guān)系,抓住了輿情的核心,因此本文在以下的論述中,也采用這一定義?!备嗟膶W(xué)者傾向于如下認(rèn)識(shí):“輿情是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度。大眾傳媒對(duì)此應(yīng)該有足夠的敏感,并以恰當(dāng)?shù)姆绞竭M(jìn)行輿論引導(dǎo),減少社會(huì)震蕩。 對(duì)于輿情的內(nèi)涵,國(guó)內(nèi)的研究者們有著不同的認(rèn)識(shí)。 輿情是“輿論情況”的簡(jiǎn)稱(chēng),是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的 發(fā)生、發(fā)展和變化,作為主體的民眾對(duì)作為客體的社會(huì)管理者北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 頁(yè) 2 及其政治取向產(chǎn)生和持有的社會(huì)政治態(tài)度。 2020 年 10月,中國(guó)微博用戶總數(shù)達(dá)到 億,成世界第一大國(guó)。威廉姆斯推出的 twitter 是 最早的微博平臺(tái),也是目前最著名的平臺(tái)。微博,即微博客( MicroBlog)的簡(jiǎn)稱(chēng),是一個(gè)基于用戶關(guān)系信息分享、傳 播以及獲取平臺(tái),用戶可以通過(guò) WEB、 WAP 等各種客戶端組建個(gè)人社區(qū),以 140 字左右的文字更新信息,并實(shí)現(xiàn)即時(shí)分享。 關(guān)鍵詞: 微博輿情 文本聚類(lèi) 趨勢(shì)分析 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) Abstract Along with the universal application and rapid development of work technology, the approaches that the mediated public sentiment spread have been fundamentally changed. The mediated public sentiment has exerted huge influence on the way that the society operates. As the one of the most significant parts of the mediated public sentiment, the public sentiment which is produced and spread by the microblog has several important characters, such as directness, immediacy, deviation, variability, interactivity. Taking the microblog messages as our investigating subject, this paper aimed to do research on the characteristics and models of delivering messages between microblog users, Through the analysis of the capture data found unidirectional, microblog munication convenience, back on the face and other characteristics, and raised an effective algorithm to sort these kinds of messages. Using the spatial vector model, the Kmeans algorithm did cluster analysis on
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1