freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

本科畢業(yè)設計_微博輿情管理平臺:數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)(參考版)

2024-09-03 21:56本頁面
  

【正文】 北京交通大學畢業(yè)設計(論文) 第 頁 34 參考文獻 [1] 張洋 , 何楚杰 , 段俊文 , 等 . 微博輿情熱點分析系統(tǒng)設計研究 [J]. 信息網(wǎng) 絡安全 , 2020 (9): 6064 [2] 王藝 . 重大突發(fā)公共事件的微博輿情監(jiān)測與引導初探 [J]. 貴州民族學院學報 : 哲學社會科學版 , 2020 (5): 148151 [3] 楊濤 . 智能信息處理技術在互聯(lián)網(wǎng)輿情分析中的應用 [D]. 同濟大學 , 2020 [4] 張超 . 文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應用研究 [D][D]. 北京 : 北京郵電大學 , 2020. [5] 唐曉波 , 宋承偉 . 基于復雜網(wǎng)絡的微博輿情分析 [J]. 情報學報 , 2020, 31(11): 11531162. [6] 王晶 , 朱珂 , 汪斌強 . 基于信息數(shù)據(jù)分析的微博研究綜述 [J]. 計算機應用 , 2020, 12(32): 7. [7] 莫溢 , 劉盛華 , 劉悅 , 等 . 一種相關話題微博信息的篩選規(guī)則學習算法 [J]. 中文信息學報 , 2020, 26(5): 16. [8] 譚俊武 . 面向網(wǎng)絡輿情分析的文本傾向性分類技術的研究與實現(xiàn) [D][D]. 國防科學技術大學 , 2020. [9] 陸浩 . 網(wǎng)絡輿情監(jiān)測研究與原型實現(xiàn) [D][D]. 北京 : 北京郵電大學 , 2020. [10] 肖宇 , 許煒 , 商召璽 . 微博用戶區(qū)域影響力識別算法及分析 [J]. 計算機科學 , 2020, 39(9): 3842. [11] 楊春霞 , 胡丹婷 , 胡森 . 微博病毒傳播模型研究 [J]. Computer Engineering, 2020, 38(15). 北京交通大學畢業(yè)設計(論文) 第 頁 35 [12] 李雯靜 , 許鑫 , 陳正權 . 網(wǎng)絡輿情指標體系設計與分析 [J]. 情報科學 , 2020, 27(7): 986991. [13] 滕達 . 基于趨勢分析的網(wǎng)絡輿情監(jiān)控系統(tǒng) (TANCMS) 的研究與實現(xiàn) [D]. 國防科學技術大學 , 2020. [14] Larsen B, Aone C. Fast and effective text mining using lineartime document clustering[C]//Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 1999: 1622. [15] Kumar V, Tan P N, Steinbach M. Cluster analysis: basic concepts and algorithms[J]. Introduction to data mining, 2020: 487586. [16] Page L, Brin S, Motwani R, et al. The PageRank citation ranking: bringing order to the web[J]. 1999. 附錄Ⅰ: 翻譯原文 Cluster Analysis:Basic Concepts and Algorithms Cluster analysis divides data into groups (clusters) that are meaningful, useful,or both. If meaningful groups are the goal, then the clusters shou。 針對目前輿情 管理平臺的研究現(xiàn)狀, 本文 重在研究其中數(shù)據(jù)分析系統(tǒng)的內容, 有 以下貢獻: 整合 中文分詞系統(tǒng)與 空間向量 模型 及 Kmeans 算法,實現(xiàn) 了對微博 數(shù)據(jù)的 轉化及聚類,給出了微博意見領袖的 評估 算法 及 對微博消息的預警等功能 。 結束語 隨著網(wǎng)絡 在 全球 范圍內 的 飛速發(fā)展, 網(wǎng)絡已經(jīng) 逐漸發(fā)展 成反映 社會輿情的 主要 載體 , 微博輿情也成了網(wǎng)絡輿情的重要組成 部分 。針對目前傾向性語義資源匱乏的現(xiàn)狀,收集和整理了當前主要的基礎語義資源,分析了在構建語義資源時需要考慮的因素,提出了用于傾向性分類的語義資源的構建方法并實際構建了一部領域極性詞典。這些成型系統(tǒng)一般由數(shù)據(jù)收集、數(shù)據(jù)預處理和數(shù)據(jù)分析等模塊組成。網(wǎng)絡輿情分析系統(tǒng)所涉及的領域眾多,不過各個子領域的一些相關技術是可以互相參考和借鑒的。 新增 功能 文本 傾向性分析模塊 傳統(tǒng)的輿情分析和調查主要采用靜態(tài)的手段,如:通過調查問卷,電話和面談,國內外都有不少專業(yè)的調查公司和院所參與調查問題和場景的設計工作。 通過 更多 的數(shù)據(jù)抓取來改進微博意見領袖 影響力 算法。 分析準確率 從 的 結果分析中發(fā)現(xiàn),對于媒體傳播模式的微博消息的 預警 準確率 基帶 提高 , 需要加入 文本 傾向性分析 和 轉發(fā)率等因素來提高 分析 準確北京交通大學畢業(yè)設計(論文) 第 頁 32 率。 分析技術 漢語 語義的豐富性與 復雜 性導致中文分詞與語義分析的困難 , 許多適用英文語義分析 的 算法 無法 用于中文 語義, 由于中文 語義 分析 需要建立自然語料庫,這方面 需要 的工作量過大,時間和精力不足,所以在這方面只有一些理論研究,沒有實現(xiàn)。 由于 時間 和精力有限,這個系統(tǒng)尚未做到盡善盡美,主要還存在以下幾個方面問題: 動態(tài)監(jiān)測 對 微博信息的實時獲取,是 趨勢 分析的 關鍵 ,由于新 浪 API 的限制 ,導致對微博 消息 的抓取有一定限制,在抓取數(shù)據(jù)時會有一定時間的延遲,在數(shù)據(jù)挖掘方面有待改進。 北京交通大學畢業(yè)設計(論文) 第 頁 31 五 、 結論 與展望 系統(tǒng) 不足 盡管微博輿情 監(jiān)控技術日趨成熟, 但是微博 輿情本身 的 特點及復雜性使得微博輿情信息 的 處理不能 像 普通 文本信息 的 處理那樣進行 。 而 媒體 模式中的準確率就比較差強人意了 ,只有 60%左右,根據(jù) 實驗結果發(fā)現(xiàn)媒體本身擁有眾多粉絲數(shù),所以發(fā)表的消息雖然成為熱點的可能性非常大,但也總有 40%的新聞只是 新聞 , 傳播 面廣 而沒有成為熱點,所以對媒體模式的更準確預警分析有待 改進 。 在 微博達人模式中, ―營養(yǎng)餐食物變質,營養(yǎng)縮水,問題不斷 ‖這條 熱點沒有預測出,但其他熱點均成功預測并且沒有 誤報 熱點, 準確率 為 80%。 圖 45 轉發(fā) 量時間曲線圖北京交通大學畢業(yè)設計(論文) 第 頁 28 圖 46 微博 達人模式 圖 圖 47 媒體模式 傳播 圖 北京交通大學畢業(yè)設計(論文) 第 頁 29 趨勢 分析結果比較 利用 趨勢分析 模塊對 微博 消息 進行分析 , 對 分析 結果與最終消息走勢進行 對比,結果如 圖 48 所示 , 總共 測試了 15 組 微博消息, 媒體 模式 10組句子 和 微博達人 模式 5 組。當 M值在 5000 到 10000 時 ,成為熱點的概率經(jīng)過統(tǒng)計在 50%左右,而如果 M值在 5000 到 10000 之間 出現(xiàn)的次數(shù)能達到兩次,則成為熱點的概率能大大提高,大概能達到 80%左右,所以 若 M 值在 5000到 10000 之間 時,統(tǒng)計 M值 的 次數(shù), 若 只出現(xiàn)一次,則為 藍色 級,若出現(xiàn)兩次 或 以上,為黃色級 。 從 兩者 的傳播圖形中可以看出,轉發(fā)率并不 能成為 熱點 評估 的標準 。微博用戶 對該輿情關注度極高,傳播速度非??欤绊憯U 大到了整個社會, 輿情必定 成為熱點并且持續(xù)一段時間 。 微博用戶 對該輿情關注 度較高,傳播速度北京交通大學畢業(yè)設計(論文) 第 頁 26 中等,輿情影響局限在一定范圍內,有 一定 可能 成為當日 熱點 ; 橙色級 (Ⅱ級 ):出現(xiàn)輿情。 藍色級 (IV級 ):出現(xiàn)輿情。 微博 輿情預警,就是發(fā)現(xiàn)對 微博 輿情出現(xiàn)、發(fā)展和消亡具有重要影響的因素,并連續(xù)不間斷地動態(tài)監(jiān)測、度量、及采集它們的信息,根據(jù)預警體系內容,運用綜合分析技術,對當前 微博 輿情做出評價分析并預測其發(fā)展趨勢,及時做出等級預報的活動。預警,究其實質是一種特殊的預測,因為 預測是預警的基礎和條件,預警是選擇實施預案的前提和準備。目前關于天氣、自然狀況的預警系統(tǒng)已經(jīng)在社會生活中發(fā)揮著顯著的作用。從圖中可以看出前 20%的用戶的用戶影北京交通大學畢業(yè)設計(論文) 第 頁 25 響力覆蓋了 80%的用戶傳播影響人次,符合人們日常認識中的 20/ 80 分布規(guī)律。而用戶 retweets 的序列 (轉發(fā)信息量 )作為用戶的傳播 影響力的評價指標是效果最差的。 圖 44 3 種 算法 意見領袖 累計覆蓋率統(tǒng)計 通過對 圖 44 中的數(shù)據(jù)分析發(fā)現(xiàn), WeiboRank 算法 意見領袖 用戶對信息的累計人群覆蓋率都高于其他算法,這充分說明該算法通過親近率引入個體傳播意愿和節(jié)點互動程度后,能夠有效地逼近用戶的真實信息傳播能力。值得注意的是,如果用戶 i 的某條微博在轉發(fā)過程中多次傳播到用戶 j,這種情況需要進行合并,只計 1 人次。 本文采用信息傳播實際影響人次覆蓋率 P 作為用戶的傳 播能力的評測指標。 算法 對比 為了對比 WeiboRank 算法對用戶傳播影響力的識別準確性,采用以下 2 種常用評估微博用戶影響力的方式 : 1)被轉發(fā)量 (Retweets):該數(shù)量表示用戶發(fā)布的信息被其他用戶轉發(fā)的信息量。 d 是阻尼系數(shù),可設定在 (0, 1)之間,本文中選取 0. 85。親近率 C(i, j)定義如下: 北京交通大學畢業(yè)設計(論文) 第 頁 23 從親近率定義中可以看出,其綜合考慮了用戶的傳播意愿和與其他節(jié)點互動的程度。親近率定義為節(jié)點 d 對 i 的歷史轉發(fā)率和所有節(jié)點 J 轉發(fā)過的用戶節(jié) 點的歷史轉發(fā)率之和的比值。式 (1)是將用戶歷史轉發(fā)狀況進行歸一化處理。顯然,如果用戶 j 過去經(jīng)常轉發(fā) i 的微博,今后也很有可能轉發(fā)。歷史轉發(fā)比率是指用戶 j曾經(jīng)轉發(fā)用戶 i 的微博的次數(shù)與用戶 i總轉發(fā)微博數(shù)的比率。 給定一個權重有向網(wǎng)絡 G=( V, E, W ),節(jié)點為 V,邊為 E,邊權為 w,其中 i和 j節(jié)點間邊權 Wij 表示節(jié)點 i對節(jié)點 j的影響力。同時與微博用戶自身的活躍性、是否經(jīng)常登錄微博、發(fā)布和分享信息也有很大的關系。 PageRank 的核心思想是每個節(jié)點的 PR 值根據(jù)反向鏈接的數(shù)量,均勻北京交通大學畢業(yè)設計(論文) 第 頁 22 “流”向所有的關系節(jié)點。 優(yōu)點:是一個與查詢無關的靜態(tài)算法,所有網(wǎng)頁的 PageRank 值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。 基本思想:如果網(wǎng)頁 T存在一個指向網(wǎng)頁 A的連接,則表明 T的所有者認為 A比較重要,從而把 T 的一部分重要性得分賦予 A。 是Google 排名運算法則(排名公式)的一部分,是 Google 用于用來標識網(wǎng)頁的等級 /重要性的一種方法,是 Google 用來衡量一個網(wǎng)站的好壞的唯一標準。 北京交通大學畢業(yè)設計(論文) 第 頁 21 微博 意見 領袖重要性評估 從前文 中可以知道 , 微博意見領袖在微博消息傳播中的重要性,而意見領袖本身也存在著影響力 不同 的問題,所以 根據(jù) PageRank 算法提出 改進 的 WeiboRank 算法來對意見領袖的重要性進行評估。然后 重新 計算 選擇每個類的中心。 5. 重復步驟 3, 4直到 達到用戶的設定條件為止 【 9】 。 3. 對其他文本 計算到這 n個聚類中心的距離,并把它分到距離 最近的那個聚類里面。 算法 Kmeans 算法是 屬于 劃分類的聚類方法,它的基本 原理 如下: 1. 用戶輸入想要 劃分 的文本聚類輸 n。descent)來減小誤差,達到分類的目的。 classify)。通過算法讓機器自我減少誤差。監(jiān)督學習,北京交通大學畢業(yè)設計(論文) 第 頁 19 即在機械學習過程中提供對錯指示。這里所說的“機器”,指的就是計算機。 機器學習是研究如何使用機器來模擬人類學習活動的一門學科。專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。這里提到的好的標準是:對于同一個分組中的記錄,越近越好;對于不同分組中的記錄,越遠越好 【 9】 。劃分法:對于一個有N 個記錄的數(shù)據(jù)集,將構造 K 個分組,每一個分組屬于同一個聚類, KN。 文本聚類算法有劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、北京交通大學畢業(yè)設計(論文) 第 頁
點擊復制文檔內容
試題試卷相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1