freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計論文-免費閱讀

2025-08-09 13:35 上一頁面

下一頁面
  

【正文】 在以后 處理數(shù)據(jù)過程中 對于存在缺失值的數(shù)據(jù)將 可以采取更為合理有效的處理方法,例如 對于數(shù)值屬性 可 用平均值代替缺失值; 對于 nominal 屬性,用它的 mode(出現(xiàn)最多的值 )來代替缺失值。 但僅有這些有效數(shù)據(jù)還是不夠的,因為還有從這些數(shù)據(jù)中 提取隱含在其中的、但卻有潛在 存在的 有用 屬性相關(guān) 信息 。而人人網(wǎng)最近也確實在不斷進行創(chuàng)新以尋求突破。 圖 48 EM 算法運行參數(shù)設(shè)置界面 如圖 48 所示,數(shù)據(jù)集包括了 12298 條用戶行為屬性數(shù)據(jù)記錄,采用了年份、 好友數(shù)、訪問數(shù)、性別、日志數(shù)、相冊數(shù)和用戶狀態(tài)數(shù)作為用戶行為聚類屬性信息,而用戶 ID 屬性被忽略。 這可能是該算法表現(xiàn)較好的原因 。如果兩者之間是非線性關(guān)系,可以重新定義離散后變量每段的取值,從而大大提高模型的靈活度 。 圖 44 忽略 ID 屬性 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 33 頁 ? 對 LOG 屬性的處理: 對 CSV 格式的 LOG 屬性進行排序, 發(fā)現(xiàn) LOG屬性最大值與最小值之間數(shù)值相差過大 ,在刪除孤立的最大 值10417 之后發(fā)現(xiàn) LOG 屬性已能夠被使用 ,如圖 43 所示。 WEKA 包含有一些常用的數(shù)據(jù)挖掘算法,并且可以自主添加新的算法,同時該軟件也可以讓數(shù)據(jù)屬性以及最終結(jié)果可視化,所以得到了廣泛應(yīng)用。并且,在此情況下,在瀏覽器里點擊時,有時會出現(xiàn)一個頁面會提示這個用戶的相關(guān)信息,比如日志數(shù)等。 Python語法簡捷而清晰,具有豐富和強大的類庫。 圖 34 Wireshark規(guī)則設(shè)置 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 21 頁 圖 35 利用 Wireshark抓包過程 分析網(wǎng)站行為 本文通過火狐瀏覽器 +firebug來分析 網(wǎng)站行為: Firebug是火狐瀏覽器下的一款開發(fā)類插件,它可以對 HTML、javascript和 CSS等進行查看和編輯。 定向爬蟲定制 本文以人人網(wǎng) 數(shù)據(jù) 為具體案例進行分析,因而需要對 人人網(wǎng)特定數(shù)據(jù)進行抓取。明顯地,要知北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 19 頁 道最后的 URL,需要在輸入框里輸入數(shù)據(jù)并且觸發(fā)這個函數(shù)執(zhí)行。網(wǎng)絡(luò)爬蟲通過訪問某一 URL頁面,來獲得此頁面內(nèi)其他 URL,并且根據(jù)這些 URL來遍歷這個站點或者跳轉(zhuǎn)到其他站點,從而實現(xiàn)遍歷整個互聯(lián)網(wǎng)空間,進而獲得需要的 URL集合。代表算法有: DBSCAN算法、 OPTICS算法、 DENCLUE算法等 ? 基于網(wǎng)格的方法 (gridbased methods) 這種方法首先將數(shù)據(jù)空間劃分成為有限個單元( cell)的網(wǎng)格結(jié)構(gòu) ,所有的處理都是以單個的單元為對象的。 ? 性評估、內(nèi)部有效性評估和相關(guān)性測試評估 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 14 頁 聚類分析方法 由于多維數(shù)據(jù)集的復(fù)雜性,要求有不同的聚類方法對各種復(fù)雜數(shù)據(jù)類型進行分析。此外,聚類還應(yīng)用于統(tǒng)計科學(xué)。 二是對網(wǎng)民的行為模式、行為類型與行為邏輯進行實證調(diào)查與理論分析。 ? 網(wǎng)絡(luò)挖掘技術(shù) 在社交網(wǎng)絡(luò)的理論研究中,另外一個重要的課題是挖掘技術(shù)的研究,挖掘技術(shù)的研究在語義網(wǎng)的研究中扮演了越來越重要的角色。 社交網(wǎng)絡(luò)主要研究方向 目前社交網(wǎng)絡(luò)主要有四個研究方向,本文主 要關(guān)心社交網(wǎng)絡(luò)挖掘技術(shù)的發(fā)展 ? 基礎(chǔ)結(jié)構(gòu)研究 社交網(wǎng)絡(luò)不同于普通的基礎(chǔ)網(wǎng)絡(luò),是建立在真實人際關(guān)系基礎(chǔ)上的,因此對網(wǎng)絡(luò)的結(jié)構(gòu)特點進行研究對于進一步推動網(wǎng)絡(luò)的發(fā)展具有非常重要北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 10 頁 的意義。這也意味著更多的人們開始習(xí)慣于使用網(wǎng)絡(luò)來維持和加強現(xiàn)實生活中的一部分人際關(guān)系,表明了 SNS在現(xiàn)實生活中的重要性。為避免網(wǎng)絡(luò)這種上具性特征帶來的弊端,社交網(wǎng)絡(luò)正在向人際傳播回歸,它以現(xiàn)實社會關(guān)系為基礎(chǔ),模擬或重建現(xiàn)實社會的人際關(guān)系網(wǎng)絡(luò)。 現(xiàn)在社交網(wǎng)絡(luò)也被稱作社交網(wǎng)絡(luò)服務(wù) (Social Network Service), 簡稱SNS,也就是社交 +網(wǎng)絡(luò) +應(yīng)用服務(wù)的意思 [5]。 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 5 頁 論文最后對整個研究過程進行總結(jié)并分析了所存在的不足之處以及對未來進一步研究的展望。 最后對一般 社交網(wǎng)絡(luò)用戶行為動機進行分析。 2 0 0 2最 早 的 社 交 網(wǎng) 站F r i e n d s t e r 發(fā) 布2 0 0 3 M y s p a c e , 經(jīng) 過 1 0 天匆 忙 開 發(fā) 后 發(fā) 布 L i n k e d 發(fā) 布2 0 0 4 F a c e b o o k 發(fā) 布 圖 片 分 享 網(wǎng) 站F l i c k e r 發(fā) 布2 0 0 5 全 球 最 大 視 頻 分 享網(wǎng) 站 y o u t u b e 發(fā) 布 R e d d i t 發(fā) 布2 0 0 8 F a c e k b o o k 超 過 M y s p a c e成 為 最 大 社 交 網(wǎng) 站 團 購 始 祖 G r o u p o n 發(fā) 布2 0 0 7 i P h o n e 發(fā) 布 全 球 最 大 輕 博 客網(wǎng) 站 T u m b l r 發(fā) 布2 0 1 1 F a c e b o o k 活 躍 用 戶 數(shù)突 破 6 億 I p h o n e 集 成 T w i t t e r服 務(wù)2 0 0 6T w i t t e r 發(fā) 布 圖 11 社交網(wǎng)站發(fā)展時間表 研究意義 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 3 頁 社交網(wǎng)絡(luò)的流行不僅帶來了信息傳播技術(shù)的革命性變革,并且一步步改變著人們的生活方式、思維方式 等,對于社交網(wǎng)絡(luò)的研究也 不斷深入 。此外“社交化”已經(jīng)作為一種重要的功能元素,正在全面融合到各類互聯(lián)網(wǎng)應(yīng)用中。同時報告顯示,社交網(wǎng)絡(luò)應(yīng)用持續(xù)呈現(xiàn)增長趨勢,截止 20xx 年 12 月,國內(nèi)社交網(wǎng)絡(luò)用戶總數(shù)已達 億,占到了全部網(wǎng)民人數(shù)的 %, 增速保持在 10%以上。其中 Facebook每月活躍人士已超過 億,根據(jù)股價估值也已接近千億級別,已經(jīng)成為互聯(lián)網(wǎng)新巨頭之一。 論文主要 研究內(nèi)容 及組織結(jié)構(gòu) 本論文研究內(nèi)容主要 包括 一下三個方面 : ? 社交網(wǎng)絡(luò)及社交網(wǎng)絡(luò) 用戶行為 該部分主要是為最終通過分析軟件對社交網(wǎng)絡(luò)用戶行為進行總結(jié)做好北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 4 頁 理論基礎(chǔ)準備。 論文第三章對 于如何通過 網(wǎng)絡(luò)爬蟲技術(shù) 進行 數(shù)據(jù)采集進行了說明。網(wǎng)絡(luò)社交是伴隨著電子郵件的出現(xiàn)產(chǎn)生的, 它解決了信息點對點的傳送。而狹義上的社交網(wǎng)絡(luò),如 Facebook,是現(xiàn)實人際網(wǎng)絡(luò)的子集及其衍生,具有現(xiàn)實生活中人際網(wǎng)絡(luò)特征,同時國內(nèi)大多數(shù)媒體所指的 SNS 也一般即為社交網(wǎng)站( Social Network Sites),而并非社會性網(wǎng)絡(luò)服務(wù)( Social Networking Services)。 社交網(wǎng)絡(luò)用 戶行為動機 ? 維持人際關(guān)系 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 9 頁 和傳統(tǒng)網(wǎng)絡(luò)媒體不同的是用戶使用社交網(wǎng)絡(luò)最主要的原因是為了維持人際關(guān)系。 ? 娛樂消遣 娛樂消遣一直以來都是用戶使用媒體的主要動機,而對于社交網(wǎng)站用戶來說,也是僅此于人際關(guān)系維持的第二大動機。這個研究方向的重要意義在于傳統(tǒng)的、單一的網(wǎng)絡(luò)并不能反映現(xiàn)實中真實的人際關(guān)系,而采用多層,立體的網(wǎng)絡(luò)結(jié)構(gòu)建模使得數(shù)學(xué)模型更精確,更貼近真實人際網(wǎng)絡(luò),能得到更為客觀有效的社區(qū)挖掘結(jié)果 [8]。對此國內(nèi)外都已進行了不少大規(guī)模調(diào)查,這類調(diào)查一般都將重點傾向于網(wǎng)民的網(wǎng)絡(luò)使用習(xí)慣、傾向、網(wǎng)齡、上網(wǎng)頻率、上網(wǎng)時間、上網(wǎng)動機等問題上。聚類是數(shù)據(jù)挖掘、模式識別等研究方向的重要研究內(nèi)容之一,在識別數(shù)據(jù)的內(nèi)在結(jié)構(gòu)方面具有極其重要的作用。 ? 數(shù)據(jù)準備:包括特征標準化和降維 ? 特征選擇:從最初的特征中選擇最有效的特征 ,并將其存儲于向量中 。代表算法 有: BIRCH算法、 CURE算法、 CHAMELEON算法等 [16] ? 基于密度的方法 (densitybased methods) 基于密度的方法與其它方法的一個根本區(qū)別是:它不是基于各種各樣的距離的,而是基于密度的。通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案 [17]。 從 URL的出現(xiàn)位置來可看, 我們可將 URL的出現(xiàn)位置分為如下幾類: ? HTML靜態(tài)標簽 HTML靜態(tài)頁面中存在大量 URL入口,比如某頁面存在 A標簽: a href= /a , 通過解析 A標簽的結(jié)構(gòu),我們知道這里存在一個新的 url鏈接 似的標簽還有: img src=” form action=/ method=POST 北京交通大學(xué)畢業(yè)設(shè)計(論文) 第 18 頁 frame src= / script src= / ...... 因為這些鏈接是靜止在頁面內(nèi),屬于比較容易發(fā)現(xiàn)的鏈接類型。 ? 存在于第三 方組件里的 URL 在 flash、 silverlight等其他第三方組件里也存在 URL鏈接,這些鏈接的生成需要對應(yīng)的組件來解釋。 先啟動 wireshark程序,在 captureoptions 在彈出界面里選中你的網(wǎng)卡,雙擊,會彈出如下圖所示的設(shè)置規(guī)則處。使用 re模塊的一般步驟如下:
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1