freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計(jì)論文-預(yù)覽頁

2025-08-09 13:35 上一頁面

下一頁面
 

【正文】 網(wǎng)絡(luò)社區(qū)那種娛樂和游戲功能,每個用戶都只有一個身份識別,只有緊貼這個身份才能使用和拓展其他功能,它鼓勵用戶以真實(shí)身份、形象加入網(wǎng)絡(luò)群體,保持線上線下身份一致性,以此來構(gòu)建社會化的關(guān)系服務(wù)網(wǎng)絡(luò) ? 私人空間與公共空間的有機(jī)結(jié)合 如果說傳統(tǒng)的 BBS是一個公共場所,而博客又是一個相對單純的私人空間, 社交網(wǎng)絡(luò)則是兩者的有機(jī)結(jié)合,讓用戶對社區(qū)有歸屬感、認(rèn)同感的同時又能夠置身于社會公共網(wǎng)絡(luò)中。這也意味著更多的人們開始習(xí)慣于使用網(wǎng)絡(luò)來維持和加強(qiáng)現(xiàn)實(shí)生活中的一部分人際關(guān)系,表明了 SNS在現(xiàn)實(shí)生活中的重要性。 以人和的關(guān)系為基礎(chǔ)而建立的社交網(wǎng)站,使信息的分享變得更加容易和自然,從而便利了用戶之間的分享和交流。 社交網(wǎng)絡(luò)主要研究方向 目前社交網(wǎng)絡(luò)主要有四個研究方向,本文主 要關(guān)心社交網(wǎng)絡(luò)挖掘技術(shù)的發(fā)展 ? 基礎(chǔ)結(jié)構(gòu)研究 社交網(wǎng)絡(luò)不同于普通的基礎(chǔ)網(wǎng)絡(luò),是建立在真實(shí)人際關(guān)系基礎(chǔ)上的,因此對網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)進(jìn)行研究對于進(jìn)一步推動網(wǎng)絡(luò)的發(fā)展具有非常重要北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 10 頁 的意義。所以應(yīng)該根據(jù)特定的需求,對不同的關(guān)系進(jìn)行線形組合,然后在此基礎(chǔ)上計(jì)算影響因子并進(jìn)行社區(qū)挖掘。 ? 網(wǎng)絡(luò)挖掘技術(shù) 在社交網(wǎng)絡(luò)的理論研究中,另外一個重要的課題是挖掘技術(shù)的研究,挖掘技術(shù)的研究在語義網(wǎng)的研究中扮演了越來越重要的角色。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 11 頁 網(wǎng)絡(luò)用戶行為 目前對于網(wǎng)絡(luò)用戶行為的研究主要集中于兩方面: 一是對網(wǎng)民的網(wǎng)絡(luò)使用行為,包括網(wǎng)絡(luò)使用方式、時間、頻率、地點(diǎn)等進(jìn)行實(shí)證調(diào)查與定量研究。 二是對網(wǎng)民的行為模式、行為類型與行為邏輯進(jìn)行實(shí)證調(diào)查與理論分析。主北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 12 頁 要包括網(wǎng)站訪問、用戶 間 互動交流、信息發(fā)布與分享、 以及 APP娛樂 應(yīng)用等,如圖 22所示: 社 交 網(wǎng) 絡(luò) 主 要 用 戶行 為發(fā) 布 / 分 享 用 戶 生 成內(nèi) 容 ( U G C )用 戶 之 間 互 動使 用 A P P 應(yīng) 用日志發(fā)布狀態(tài)發(fā)布添加或刪除好友留言或回復(fù)添加或刪除發(fā)布到新鮮事照片傳送分享、贊內(nèi)容邀請好友訪問個人頁面贈送禮物加 入公 共主 頁或 小組 圖 22 社交網(wǎng)絡(luò)主要用戶行 為 聚類分析 特征聚類分析研究有很長的歷史,其重要性及與其他研究方向的交叉特性多年來一直受到得到人們的肯定。此外,聚類還應(yīng)用于統(tǒng)計(jì)科學(xué)。 但目前對于聚類并無一個學(xué)術(shù)上的統(tǒng)一定義,這里使用出 Everitt在 1974年關(guān)于聚類所下的定義:一個類簇內(nèi)的實(shí)體是相似的,不同類簇的實(shí)體是不相似的;一個類簇是測試空間中點(diǎn)的會聚,同一類簇的任意兩個點(diǎn)間的距離小于不同類簇的任意兩個點(diǎn)間的距離;類簇可以描 述為一個包含密度相對較高的點(diǎn)集的多維空間中的連通區(qū)域,它們借助包含密度相對較低的點(diǎn)集的區(qū)域與其他區(qū)域 (類簇 )相分離 [14]。 ? 性評估、內(nèi)部有效性評估和相關(guān)性測試評估 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 14 頁 聚類分析方法 由于多維數(shù)據(jù)集的復(fù)雜性,要求有不同的聚類方法對各種復(fù)雜數(shù)據(jù)類型進(jìn)行分析。例如在“自底向上”方案中,初始時每 一個數(shù)據(jù)紀(jì)錄都組成一個單獨(dú)的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有: DBSCAN算法、 OPTICS算法、 DENCLUE算法等 ? 基于網(wǎng)格的方法 (gridbased methods) 這種方法首先將數(shù)據(jù)空間劃分成為有限個單元( cell)的網(wǎng)格結(jié)構(gòu) ,所有的處理都是以單個的單元為對象的。它的一個潛在的假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。網(wǎng)絡(luò)爬蟲通過訪問某一 URL頁面,來獲得此頁面內(nèi)其他 URL,并且根據(jù)這些 URL來遍歷這個站點(diǎn)或者跳轉(zhuǎn)到其他站點(diǎn),從而實(shí)現(xiàn)遍歷整個互聯(lián)網(wǎng)空間,進(jìn)而獲得需要的 URL集合。但是 也存在一些 URL,比如 url url2等是相對孤立的,試圖從 urla系列以及 url1等頁面直接來獲得另外 url url3是不可能的。明顯地,要知北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 19 頁 道最后的 URL,需要在輸入框里輸入數(shù)據(jù)并且觸發(fā)這個函數(shù)執(zhí)行。為了確認(rèn)其是否為 URL,需要觀察其行為表現(xiàn),這些數(shù)據(jù)從服務(wù)端返回后,客戶端實(shí)際去訪問的 URL字符串才是爬蟲真正需要尋找的目標(biāo)。 定向爬蟲定制 本文以人人網(wǎng) 數(shù)據(jù) 為具體案例進(jìn)行分析,因而需要對 人人網(wǎng)特定數(shù)據(jù)進(jìn)行抓取。本文通過 Wireshark抓取人人網(wǎng) HTTP協(xié)議 。 圖 34 Wireshark規(guī)則設(shè)置 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 21 頁 圖 35 利用 Wireshark抓包過程 分析網(wǎng)站行為 本文通過火狐瀏覽器 +firebug來分析 網(wǎng)站行為: Firebug是火狐瀏覽器下的一款開發(fā)類插件,它可以對 HTML、javascript和 CSS等進(jìn)行查看和編輯。 由于 采用 Python語言進(jìn)行編譯,而正則表達(dá)式不屬于 Python的一部分, 這里要通過 re模塊 來提供對正則表達(dá)式的支持。 Python語法簡捷而清晰,具有豐富和強(qiáng)大的類庫。 此外還要通過 python的 re模塊來編譯正則表達(dá)式抓取有效數(shù)據(jù),程序使用模塊如下圖所示: 本次定向爬蟲的基本原理則是首 先根據(jù)學(xué)校名字以及入學(xué)年份搜索到uid, 然后 通過 uid獲取此用戶的日志數(shù) 狀態(tài)數(shù) 等信息 ,最后將結(jié)果通過 CSV格式輸出 。并且,在此情況下,在瀏覽器里點(diǎn)擊時,有時會出現(xiàn)一個頁面會提示這個用戶的相關(guān)信息,比如日志數(shù)等。 圖 315 輸入學(xué)校名稱及 確定輸出數(shù)據(jù)表格名稱 圖 316 數(shù)據(jù)爬取界面 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 29 頁 4 人人網(wǎng)用戶行為數(shù)據(jù)聚類 分析 通過在人人網(wǎng)運(yùn)行本文所設(shè)計(jì)的網(wǎng)絡(luò)爬蟲程 序 , 最終采集到 13000 條關(guān)于北京交通大學(xué)同學(xué)在人人網(wǎng) 的數(shù)據(jù) ,每個單項(xiàng)數(shù)據(jù)具有 9 條屬性: X∈ ( UID,入學(xué)年份,朋友數(shù),訪問數(shù),名字,性別,日志數(shù),相冊數(shù), 狀態(tài)數(shù), ) 對屬性名稱進(jìn)行英文化處理后,所得到的人人網(wǎng)用戶行為屬性包括: X∈( UID,Year,Friends,Visitor,SEX,Log,Picture,States) 。 WEKA 包含有一些常用的數(shù)據(jù)挖掘算法,并且可以自主添加新的算法,同時該軟件也可以讓數(shù)據(jù)屬性以及最終結(jié)果可視化,所以得到了廣泛應(yīng)用。 SPSS 提供了從簡單的統(tǒng)計(jì)描述到復(fù)雜的多因素統(tǒng)計(jì)分析方法,比如數(shù)據(jù)的探索性分析、統(tǒng)計(jì)描述、列聯(lián)表分析、二維相關(guān)、秩相關(guān)、偏相關(guān)、方差分析、非參數(shù)檢驗(yàn)、多元回歸、生存分析、協(xié)方差分析、判別分析、因子分析、聚類分析、非線性 回歸、 Logistic 回歸等。 圖 44 忽略 ID 屬性 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 33 頁 ? 對 LOG 屬性的處理: 對 CSV 格式的 LOG 屬性進(jìn)行排序, 發(fā)現(xiàn) LOG屬性最大值與最小值之間數(shù)值相差過大 ,在刪除孤立的最大 值10417 之后發(fā)現(xiàn) LOG 屬性已能夠被使用 ,如圖 43 所示。因此將數(shù)據(jù)離散化之后可以使用更多算法 。如果兩者之間是非線性關(guān)系,可以重新定義離散后變量每段的取值,從而大大提高模型的靈活度 。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 37 頁 圖 47 KMeans 聚類算法結(jié)果 通過對不同算法的分析比較,本文發(fā)現(xiàn), 采用 EM 算法 的聚類結(jié)果較為滿意 。 這可能是該算法表現(xiàn)較好的原因 。 總體來說, EM 的算法流程如下: ? 初始化分布參數(shù) ? 重復(fù)直到收斂: ? E 步驟:估計(jì)未知參數(shù)的期望值,給出當(dāng)前的參數(shù)估計(jì)。 圖 48 EM 算法運(yùn)行參數(shù)設(shè)置界面 如圖 48 所示,數(shù)據(jù)集包括了 12298 條用戶行為屬性數(shù)據(jù)記錄,采用了年份、 好友數(shù)、訪問數(shù)、性別、日志數(shù)、相冊數(shù)和用戶狀態(tài)數(shù)作為用戶行為聚類屬性信息,而用戶 ID 屬性被忽略。值得一提的,β唯一一項(xiàng)比其他兩 類都高的屬性是日志數(shù), 而圖像數(shù)量則遠(yuǎn)低于其他兩類, 這體現(xiàn)了現(xiàn)階段中年人與青少年在上網(wǎng)習(xí)慣上的不同之處 —— 他們更加 喜歡用文字而不是多媒體來表達(dá)感情,這一點(diǎn)值得網(wǎng)絡(luò)運(yùn)營者對此進(jìn)行思考。而人人網(wǎng)最近也確實(shí)在不斷進(jìn)行創(chuàng)新以尋求突破。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 43 頁 5 結(jié)束語 全文總結(jié) 在信息 大 爆炸時代 數(shù)據(jù) 已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為 非常 重要的生產(chǎn)因素。 但僅有這些有效數(shù)據(jù)還是不夠的,因?yàn)檫€有從這些數(shù)據(jù)中 提取隱含在其中的、但卻有潛在 存在的 有用 屬性相關(guān) 信息 。希望在未來的研究中能夠獲取更多的屬性,從而進(jìn)行高 維度 的分析。在以后 處理數(shù)據(jù)過程中 對于存在缺失值的數(shù)據(jù)將 可以采取更為合理有效的處理方法,例如 對于數(shù)值屬性 可 用平均值代替缺失值; 對于 nominal 屬性,用它的 mode(出現(xiàn)最多的值 )來代替缺
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1