freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計(jì)論文(文件)

2025-07-30 13:35 上一頁面

下一頁面
 

【正文】 ? 逐一刪除 Weka 軟件不能識(shí)別的 缺少屬性的 無效單個(gè)數(shù)據(jù) (數(shù)據(jù)足夠多無需做缺失值處理) ? 刪除對(duì)最終 結(jié)果不產(chǎn)生影響的屬性 UID ? 將 SEX 屬性數(shù)值化,將男性設(shè)為數(shù)值 1,女性設(shè)為數(shù)值 2 ? 經(jīng)過上述操作后, 通過 Weka 對(duì)屬性進(jìn)行可視化操作 ,可 判斷哪些數(shù)據(jù)仍然 不符合數(shù)據(jù)挖掘 處理 的要求,如圖 42 所示 : 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 32 頁 圖 43 屬性圖形化處理 通過上圖可以很明顯的看出 ID 與 LOG 屬性需要進(jìn)行 進(jìn)一步 處理,考慮到 用戶 ID 不會(huì)對(duì)結(jié)果造成影響, 屬于用戶行為的無關(guān)屬性, 所以直接將其忽略 。離散化數(shù)據(jù)主要有以下好處 [22]: ? 某些算法( 例如決策樹, NaiveBayes 等 ) 本身不能直接使用連續(xù)型變量,連續(xù)型數(shù)據(jù)只有經(jīng)離散處理后才能進(jìn)入算法引擎。 ? 有利于對(duì)非線性關(guān)系進(jìn)行診斷和描述:對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散處理后,自變量和目標(biāo)變量之間的關(guān)系變得清晰化。 圖 44 顯示了采用 SimpleKMeans 算法所得到的聚類結(jié)果。這種方法可以廣泛地應(yīng)用于處理缺損數(shù)據(jù), 截尾數(shù)據(jù) , 帶有噪聲等所謂的不完全數(shù)據(jù) (inplete data)。 第二 步上找到的參數(shù)估計(jì)值被用于下一個(gè) 期望 計(jì)算 步驟 中,這個(gè)過程不斷交替進(jìn)行 ,形成一個(gè)迭代過程 。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 39 頁 算法運(yùn)行參數(shù)界面如圖 48 所示。 以 β類 為例 ,由于 人人網(wǎng) 前身校內(nèi)網(wǎng) 誕生于 20xx 年,而當(dāng)時(shí)的校內(nèi)網(wǎng)只邀請(qǐng)大學(xué)生進(jìn)行注冊,而β類的平均入學(xué)年份在 月,因此大部分β類都沒有注冊校內(nèi)網(wǎng),因此β類好友數(shù)量與訪客數(shù)量遠(yuǎn)低于α類與γ類。這主要是由于07 年之后不斷涌現(xiàn)出各種新的社交網(wǎng)站以及 10 年之后出現(xiàn)各種新 形式 的社交元素對(duì)人人網(wǎng)造成了極大的競爭壓力。而 基本所有屬性值都是α類 γ類 β類 ,大致 可以推測出目前人人網(wǎng)的用戶數(shù)量也是α類 γ類 β類,如圖所示: 圖 410 3 個(gè)聚類簇的屬性值分布 可以說通過 EM 算法得出的聚類都能夠得到較好的解釋,這也是一次比較成功的聚類分析 。本文通過設(shè)計(jì)定向爬蟲來抓取人人網(wǎng)北京交通大學(xué)用戶的相關(guān)屬性,并最終獲得了大量有效數(shù)據(jù)。 進(jìn)一步研究的問題 研究問題 1: 獲取更多的數(shù)據(jù)屬性 畢業(yè)設(shè)計(jì)的完成只是 抓取了 8 個(gè)屬性的數(shù)據(jù)集,使得分析的結(jié)果顯得比較單薄。 研究問題 2: 對(duì)數(shù)據(jù)進(jìn)行更加精細(xì)化的處理 限于時(shí)間等因素, 本 文 采集到的數(shù)據(jù) 處理 總體仍然 比較粗糙 , 、 這也 可能造成了許多 算法都不能對(duì)本數(shù)據(jù)進(jìn)行分析, 這 是比較遺憾的地方。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 45 頁 。 同時(shí) 可 對(duì)數(shù)據(jù)進(jìn)行規(guī)范化與離散化的處理,如 利用縮放和平移參數(shù),將數(shù)值屬性值規(guī)范到任何區(qū)間 ,而通過 進(jìn)行監(jiān)督和無監(jiān)督的數(shù)值屬性的離散化, 則 可以 離散數(shù)據(jù)集中的一些數(shù)值屬性到分類屬性。另外這次 數(shù)據(jù)挖掘 也僅僅使用了 Weka 軟件中一種分析方法,希望下北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 44 頁 次能夠不光對(duì)數(shù)據(jù)進(jìn)行聚類分析,同時(shí)也能夠進(jìn)行分類、關(guān)聯(lián)規(guī)則等其他方式的 數(shù)據(jù)挖掘。 而數(shù)據(jù)挖掘則是發(fā)現(xiàn)在數(shù)據(jù)相關(guān)屬性之間所隱含關(guān)系 模式 的最佳手段, 因此 接下來就需要 通過 數(shù)據(jù)挖掘軟件 對(duì) 數(shù)據(jù) 進(jìn)行 進(jìn)一步 分析 ,挖掘出其中隱含的知識(shí)模式 。 然而人們想 從海量的、不完全的、有噪聲的、模糊隨機(jī)的數(shù)據(jù)中 獲取有效的相關(guān)數(shù)據(jù)卻 并不容易,因此選擇合理的數(shù)據(jù)采集手段對(duì)于獲取有效數(shù)據(jù)十分重要。 另外γ類的日志數(shù)數(shù)量明顯低于另外兩類,也進(jìn)一步佐證了前面所提到的 現(xiàn)階段中年人與青少年在上網(wǎng)習(xí)慣上的不同之處 ——他們更加喜歡用文字而不是多媒體來表達(dá)感情 。 而α類幾乎所有屬性都高于后兩類的原因則在于 他們的 入學(xué)平均時(shí)間在 20xx 年 7 月 ,這一時(shí)期是校內(nèi)網(wǎng)發(fā)展的黃金時(shí)間段,幾乎沒有競爭對(duì)手,用戶對(duì)于校內(nèi)網(wǎng)的忠誠度都很高,可以說α 類的用戶 是現(xiàn)在人人網(wǎng)的核心用戶,如何維護(hù)好這部分客戶的關(guān)系,保持用戶黏性是維持人人網(wǎng)穩(wěn)定發(fā)展的關(guān)鍵因素。 聚類 結(jié)果分析 算法結(jié)果 圖 47 顯示了 采用 EM 算法 所得到的聚類結(jié)果。 ? M 步驟:重新估計(jì)分布參數(shù),以使得數(shù)據(jù)的似然性最大 ,給出未知變量的期望估計(jì)。因此本文最終選取 EM 算法對(duì)數(shù)據(jù)進(jìn)行挖掘 [21]。分析原因,有可能是 由對(duì)于抓取的數(shù)據(jù) 處理不夠精細(xì) , 導(dǎo)致 數(shù)據(jù)可能還存在有噪聲等問題 。 SPSS 軟件可以對(duì)數(shù)據(jù)進(jìn)行可視的離散化處理,并有等寬離散以及根據(jù)屬性的平均或選定標(biāo)準(zhǔn)差離散等選擇,如下 圖所示: 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 35 頁 圖 47 離散分割標(biāo)準(zhǔn)選擇 圖 48 YEAR 屬性離散化處理 圖 49 Friend 屬性離散化處理 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 36 頁 圖 410 Picture 屬性離散化處理 聚類分析 聚類算法選取 為了判斷哪種聚類算法是最優(yōu)選擇,本 文選取 少量數(shù)據(jù),通過 Weka軟件進(jìn)行了試運(yùn)算。 ? 離散化可以有效地克服數(shù)據(jù)中隱藏的缺陷:使模型結(jié)果更加穩(wěn)定。 圖 45 LOG 屬性恢復(fù)正常 SPSS 描述數(shù)據(jù)特征 在數(shù)據(jù)挖掘之前最好能夠?qū)λ@數(shù)據(jù) 的各項(xiàng)屬性特征有所了解,則通過 SPSS 對(duì)數(shù)據(jù)集進(jìn)行特征描述 ,如下圖 所示 : 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 34 頁 圖 46 數(shù)據(jù)集特征 通過 SPSS 離散化數(shù)據(jù) 離散化指把連續(xù)型數(shù)據(jù)切分為若干“段”,也稱 bin,是數(shù)據(jù)分析中常用的手段。 是一款應(yīng)用十分廣泛的統(tǒng)計(jì)分析軟件。 圖 42 通過 ARFFViewer 查看數(shù)據(jù) 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 31 頁 SPSS( Statistical Product and Service Solutions), 中文譯作“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件 。圖 41 顯示了所獲取的數(shù)據(jù)集片段: 圖 41 人人網(wǎng)用戶行為屬性數(shù)據(jù)集片段 示例 ( CSV 格式) 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 30 頁 以此為基礎(chǔ),本文將 分別采用 WEKA 與 SPSS 軟件對(duì)采集資料進(jìn)行數(shù)據(jù)挖掘 與分析。而如果我們直接指定用戶 ID就能北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 27 頁 固定出現(xiàn)此用戶的相關(guān)信息,沿著這個(gè)思路就找到了不需要登陸下的數(shù)據(jù)采集方案 ,其實(shí)現(xiàn)代 碼如下: 圖 313 不登錄網(wǎng)站獲取信息 但是,目標(biāo)是收集 1 萬條以上的記錄,分析發(fā)現(xiàn)在同一個(gè)搜索條件下,最多能看到 500 多條記錄,顯然根據(jù)一個(gè)搜索條件是不夠的,這就需要構(gòu)造多個(gè)搜索條件 來進(jìn)行大量數(shù)據(jù)查詢 。 圖 37 主要使用模塊 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 24 頁 UID 獲取 ? 首先根據(jù)學(xué)校名字以及入學(xué)年份搜索到 uid,如下圖所示 圖 38 輸入學(xué)校名稱并簡單判斷 圖 39 獲取 UID代碼 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 25 頁 圖 310 獲取 UID部分代碼 圖 311 最終獲取 UID ? 通過 UID 獲取用戶其他信息 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 26 頁 圖 312 通過 UID獲取信息 CSV 格式對(duì)數(shù)據(jù)進(jìn)行輸出 由于 Weka軟件可以對(duì) csv格式數(shù)據(jù)進(jìn)行識(shí)別,則只需在抓取的每個(gè)屬性之間加半角逗號(hào)(即 ,)作為分隔符即可: 圖 312 數(shù)據(jù)輸出格式設(shè)置 爬蟲 設(shè)計(jì)過程 中克服的 技術(shù) 難點(diǎn) 在登陸人人網(wǎng)后, 默認(rèn)情況下遇到的第一個(gè)界面是用戶登陸界面,正常情況下會(huì)通過登錄網(wǎng)站然后收集數(shù)據(jù)。它常被昵稱為膠水語言,它能夠很輕松的把用其他語言制作的各種模塊(尤其是C/C++)輕松地聯(lián)結(jié)在一起。使用 re模塊的一般步驟如下: ? 先將正則表達(dá)式的字符串形式編譯為 Pattern實(shí)例, 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 23 頁 ? 然后使用 Pattern實(shí)例處理文本并獲得匹配結(jié)果 。本文主要通過它對(duì)網(wǎng)頁頁面代碼進(jìn)行分析,如下圖所示: 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 22 頁 圖 36 通過 firebug對(duì)網(wǎng)頁代碼進(jìn)行查閱 在觀察到網(wǎng)頁代碼后,可制定對(duì)應(yīng)的定向爬蟲實(shí)現(xiàn)方案,例如從哪個(gè)頁面開始,需要從這個(gè)頁面中獲得什么關(guān)鍵信息,哪些信息會(huì)在下一個(gè)頁面中作為輸入等,將整個(gè)流程進(jìn)行整理,并判斷什么情況下應(yīng)當(dāng)結(jié)束爬蟲,最后再通過正則表達(dá)式來提取數(shù)據(jù)并實(shí)行定制爬蟲。 先啟動(dòng) wireshark程序,在 captureoptions 在彈出界面里選中你的網(wǎng)卡,雙擊,會(huì)彈出如下圖所示的設(shè)置規(guī)則處。通過定制人人網(wǎng)定向型爬蟲,抓取指定網(wǎng)站 上的數(shù)據(jù)。 ? 存在于第三 方組件里的 URL 在 flash、 sil
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1