freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析-文庫吧資料

2025-05-15 19:30本頁面
  

【正文】 前言則明確反映;在文字量上前言 一般 多于摘要。 ( 4)概括成果及意義。 ( 2)對本課題已有研究情況的評述。目錄可分章節(jié),每一章節(jié)之后應(yīng)編寫頁碼。 ( 5)既要寫得簡短扼要,又要行文活潑,在詞語潤色、表達(dá)方法和章法結(jié)構(gòu)上要盡可能寫得有文采,以喚起讀者對全文的閱讀的興趣。 ( 3)成果和結(jié)論性意見是摘要的重點(diǎn)內(nèi)容,在文字上用量 較多,以加深讀者的印象。在寫作中要注意以下幾點(diǎn): ( 1)用精練、概括的語言表達(dá),每項(xiàng)內(nèi)容均不宜展開論證。 關(guān)鍵詞 35 個(gè)。 字體為 2.中外文摘要 及關(guān)鍵詞 摘要也稱內(nèi)容提要,應(yīng)當(dāng)以濃縮的形式概括研究課題的主要內(nèi)容、方法和觀點(diǎn),以及取得的主要成果和結(jié)論,應(yīng)反映整個(gè)論文的精華。 二 、畢業(yè)論文撰寫的主要內(nèi)容與基本要求 1.題目 題目應(yīng)該簡短、明確,要有概括性,讓人看后能大致了解文章的確切內(nèi)容、專業(yè)的特點(diǎn) 和學(xué)科的范疇。 8.參考文獻(xiàn) 應(yīng)列出主要參考文獻(xiàn) 。 6.結(jié)論 概括說明本設(shè)計(jì)的情況和價(jià)值 ,分析其優(yōu)點(diǎn)、特色,有何創(chuàng)新,性能達(dá)到何水平,并指出其中存在的問題和今后的改進(jìn)方向 。 ( 4)方案的校驗(yàn):說明所設(shè)計(jì)的系統(tǒng)是否滿足各項(xiàng)性能指標(biāo)的北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 3 頁 要求,能否達(dá)到預(yù)期效果。 ( 2)設(shè)計(jì)及計(jì)算部分:這是設(shè)計(jì)說明書的重要組成部分,應(yīng)詳細(xì)寫明設(shè)計(jì)結(jié)果及計(jì)算結(jié)果。 5.正文 ( 1)設(shè)計(jì)方案論證:應(yīng)說明設(shè)計(jì)原理并進(jìn)行方案選擇。 3.目錄 主要內(nèi)容的目錄。中文摘要約300 字左右;外文摘要約 250 個(gè)實(shí)詞左右。 一 、畢業(yè)設(shè)計(jì)說明書撰寫的主要內(nèi)容與基本要求 一份完整的畢業(yè)設(shè)計(jì)說明書應(yīng)包括如下主要內(nèi)容: 1.題目 設(shè)計(jì)課題名稱,要求簡潔、確切、鮮明。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 1 頁 參考: 畢 業(yè) 論 文 論文題目 學(xué) 院 專 業(yè) 年 級 姓 名 指導(dǎo)教師 職 稱 ( 200 年 月) 教務(wù)處制 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 2 頁 畢業(yè)設(shè)計(jì)說明書與畢業(yè)論文撰寫的 規(guī)范化 要求 一篇完整的畢業(yè)設(shè)計(jì)說明書或畢業(yè)論文有題目、摘要 及關(guān)鍵詞 、目錄、引言(前言)、正文 、結(jié)論、謝辭 、 參考文獻(xiàn)、附錄等幾部分構(gòu)成。 同時(shí) 可 對數(shù)據(jù)進(jìn)行規(guī)范化與離散化的處理,如 利用縮放和平移參數(shù),將數(shù)值屬性值規(guī)范到任何區(qū)間 ,而通過進(jìn)行監(jiān)督和無監(jiān)督的數(shù)值屬性的離散化, 則 可以 離散數(shù)據(jù)集中的一些數(shù)值屬性到分類屬性。 研究問題 2: 對數(shù)據(jù)進(jìn)行更加精細(xì)化的處理 限于時(shí)間等因素, 本 文 采集到的數(shù)據(jù) 處理 總體仍然 比較粗糙 , 、 這也 可能造成了許多 算法都不能對本數(shù)據(jù)進(jìn)行分析, 這 是比較遺憾的地方。另外這次 數(shù)據(jù)挖掘 也僅僅使用了 Weka 軟件中一種分析方法,希望下次能夠不光對數(shù)據(jù)進(jìn)行聚類分析,同時(shí)也能夠進(jìn)行分類、關(guān)聯(lián)規(guī)則等其他方式的數(shù)據(jù)挖掘。 進(jìn)一步研究的問題 研究問題 1: 獲取更多的數(shù)據(jù)屬性 畢業(yè)設(shè)計(jì)的完成只是 抓取了 8 個(gè)屬性的數(shù)據(jù)集,使得分析的結(jié)果顯得比較單薄。 而數(shù)據(jù)挖掘則是發(fā)現(xiàn)在數(shù)據(jù)相關(guān)屬性之間所隱含關(guān)系 模式 的最佳手段, 因此 接下來就需要 通過 數(shù)據(jù)挖掘軟件 對 數(shù)據(jù) 進(jìn)行 進(jìn)一步 分析 ,挖掘出其中隱含的知識模式 。本文通過設(shè)計(jì)定向爬蟲來抓取人人網(wǎng)北京交通大學(xué)用戶的相關(guān)屬性,并最終獲得了大量有效數(shù)據(jù)。 然而人們想 從海量的、不完全的、有噪聲的、模糊隨機(jī)的數(shù)據(jù)中 獲取有效的相關(guān)數(shù)據(jù)卻 并不容易,因此選擇合理的數(shù)據(jù)采集手段對于獲取有效數(shù)據(jù)十分重要。而 基本所有屬性值都是α類 γ類 β類 ,大致 可以推測出目前人人網(wǎng)的用戶數(shù)量也是α類 γ類 β類,如圖所示: 圖 410 3 個(gè)聚類簇的屬性值分布 可以說通過 EM 算法得出的聚類都能夠得到較好的解釋,這也是一次比較成功的聚類分析 。 另外γ類的日志數(shù)數(shù)量明顯低于另外兩類,也進(jìn)一步佐證了前面所提到的 現(xiàn)階段中年人與青少年在上網(wǎng)習(xí)慣上的不同之處 —— 他們更加喜歡用文字而不是多媒體來表達(dá)感情 。這主要是由于 07 年之后不斷涌現(xiàn)出各種新的社交網(wǎng)站以及 10 年之后出現(xiàn)各種新 形式 的 社交元素對人人網(wǎng)造成了極大的競爭壓力。 而α類幾乎所有屬性都高于后兩類的原因則在于 他們的 入學(xué)平均時(shí)間在2021 年 7 月 ,這一時(shí)期是校內(nèi)網(wǎng)發(fā)展的黃金時(shí)間段,幾乎沒有競爭對手,用戶對于校內(nèi)網(wǎng)的忠誠度都很高,可以說α 類的用戶 是現(xiàn)在人人網(wǎng)的核心用戶,如何維護(hù)好這部分客戶的關(guān)系,保持用戶黏性是維持人人網(wǎng)穩(wěn)定發(fā)展的關(guān)鍵因素。 以 β類 為例 ,由于 人人網(wǎng) 前身校內(nèi)網(wǎng) 誕生于 2021 年,而當(dāng)時(shí)的校內(nèi)網(wǎng)只邀請大學(xué)生進(jìn)行注冊,而β類的平均入學(xué)年份在 月,因此大部分β類都沒有注冊校內(nèi)網(wǎng),因此β類好友數(shù)量與訪客數(shù)量遠(yuǎn)低于α類與γ類。 聚類 結(jié)果分析 算法結(jié)果 圖 47 顯示了 采用 EM 算法 所得到的聚類結(jié)果。 算法運(yùn)行參數(shù)界面如圖 48 所示。 M 步驟:重新估計(jì)分布參數(shù),以使得數(shù)據(jù)的似然性最大 ,給出未知變量的期望估計(jì)。 第二 步上找到的參數(shù)估計(jì)值被用于下一個(gè) 期望 計(jì)算 步驟 中,這個(gè)過程不斷交替進(jìn)行 ,形成一個(gè)迭代過程 。因此本文最終選取EM 算法對數(shù)據(jù)進(jìn)行挖掘 [21]。這種方法可以廣泛地應(yīng)用于處理缺損數(shù)據(jù), 截尾數(shù)據(jù) , 帶有噪聲等所謂的不完全數(shù)據(jù) (inplete data)。分析原因,有可能是 由對于抓取的數(shù)據(jù) 處理不夠精細(xì) , 導(dǎo)致 數(shù)據(jù)可能還存在有噪聲等問題 。 圖 44 顯示了采用SimpleKMeans 算法所得到的聚類結(jié)果。 SPSS 軟件可以對數(shù)據(jù)進(jìn)行可視的離散化處理,并有等寬離散以及根據(jù)屬性的平均或選定標(biāo)準(zhǔn)差離散等選擇,如下 圖所示: 圖 47 離散分割標(biāo)準(zhǔn)選擇 圖 48 YEAR 屬性離散化處理 圖 49 Friend 屬性離散化處理 圖 410 Picture 屬性離散化處理 聚類分析 聚類算法選取 為了判斷哪種聚類算法是最優(yōu)選擇,本 文選取 少量數(shù)據(jù),通過 Weka 軟件進(jìn)行了試運(yùn)算。 有利于對非線性關(guān)系進(jìn)行診斷和描述:對連續(xù)型數(shù)據(jù)進(jìn)行離散處理后,自變量和目標(biāo)變量之間的關(guān)系變得清晰化。 離散化可以有效地克服數(shù)據(jù)中隱藏的缺陷:使模型結(jié)果更加穩(wěn)定。離散化數(shù)據(jù)主要有以下好處 [22]: 某些算法( 例如決策樹, NaiveBayes 等 ) 本身不能直接使用連續(xù)型變量,連續(xù)型數(shù)據(jù)只有經(jīng)離散處理后才能進(jìn)入算法引擎。 圖 45 LOG 屬性恢復(fù)正常 SPSS描述數(shù)據(jù)特征 在數(shù)據(jù)挖掘之前最好能夠?qū)λ@數(shù)據(jù) 的各項(xiàng)屬性特征有所了解,則通過SPSS 對數(shù)據(jù)集進(jìn)行特征描述 ,如下圖 所示 : 圖 46 數(shù)據(jù)集特征 通過 SPSS 離散化數(shù)據(jù) 離散化指把連續(xù)型數(shù)據(jù)切分為若干“段”,也稱 bin,是數(shù)據(jù)分析中常用的手段。而 WEKA 必須從 CSV 文件的第一行讀取屬性名, 否則就會(huì)把第一行的各屬性值讀成變量名 ,因此 在數(shù)據(jù)表頭加入屬性標(biāo)示 逐一刪除 Weka 軟件不能識別的 缺少屬性的 無效單個(gè)數(shù)據(jù) (數(shù)據(jù)足夠多無需做缺失值處理) 刪除對最終 結(jié)果不產(chǎn)生影響的屬性 UID 將 SEX 屬性數(shù)值化,將男性設(shè)為數(shù)值 1,女性設(shè)為數(shù)值 2 經(jīng)過上述操作后, 通過 Weka 對屬性進(jìn)行可視化操作 ,可 判斷哪些數(shù)據(jù) 仍然不符合數(shù)據(jù)挖掘 處理 的要求,如圖 42 所示 : 圖 43 屬性圖形化處理 通過上圖可以很明顯的看出 ID 與 LOG 屬性需要進(jìn)行 進(jìn)一步 處理,考慮到用戶 ID 不會(huì)對結(jié)果造成影響, 屬于用戶行為的無關(guān)屬性, 所以直接將其忽略 。 是一款應(yīng)用十分廣泛的統(tǒng)計(jì)分析軟件。 其中 自帶 11 種類型 136 個(gè)函數(shù)。 圖 42 通過 ARFFViewer 查看數(shù)據(jù) SPSS( Statistical Product and Service Solutions), 中文譯作“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件 。 WEKA 軟件的標(biāo)準(zhǔn)應(yīng)用格式是 ARFF,但它也對 DATA 和 CSV 等幾個(gè)常用格式進(jìn)行支持 ,如下圖所示 。圖 41 顯示了所獲取的數(shù)據(jù)集片段: 圖 41 人人網(wǎng)用戶行為屬性數(shù)據(jù)集片段 示例 ( CSV 格式) 以此為基礎(chǔ),本文將 分別采用 WEKA 與 SPSS 軟件對采集資料進(jìn)行數(shù)據(jù)挖掘 與分析。其運(yùn)行結(jié)果如圖316 和圖 315 所示。而如果我們直接指定用戶 ID 就能固定出現(xiàn)此用戶的相關(guān)信息,沿著這個(gè)思路就找到了不需要登陸下的數(shù)據(jù)采集方案 ,其實(shí)現(xiàn)代 碼如下: 圖 313 不登錄網(wǎng)站獲取信息 但是,目標(biāo)是收集 1 萬條以上的記錄,分析發(fā)現(xiàn)在同一個(gè)搜索條件下,最多能看到 500 多條記錄,顯然根據(jù)一個(gè)搜索條件是不夠的,這就需要構(gòu)造多個(gè)搜索條件 來進(jìn)行大量數(shù)據(jù)查詢 。再分析就發(fā)現(xiàn),其搜索入口頁面可以在不登陸下的情況也能使用,并且在搜索頁面可獲取我們需要的部分?jǐn)?shù)據(jù)。 圖 37 主要使用模塊 UID 獲取 首先根據(jù)學(xué)校名字以及入學(xué)年份搜索到 uid,如下圖所示 圖 38 輸入學(xué)校名稱并簡單判斷 圖 39 獲取 UID 代碼 圖 310 獲取 UID 部分代碼 圖 311 最終獲取 UID 通過 UID 獲取用戶其他信息 圖 312 通過 UID 獲取信息 以 CSV 格式對數(shù)據(jù)進(jìn)行輸出 由于 Weka 軟件可以對 csv 格式數(shù)據(jù)進(jìn)行識別,則只需在抓取的每個(gè)屬性之間加半角逗號(即 ,)作為分隔符即可: 圖 312 數(shù)據(jù)輸出格式設(shè)置 爬蟲 設(shè)計(jì)過程 中克服的 技術(shù) 難點(diǎn) 在登陸人人網(wǎng)后, 默認(rèn)情況下遇到的第一個(gè)界面是用戶登陸界面,正常情況下會(huì)通過登錄網(wǎng)站然后收集數(shù)據(jù)。 本爬蟲主要通過 python 模塊 urllib2 獲取 URL,并通過該模塊 來處理 基本的認(rèn)證以及 cookies 等。它常被昵稱為膠水語言,它能夠很輕松的把用其他語言制作的各種模塊(尤其是C/C++)輕松地聯(lián)結(jié)在一起。 Python 是一種面向?qū)ο?、直譯式計(jì)算機(jī)程序設(shè)計(jì)語言,由 Guido van Rossum于 1989 年底發(fā)明,第一個(gè)公開發(fā)行版發(fā)行于 1991 年。使用 re 模塊的一般步驟如下: 先將正則表達(dá)式的字符串形式編譯為 Pattern 實(shí)例, 然后使用 Pattern 實(shí)例處理文本并獲得匹配結(jié)果 。 在抓取網(wǎng)頁的過程中,人人網(wǎng)頁面有許多不相關(guān)內(nèi)容在其中, 因此需要通過正則表達(dá)式進(jìn)行數(shù)據(jù)提取。本文主要通過它對網(wǎng)頁頁面代碼進(jìn)行分析,如下圖所示: 圖 36 通過 firebug 對網(wǎng)頁代碼進(jìn)行查閱 在觀察到網(wǎng)頁代碼后,可制定對應(yīng)的定向爬蟲實(shí)現(xiàn)方案,例如從哪個(gè)頁面開始,需要從這個(gè)頁面中獲得什么關(guān)鍵信息,哪些信息會(huì)在下一個(gè)頁面中作為輸入等,將整個(gè)流程進(jìn)行整理,并判斷什么情況下應(yīng)當(dāng)結(jié)束爬蟲,最后再通過正則表達(dá)式來提取數(shù)據(jù)并實(shí)行定制爬蟲。確定之后開始等操作下來就可開始抓包。 先啟動(dòng) wireshark 程序,在 captureoptions 在彈出界面里選中你的網(wǎng)卡,雙擊,會(huì)彈出如下圖所示的設(shè)置規(guī)則處。網(wǎng)絡(luò)封包分析軟件的功能是擷取網(wǎng)絡(luò)封包,并盡可能顯示出最為詳細(xì)的網(wǎng)絡(luò)封包資料。通過定制人人網(wǎng)定向型爬蟲,抓取指定網(wǎng)站 上的數(shù)據(jù)。silverlight 以及一些其他第三方組件也是類似。 存在于第三 方組件里的 URL 在 flash、 silverlight 等其他第三方組件里也存在 URL 鏈接,這些鏈接的生成需要對應(yīng)的組件來解釋。比如:在 json 的任意一個(gè)位置,都可能是一個(gè) URL,也可能看著像是 URL,實(shí)際上只是一個(gè)不存在的 URL 字符串。 用戶交互中產(chǎn)生的新 鏈接 HTTP 協(xié)議是請求 響應(yīng)式的交互型模型,在 WEB 時(shí)代又在這一模型上深入發(fā)展,請求響應(yīng)的形式更加多樣化。 動(dòng)態(tài)生成的鏈接 這里說的動(dòng)態(tài)生成的鏈接是指通過 javasript/vbscript 生成的鏈接,它們需要通過 script 腳本解釋引擎來組裝生成,如下偽代碼: 圖 33 script 腳本動(dòng)態(tài)生成鏈接代碼 從這段偽代碼中,我們無法直接看出來存在什么鏈接,分析代碼可知,變量 URL 由 3 個(gè)部分組成 , path、 page 還有用戶輸入的 id 值。
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1