正文內(nèi)容

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計論文(編輯修改稿)

2025-08-14 13:35 本頁面

　

【文章內(nèi)容簡介】的對象相異。但目前對于聚類并無一個學(xué)術(shù)上的統(tǒng)一定義，這里使用出 Everitt在 1974年關(guān)于聚類所下的定義：一個類簇內(nèi)的實體是相似的，不同類簇的實體是不相似的；一個類簇是測試空間中點的會聚，同一類簇的任意兩個點間的距離小于不同類簇的任意兩個點間的距離；類簇可以描述為一個包含密度相對較高的點集的多維空間中的連通區(qū)域，它們借助包含密度相對較低的點集的區(qū)域與其他區(qū)域 (類簇 )相分離 [14]。 ? 數(shù)據(jù)準(zhǔn)備：包括特征標(biāo)準(zhǔn)化和降維 ? 特征選擇：從最初的特征中選擇最有效的特征 ,并將其存儲于向量中。 ? 特征提取：通過對所選擇的特征進(jìn)行轉(zhuǎn)換形成新的突出特征 ? 聚類：首先選擇合適特征類型的某種距離函數(shù)（或構(gòu)造新的距離函數(shù)）進(jìn)行接近程度的度量而后執(zhí)行聚類 ? 聚類結(jié)果評估：是指對聚類結(jié)果進(jìn)行評估。評估主要分為外部有效。 ? 性評估、內(nèi)部有效性評估和相關(guān)性測試評估北京交通大學(xué)畢業(yè)設(shè)計（論文）第 14 頁聚類分析方法由于多維數(shù)據(jù)集的復(fù)雜性，要求有不同的聚類方法對各種復(fù)雜數(shù)據(jù)類型進(jìn)行分析。目前主要的聚類分析方法有以下幾種： ? 劃分式聚類 (partitioning methods) 劃分式聚類需要預(yù)先指定聚類數(shù)目或聚類中心，通過反復(fù)迭代運算，逐步降低目標(biāo)函數(shù)的誤差值，當(dāng)目標(biāo)函數(shù)值收斂時，得到最終聚類結(jié)果。使用這個基本思想的算法有： KMEANS算法、 KMEDOIDS算法、模糊聚類算法以及圖論算法 [15] ? 層次方法 (hierarchical methods) 這種方法對給定的數(shù)據(jù)集進(jìn)行層次似的分解，直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中，初始時每一個數(shù)據(jù)紀(jì)錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合并成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有： BIRCH算法、 CURE算法、 CHAMELEON算法等 [16] ? 基于密度的方法 (densitybased methods) 基于密度的方法與其它方法的一個根本區(qū)別是：它不是基于各種各樣的距離的，而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點。這個方法的指導(dǎo)思想就是，只要一個區(qū)域中的點的密度大過某個閥值，就把它加到與之相近的聚類中去。代表算法有： DBSCAN算法、 OPTICS算法、 DENCLUE算法等 ? 基于網(wǎng)格的方法 (gridbased methods) 這種方法首先將數(shù)據(jù)空間劃分成為有限個單元（ cell）的網(wǎng)格結(jié)構(gòu) ,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優(yōu)點就是處北京交通大學(xué)畢業(yè)設(shè)計（論文）第 15 頁理速度很快，通常這是與目標(biāo)數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的，它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。代表算法有： STING算法、 CLIQUE算法、WAVECLUSTER算法 ? 基于模型的方法 (modelbased methods) 基于模型的方法給每一個聚類假定一個模型，然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在的假定就是：目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。通常有兩種嘗試方向：統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案 [17]。技術(shù)方法框架本文以數(shù)據(jù)挖掘的交叉產(chǎn)業(yè)標(biāo)準(zhǔn)過程 ()作為參考 [18]，結(jié)合具體的社交網(wǎng)站數(shù)據(jù)挖掘需求，構(gòu)建如下圖技術(shù)方法框架：定義社交網(wǎng) 絡(luò) 用戶行為具體內(nèi) 容確定網(wǎng) 頁爬取內(nèi) 容通過網(wǎng) 頁爬蟲爬取數(shù) 據(jù)選擇最合理模型進(jìn) 行解釋對數(shù) 據(jù) 進(jìn) 行聚類分析對分析結(jié) 果做出評估數(shù) 據(jù) 圖 23 社交網(wǎng)絡(luò)用戶行為數(shù)據(jù)挖掘過程北京交通大學(xué)畢業(yè)設(shè)計（論文）第 16 頁 3 基于網(wǎng)絡(luò)爬蟲技術(shù)的數(shù)據(jù)采集網(wǎng)絡(luò)爬蟲工作原理網(wǎng)絡(luò)爬蟲基本工作原理網(wǎng)絡(luò)爬蟲，即 Spider , 通常是指遵循 HTTP協(xié)議、根據(jù)其中的超鏈接以及 WEB頁面文檔之間的索引關(guān)系來遍歷萬維網(wǎng)信息空間的軟件程序。網(wǎng)絡(luò)爬蟲是一個功能強(qiáng)大的自動提取網(wǎng)頁的程序，負(fù)責(zé)收集頁面來源。網(wǎng)絡(luò)爬蟲通過訪問某一 URL頁面，來獲得此頁面內(nèi)其他 URL，并且根據(jù)這些 URL來遍歷這個站點或者跳轉(zhuǎn)到其他站點，從而實現(xiàn)遍歷整個互聯(lián)網(wǎng)空間，進(jìn)而獲得需要的 URL集合。其主要工作原理如下圖所示 [19]：圖 31 網(wǎng)絡(luò)爬蟲基本原理如上所述，常見的搜索引擎類網(wǎng)絡(luò)爬蟲負(fù)責(zé)收集互聯(lián)網(wǎng)世界的所有頁面并且存儲下來。除了以上通用爬蟲之外，還有一些定向爬蟲負(fù)責(zé)在一些北京交通大學(xué)畢業(yè)設(shè)計（論文）第 17 頁細(xì)分領(lǐng)域收集特定信息。 URL 存在形態(tài)分析從聯(lián)系的角度來看，互聯(lián)網(wǎng)上的 URL可分為有聯(lián)系的和孤立的 2類，如下圖所示：圖 32 互聯(lián)網(wǎng) URL分類大部分的 URL都是相互關(guān)聯(lián)的，比如從 urla出發(fā)，通過 urlb、 urld可到達(dá) urlf，所有關(guān)聯(lián)的 URL最后組成了一個復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。但是也存在一些 URL，比如 url url2等是相對孤立的，試圖從 urla系列以及 url1等頁面直接來獲得另外 url url3是不可能的。從 URL的出現(xiàn)位置來可看，我們可將 URL的出現(xiàn)位置分為如下幾類： ? HTML靜態(tài)標(biāo)簽 HTML靜態(tài)頁面中存在大量 URL入口，比如某頁面存在 A標(biāo)簽： a href= /a ，通過解析 A標(biāo)簽的結(jié)構(gòu)，我們知道這里存在一個新的 url鏈接似的標(biāo)簽還有： img src=” form action=/ method=POST 北京交通大學(xué)畢業(yè)設(shè)計（論文）第 18 頁 frame src= / script src= / ...... 因為這些鏈接是靜止在頁面內(nèi)，屬于比較容易發(fā)現(xiàn)的鏈接類型。在頁面下載回來后，我們甚至可簡單地通過正則表達(dá)式查找出這些鏈接。 ? 動態(tài)生成的鏈接這里說的動態(tài)生成的鏈接是指通過 javasript/vbscript生成的鏈接，它們需要通過 script腳本解釋引擎來組裝生成，如下偽代碼：圖 33 script腳本動態(tài)生成鏈接代碼從這段偽代碼中，我們無法直接看出來存在什么鏈接，分析代碼可知，變量 URL由 3個部分組成， path、 page還有用戶輸入的 id值。明顯地，要知北京交通大學(xué)畢業(yè)設(shè)計（論文）第 19 頁道最后的 URL，需要在輸入框里輸入數(shù)據(jù)并且觸發(fā)這個函數(shù)執(zhí)行。 ? 用戶交互中產(chǎn)生的新鏈接 HTTP協(xié)議是請求響應(yīng)式的交互型模型，在 WEB 上深入發(fā)展，請求響應(yīng)的形式更加多樣化。云計算所使用的技術(shù)也大量使用了 WEB ， ajax數(shù)據(jù)請求方式被廣泛使用， json、 xml等格式的數(shù)據(jù)傳遞給爬蟲的 URL發(fā)現(xiàn)帶來了困難。比如：在 json的任意一個位置，都可能是一個 URL，也可能看著像是 URL，實際上只是一個不存在的 URL字符串。為了確認(rèn)其是否為 URL，需要觀察其行為表現(xiàn)，這些數(shù)據(jù)從服務(wù)端返回后，客戶端實際去訪問的 URL字符串才是爬蟲真正需要尋找的目標(biāo)。 ? 存在于第三方組件里的 URL 在 flash、 silverlight等其他第三方組件里也存在 URL鏈接，這些鏈接的生成需要對應(yīng)的組件來解釋。在 flash應(yīng)用中，我們點擊某些按鈕時，會觸發(fā)一些新的網(wǎng)絡(luò)請求，這些請求是通過內(nèi)嵌的 ActionScript來驅(qū)動的。silverlight以及一些其他第三方組件也是類似。定向爬蟲定制本文以人人網(wǎng) 數(shù)據(jù) 為具體案例進(jìn)行分析，因而需要對人人網(wǎng)特定數(shù)據(jù)進(jìn)行抓取。通過定制人人網(wǎng)定向型爬蟲，抓取指定網(wǎng)站上的數(shù)據(jù)。北京交通大學(xué)畢業(yè)設(shè)計（論文）第 20 頁通過 wireshark 抓包法分析 HTTP 協(xié)議 Wireshark（前稱 Ethereal）是一個網(wǎng)絡(luò)封包分析軟件。網(wǎng)絡(luò)封包分析軟件的功能是擷取網(wǎng)絡(luò)封包，并盡可能顯示出最為詳細(xì)的網(wǎng)絡(luò)封包資料。本文通過 Wireshark抓取人人網(wǎng) HTTP協(xié)議。先啟動 wireshark程序，在 captureoptions 在彈出界面里選中你的網(wǎng)卡，雙擊，會彈出如下圖所示的設(shè)置規(guī)則處。簡單地，可使用規(guī)則 Host加上人人站點域名。確定之后開始等操作下來就可開始抓包。圖 34 Wireshark規(guī)則設(shè)置北京交通大學(xué)畢業(yè)設(shè)計（論文）第 21 頁圖 35 利用 Wireshark抓包過程分析網(wǎng)站行為本文通過火狐瀏覽器 +firebug來分析網(wǎng)站行為： Firebug是火狐瀏覽器下的一款開發(fā)類插件，它可以對 HTML、javascript和 CSS等進(jìn)行查看和編輯。本文主要通過它對網(wǎng)頁頁面代碼進(jìn)行分析，如下圖所示：北京交通大學(xué)畢業(yè)設(shè)計（論文）第 22 頁圖 36 通過 firebug對網(wǎng)頁代碼進(jìn)行查閱在觀察到網(wǎng)頁代碼后，可制定對應(yīng)的定向爬蟲實現(xiàn)方案，例如從哪個頁面開始，需要從這個頁面中獲得什么關(guān)鍵信息，哪些信息會在下一個

點擊復(fù)制文檔內(nèi)容

研究報告相關(guān)推薦

基于uml校園圖書管理系統(tǒng)的分析設(shè)計_畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】基于UML校園圖書管理系統(tǒng)的分析設(shè)計基于UML校園圖書管理系統(tǒng)的分析設(shè)計摘要：本文介紹利用UML統(tǒng)一建模語言并借助于Rose工具對圖書管理系統(tǒng)進(jìn)行建模，使系統(tǒng)模型直觀、簡潔、科學(xué)，提高了系統(tǒng)開發(fā)的質(zhì)量。主要內(nèi)容包括基于UML的高校圖書管理系統(tǒng)的模型分析及設(shè)計。并使用基于MVC的一體化開發(fā)過程，對高校圖書管理系統(tǒng)進(jìn)行了系統(tǒng)設(shè)計及分析

2025-07-01 09:42

基于uml校園圖書管理系統(tǒng)的分析設(shè)計畢業(yè)設(shè)計論文-資料下載頁

2025-06-23 14:00

基于linux的校園網(wǎng)絡(luò)服務(wù)平臺的構(gòu)建畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】基于Linux的校園網(wǎng)絡(luò)服務(wù)平臺的構(gòu)建摘要：數(shù)字化校園信息服務(wù)是以校園網(wǎng)為背景的、集教學(xué)、管理和娛樂為一體的信息化的工作、學(xué)習(xí)、生活環(huán)境。信息服務(wù)系統(tǒng)的方案設(shè)計選型關(guān)系到應(yīng)用系統(tǒng)正式投入使用的實際效果，同時對用戶產(chǎn)生直接影響,而Linux就是目前在網(wǎng)絡(luò)服務(wù)器上最受青睞的操作系統(tǒng)，并且Linux操作系統(tǒng)的強(qiáng)項在于強(qiáng)大而安全穩(wěn)定的網(wǎng)絡(luò)功能，所以在未來網(wǎng)

2025-06-18 15:54

基于pc的數(shù)據(jù)采集系統(tǒng)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】內(nèi)蒙古科技大學(xué)畢業(yè)設(shè)計說明書（畢業(yè)論文）畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果，也不包含我為獲得及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用

2025-07-01 14:18

基于pc的數(shù)據(jù)采集系統(tǒng)畢業(yè)設(shè)計論文-資料下載頁

2025-06-18 16:49

基于can總線的遠(yuǎn)程數(shù)據(jù)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計說明書題目：基于CAN總線的遠(yuǎn)程數(shù)據(jù)采集系統(tǒng)--下位機(jī)部分95內(nèi)蒙古科技大學(xué)畢業(yè)設(shè)計說明書（畢業(yè)論文）基于CAN總線的遠(yuǎn)程數(shù)據(jù)采集系統(tǒng)--下位機(jī)部分摘要CAN總線作為一種有效支持分布式控制和實時控制的技術(shù)，以其穩(wěn)定性好、可靠性高、抗干擾能力強(qiáng)、通訊速率高、維護(hù)成本低及其獨特的設(shè)計越來越受到人們的重視，并被公認(rèn)為是

2025-06-27 17:35

基于can總線的遠(yuǎn)程數(shù)據(jù)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計說明書題目：基于CAN總線的遠(yuǎn)程數(shù)據(jù)采集系統(tǒng)--下位機(jī)部分內(nèi)蒙古科技大學(xué)畢業(yè)設(shè)計說明書（畢業(yè)論文）I基于CAN總線的遠(yuǎn)程數(shù)據(jù)采集系統(tǒng)--下位機(jī)部分摘要CAN總線作為一種有效支持分布式控制和實時控制的技術(shù)，以其穩(wěn)定性好、可靠性高、抗干擾能力

2025-07-02 08:12

基于matlab的變形監(jiān)測數(shù)據(jù)處理與分析畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】南昌工程學(xué)院畢業(yè)設(shè)計(論文)水利與生態(tài)學(xué)院系（院）測繪工程專業(yè)畢業(yè)設(shè)計題目基于matlab的變形監(jiān)測數(shù)據(jù)處理與分析基于matlab的變形監(jiān)測數(shù)據(jù)處理與分析BasedontheMATLABdeformationmonitoringdataprocessingand

2025-06-25 01:48

基于matlab的變形監(jiān)測數(shù)據(jù)處理與分析_畢業(yè)設(shè)計論文-資料下載頁

2025-07-01 15:41

基于net的數(shù)據(jù)共享網(wǎng)站的設(shè)計—畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計(論文)基于.NET的數(shù)據(jù)共享網(wǎng)站的設(shè)計論文作者姓名：申請學(xué)位專業(yè)：申請學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：基于.NET的數(shù)據(jù)共享網(wǎng)站的設(shè)計摘要《基于.NET的數(shù)據(jù)共享網(wǎng)站的設(shè)計》是運用MicrosoftVis

2024-12-01 21:23

畢業(yè)設(shè)計-基于net的數(shù)據(jù)共享網(wǎng)站的設(shè)計—論文-資料下載頁

2024-12-01 17:55

校園網(wǎng)絡(luò)組建--畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】--畢業(yè)設(shè)計論文校園網(wǎng)絡(luò)設(shè)計方案目錄前言....................................................................1第1章需求分析.........................................................1

2024-11-30 20:44

基于asp的校園網(wǎng)站設(shè)計_畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】畢業(yè)設(shè)計（論文）專用紙第1頁共46頁畢業(yè)設(shè)計論文：基于ASP的校園網(wǎng)站設(shè)計第一章.緒論前言Inter正在改變世界，由于Inter具有傳播信息容量極大、形態(tài)多樣、迅速方

2025-07-02 10:04

基于jsp的網(wǎng)絡(luò)訂餐系統(tǒng)畢業(yè)設(shè)計論文-資料下載頁

【總結(jié)】基于JSP的網(wǎng)絡(luò)訂餐系統(tǒng)畢業(yè)設(shè)計論文1引言課題開發(fā)背景隨著網(wǎng)絡(luò)經(jīng)濟(jì)的不斷發(fā)展，計算機(jī)網(wǎng)絡(luò)已經(jīng)成為人們社會生產(chǎn)和日常生活中不可缺少的部分?，F(xiàn)在各行各業(yè)都在推行信息化，以提供效益和競爭力。俗話說，民以食為天，作為傳統(tǒng)的餐飲服務(wù)行業(yè)也正面臨著越來越激烈的競爭,如何才能更好在強(qiáng)手如林的餐飲市場上站穩(wěn)腳跟并獲得利潤，電子商務(wù)的興起為傳統(tǒng)的餐飲服務(wù)行業(yè)提供了一條新的成功之路。挑戰(zhàn)是現(xiàn)實的

2025-06-27 17:31

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計論文(編輯修改稿)

基于uml校園圖書管理系統(tǒng)的分析設(shè)計_畢業(yè)設(shè)計論文-資料下載頁

基于uml校園圖書管理系統(tǒng)的分析設(shè)計畢業(yè)設(shè)計論文-資料下載頁

基于linux的校園網(wǎng)絡(luò)服務(wù)平臺的構(gòu)建畢業(yè)設(shè)計論文-資料下載頁

基于pc的數(shù)據(jù)采集系統(tǒng)畢業(yè)設(shè)計論文-資料下載頁

基于pc的數(shù)據(jù)采集系統(tǒng)畢業(yè)設(shè)計論文-資料下載頁

基于can總線的遠(yuǎn)程數(shù)據(jù)畢業(yè)設(shè)計論文-資料下載頁

基于can總線的遠(yuǎn)程數(shù)據(jù)畢業(yè)設(shè)計論文-資料下載頁

基于matlab的變形監(jiān)測數(shù)據(jù)處理與分析畢業(yè)設(shè)計論文-資料下載頁

基于matlab的變形監(jiān)測數(shù)據(jù)處理與分析_畢業(yè)設(shè)計論文-資料下載頁

基于net的數(shù)據(jù)共享網(wǎng)站的設(shè)計—畢業(yè)設(shè)計論文-資料下載頁

畢業(yè)設(shè)計-基于net的數(shù)據(jù)共享網(wǎng)站的設(shè)計—論文-資料下載頁

校園網(wǎng)絡(luò)組建--畢業(yè)設(shè)計論文-資料下載頁

基于asp的校園網(wǎng)站設(shè)計_畢業(yè)設(shè)計論文-資料下載頁

基于jsp的網(wǎng)絡(luò)訂餐系統(tǒng)畢業(yè)設(shè)計論文-資料下載頁

基于jsp的網(wǎng)絡(luò)訂餐系統(tǒng)畢業(yè)設(shè)計論文-資料下載頁

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計論文-wenkub

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計論文(已修改)

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計論文(編輯修改稿)

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計論文-wenkub.com

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析畢業(yè)設(shè)計論文(已改無錯字)