freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡用戶行為分析畢業(yè)設計論文(留存版)

2025-09-13 13:35上一頁面

下一頁面
  

【正文】 效果(傳輸速度)和同時交流能力(并行處理);后者則開始體現(xiàn)社會學和心理學的理論 —— 信息發(fā)布節(jié)點開始體現(xiàn)越來越強的個體意識,因為在時間維度上的分散信息開始可以被聚合,進而成為信息發(fā)布節(jié)點的“形象”和“性格”,隨著網(wǎng)絡社交的悄悄演進,一個人在網(wǎng)絡上的形象更加趨于完整,這時候符合我們現(xiàn)在定義的社交網(wǎng)絡出現(xiàn)了。并對社交網(wǎng)絡更加具有 時代的特點進行 描述。雖然微博急速擴張的階段已經(jīng)結束,但年增幅仍能達到 %;其二用戶逐漸移動化成為了社交網(wǎng)絡用戶增長的又一亮點,截至 20xx 年 12 月底,我國手機網(wǎng)民規(guī)模為 億,較上年底增加約 6440 萬人,網(wǎng)民中使用手機上網(wǎng)的人群占比由上年底的 %提升至 %,隨著手機智能化,相當一部分用戶訪問和發(fā)送微博的行為發(fā)生在手機終端上,為社交網(wǎng)站的進一 步發(fā)展提供了可能。而在國內的 SNS 中,人人網(wǎng) 注冊人數(shù)也已經(jīng)超過 億,活躍用戶也超過了一半,國內互聯(lián)網(wǎng)巨頭阿里巴巴更是出資 億美元購得新浪微博 18%股份,表現(xiàn)了其對社交網(wǎng)絡發(fā)展的看好 [2]。首先介紹了網(wǎng)絡爬蟲技術的原理 與 URL 存在形態(tài),然后分析了如何制定 定向網(wǎng)絡爬蟲,最后說明了本次網(wǎng)絡爬蟲程序編碼所解決的難題與部分具體代碼?;谌绱吮疚膶ι缃痪W(wǎng)絡的研究是基于狹義上的社交網(wǎng)絡.將選取國內的社交網(wǎng)絡服務網(wǎng)站人人網(wǎng)為數(shù)據(jù)來源。玩 SNS網(wǎng)站上的網(wǎng)頁游戲也是不少人每天登陸社交網(wǎng)站的動力。美國加州大學洛杉磯 分校就于 20xx起啟動了世界互聯(lián)網(wǎng)項目( World Inter Project) ,通過對不同國家和地區(qū)網(wǎng)民的網(wǎng)絡使用狀況進行調查,從而對各國互聯(lián)網(wǎng)的社會影響進行評估,其中子項目“中國互聯(lián)網(wǎng)項目”由中國社科院進行調查,并連續(xù)多年發(fā)布相關報告。 ? 特征提?。和ㄟ^對所選擇的特征進行轉換形成新的突出特征 ? 聚類:首先選擇合適特征類型的某種距離函數(shù)(或構造新的距離函數(shù))進行接近程度的度量而后執(zhí)行聚類 ? 聚類結果評估:是指對聚類結果進行評估。 技術方法框架 本文以 數(shù)據(jù)挖掘的交叉產(chǎn)業(yè)標準過程 ()作為參考 [18],結合具體的社交網(wǎng)站數(shù)據(jù)挖掘需求,構建如下圖技術方法框架: 定 義 社 交 網(wǎng) 絡 用戶 行 為 具 體 內 容確 定 網(wǎng) 頁 爬取 內 容通 過 網(wǎng) 頁 爬蟲 爬 取 數(shù) 據(jù)選 擇 最 合 理模 型 進 行 解釋對 數(shù) 據(jù) 進 行聚 類 分 析對 分 析 結 果做 出 評 估數(shù) 據(jù) 圖 23 社交網(wǎng)絡用戶行為數(shù)據(jù)挖掘過程 北京交通大學畢業(yè)設計(論文) 第 16 頁 3 基于 網(wǎng)絡爬蟲技術的 數(shù)據(jù)采集 網(wǎng)絡爬蟲工作原理 網(wǎng)絡爬蟲基本工作原理 網(wǎng)絡爬蟲,即 Spider , 通常是指遵循 HTTP協(xié)議、根據(jù)其中的超鏈接以及 WEB頁面文檔之間的索引關系來遍歷萬維網(wǎng)信息空間的軟件程序。在 flash應用中,我們點擊某些按鈕時,會觸發(fā)一些新的網(wǎng)絡請求,這些請求是通過內嵌的 ActionScript來驅動的。 本爬蟲的 具體正則表達式設計見詳細 下一節(jié) 代碼 設計 代碼設計 本爬蟲 主要通過 python語言實現(xiàn)。 Weka 的全名是懷卡托智能分析環(huán)境( Waikato Environment for Knowledge Analysis),是一款免費的,非商業(yè)化(的,基于 JAVA 環(huán)境下開源的機器學習( machine learning)以及數(shù)據(jù)挖掘( data minining)軟件 。例如,通過離散化消除數(shù)據(jù)中的極端值與異常值等影響 。 EM 算法參數(shù) 設置 本文選取了 EM 算法的缺省參數(shù),如下所示: ? MaxIterations(最大迭代次數(shù)) =100 ? MinstdDev(最小權重) = ? NumClusters(集群數(shù)) =1 ? Seed(種子數(shù) )=100 其中,最大迭代次數(shù)表示重復執(zhí)行 E 和 M 步驟,若結果不收斂,則反復迭代到 100 次結束。而本文采用的網(wǎng)絡爬蟲技術則是 在網(wǎng) 絡上獲取相關信息的一種 高效手段,網(wǎng)絡爬蟲技術是搜索引擎的核心技術。 這樣就使得 該數(shù)據(jù)集可適用于更多 數(shù)據(jù)挖掘 算法 ,從而 發(fā)現(xiàn)其中隱含的更多有趣的用戶行為模式 。 從總體來看, SEX 屬性全部小于 說明使用人人網(wǎng)用戶的男生多于女生。 EM( 最大期望算法 )主要 經(jīng)過兩個步驟交替進行計算: 北京交通大學畢業(yè)設計(論文) 第 38 頁 ? 第一步是計算期望( E),利用對隱藏變量的現(xiàn)有估計值,計算其最大似然估計值; ? 第二步是最大化( M),最大化在 E 步上求得的最大似然值來計算參數(shù)的值。切分的原則有等距,等頻,優(yōu)化,或根據(jù)數(shù)據(jù)特點而定。 圖 314 設置多重搜索條件 在解決以上問題之后,順利設計出了人人網(wǎng)的爬蟲程序 。 正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯。云計算所使用的技術也大量使用了 WEB , ajax數(shù)據(jù)請求方式被廣泛使用, json、 xml等格式的數(shù)據(jù)傳遞給爬蟲的 URL發(fā)現(xiàn)帶來了困難。代表算法有: STING算法、 CLIQUE算法、WAVECLUSTER算法 ? 基 于模型的方法 (modelbased methods) 基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。 從宏觀上講聚類是 將物理或抽象對象的集合分成由類似的對象組成的多個類的過程 。這個領域的研究大部分是利用搜索引擎來挖掘人際網(wǎng)絡關系,最新的代表性技術是一種叫做 POLYPHONET的社交網(wǎng)絡抽取分析算法,該算法引入了一序列關于人際關系的識別,社區(qū)的挖掘,以及個人關鍵詞挖掘等先進技術。用戶對別人發(fā)的帖子,上傳的照片或者別的動態(tài)發(fā)表評論 和意見,或者接受別人對自己發(fā)表內 容的反饋。社交網(wǎng)絡含義包括硬件、軟件、服務及應用,狹義上講它是指建立在真實人際關系基礎上的網(wǎng)絡平臺,是作為現(xiàn)實中的社會團體在互聯(lián)網(wǎng)上交流的輔助工具而存在,是現(xiàn)實活動的北京交通大學畢業(yè)設計(論文) 第 7 頁 在線拓展,與傳統(tǒng)的虛擬網(wǎng)絡有很大的不同。編碼過程主要分為兩步,首先通過 使用 Wireshark 抓包后 使用 python 中的urlllib 庫構造目標網(wǎng)站可識別 HTTP 協(xié)議,然后通過設計正則表達式進行數(shù)據(jù)提取 。在整個互聯(lián)網(wǎng)都走向社交化的大趨勢下,傳統(tǒng)的實名制社交網(wǎng)站也不斷增加平臺功能,在原有網(wǎng)站北京交通大學畢業(yè)設計(論文) 第 2 頁 基礎上融入以上新型的社交功能組件,尤其是將業(yè)務發(fā)展重 點轉向移動終端,進而帶動了 20xx 年社交網(wǎng)站用戶增長,同時也為社交網(wǎng)絡的進一步發(fā)展提供無限可能。 現(xiàn)行網(wǎng)絡中較為成熟和流行的社交網(wǎng)站有國外的 Facebook, twitter,Google+, Plurk, Flickr, Linked— in 等,而國內也不乏人人網(wǎng)、開心網(wǎng)、豆瓣、新浪微博、騰訊微博等社交網(wǎng)絡應用或網(wǎng)站。 論文 第二章主要討論了社交網(wǎng)絡定義與特點,并對一般社交網(wǎng)絡用戶行為動機進行分析。從這個定義上講,符合“真實人際關系及其衍生”的 SNS 主要有 Facebook, Linked— In. Google+以及國內的人人網(wǎng)、開心網(wǎng)等。除此以外, 信息 分享成為社交網(wǎng)站用戶的主要動機也反映了科技給媒體行為帶來的變化。目前,該領域的研究者主要關注如下兩方面的問題,一是如何簡化現(xiàn) 有信息相關度的算法以使得整個衡量系統(tǒng)更易于整合,二是如何改進節(jié)點間的關系衡量算法,來加強對一些特定關系的衡量,例如個人和關鍵詞相關度的計算,不同人際關系的分類等等 [10]。 由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。比如:在 json的任意一個位置,都可能是一個 URL,也可能看著像是 URL,實際上只是一個不存在的 URL字符串。 在抓取網(wǎng)頁的過程中,人人網(wǎng)頁面有許多不相關內容在其中, 因此需要通過正則表達式進行數(shù)據(jù)提取。其運行結果北京交通大學畢業(yè)設計(論文) 第 28 頁 如圖 316 和圖 315 所示。離散化數(shù)據(jù)主要有以下好處 [22]: ? 某些算法( 例如決策樹, NaiveBayes 等 ) 本身不能直接使用連續(xù)型變量,連續(xù)型數(shù)據(jù)只有經(jīng)離散處理后才能進入算法引擎。 第二 步上找到的參數(shù)估計值被用于下一個 期望 計算 步驟 中,這個過程不斷交替進行 ,形成一個迭代過程 。而 基本所有屬性值都是α類 γ類 β類 ,大致 可以推測出目前人人網(wǎng)的用戶數(shù)量也是α類 γ類 β類,如圖所示: 圖 410 3 個聚類簇的屬性值分布 可以說通過 EM 算法得出的聚類都能夠得到較好的解釋,這也是一次比較成功的聚類分析 。 北京交通大學畢業(yè)設計(論文) 第 45 頁 。 然而人們想 從海量的、不完全的、有噪聲的、模糊隨機的數(shù)據(jù)中 獲取有效的相關數(shù)據(jù)卻 并不容易,因此選擇合理的數(shù)據(jù)采集手段對于獲取有效數(shù)據(jù)十分重要。 ? M 步驟:重新估計分布參數(shù),以使得數(shù)據(jù)的似然性最大 ,給出未知變量的期望估計。 ? 離散化可以有效地克服數(shù)據(jù)中隱藏的缺陷:使
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1