freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡用戶行為分析畢業(yè)設計論文-wenkub

2023-07-07 13:35:58 本頁面
 

【正文】 社交網(wǎng)絡的研究是基于狹義上的社交網(wǎng)絡.將選取國內(nèi)的社交網(wǎng)絡服務網(wǎng)站人人網(wǎng)為數(shù)據(jù)來源。社交網(wǎng)絡含義包括硬件、軟件、服務及應用,狹義上講它是指建立在真實人際關系基礎上的網(wǎng)絡平臺,是作為現(xiàn)實中的社會團體在互聯(lián)網(wǎng)上交流的輔助工具而存在,是現(xiàn)實活動的北京交通大學畢業(yè)設計(論文) 第 7 頁 在線拓展,與傳統(tǒng)的虛擬網(wǎng)絡有很大的不同。而 BBS 則 把網(wǎng)絡社交 又向前推進了一步: 從單純的點對點交流的成本降低,推進到了點對面交流成本的降低。一個社交網(wǎng)絡的大小最大約為 150 人左右 (Dunbar39。首先介紹了網(wǎng)絡爬蟲技術的原理 與 URL 存在形態(tài),然后分析了如何制定 定向網(wǎng)絡爬蟲,最后說明了本次網(wǎng)絡爬蟲程序編碼所解決的難題與部分具體代碼。編碼過程主要分為兩步,首先通過 使用 Wireshark 抓包后 使用 python 中的urlllib 庫構造目標網(wǎng)站可識別 HTTP 協(xié)議,然后通過設計正則表達式進行數(shù)據(jù)提取 。 主要對社交網(wǎng)絡概念產(chǎn)生、發(fā)展過程進行闡述。 目前,社會科學對網(wǎng)絡行為的研究,主要集中在以下議題: ? 作為行為場域的網(wǎng)絡空間的社會特性 ? 網(wǎng)絡行為及其影響因素 雖然以上研究都已比較深入,但 大 多的都從社會學角度切入研究 宏觀 網(wǎng)絡用戶行為,內(nèi)容與社交網(wǎng)絡契合較少并偏向理論化, 方 法也大多采用問卷調(diào)查等主觀性較強的方式 , 很少有通過技術手段采集客觀數(shù)據(jù) 并通過軟件分析等方式進行研究的文獻。而在國內(nèi)的 SNS 中,人人網(wǎng) 注冊人數(shù)也已經(jīng)超過 億,活躍用戶也超過了一半,國內(nèi)互聯(lián)網(wǎng)巨頭阿里巴巴更是出資 億美元購得新浪微博 18%股份,表現(xiàn)了其對社交網(wǎng)絡發(fā)展的看好 [2]。在整個互聯(lián)網(wǎng)都走向社交化的大趨勢下,傳統(tǒng)的實名制社交網(wǎng)站也不斷增加平臺功能,在原有網(wǎng)站北京交通大學畢業(yè)設計(論文) 第 2 頁 基礎上融入以上新型的社交功能組件,尤其是將業(yè)務發(fā)展重 點轉(zhuǎn)向移動終端,進而帶動了 20xx 年社交網(wǎng)站用戶增長,同時也為社交網(wǎng)絡的進一步發(fā)展提供無限可能。 與此同時在 20xx 年之后社交網(wǎng)絡又出現(xiàn)兩大新增長點:其一微博用戶持續(xù)增長,微博用戶規(guī)模在 20xx 年達到 億,較 20xx 年底增長了 5873萬。北京交通大學畢業(yè)設計(論文) 第 1 頁 1 緒論 選題背景 社交網(wǎng)絡,簡稱 SNS( social work service) , 在 浪潮中已發(fā)展為社會化媒體中一個主要平臺。雖然微博急速擴張的階段已經(jīng)結(jié)束,但年增幅仍能達到 %;其二用戶逐漸移動化成為了社交網(wǎng)絡用戶增長的又一亮點,截至 20xx 年 12 月底,我國手機網(wǎng)民規(guī)模為 億,較上年底增加約 6440 萬人,網(wǎng)民中使用手機上網(wǎng)的人群占比由上年底的 %提升至 %,隨著手機智能化,相當一部分用戶訪問和發(fā)送微博的行為發(fā)生在手機終端上,為社交網(wǎng)站的進一 步發(fā)展提供了可能。 現(xiàn)行網(wǎng)絡中較為成熟和流行的社交網(wǎng)站有國外的 Facebook, twitter,Google+, Plurk, Flickr, Linked— in 等,而國內(nèi)也不乏人人網(wǎng)、開心網(wǎng)、豆瓣、新浪微博、騰訊微博等社交網(wǎng)絡應用或網(wǎng)站。來自市場研究機構 eMarketer 的最新數(shù)據(jù)顯示:在 20xx 年,全球超過 14 億人使用社交網(wǎng)絡,比 20xx 年增加了 19%。而本文則通過網(wǎng)絡爬蟲采集相關數(shù)據(jù),并通過數(shù)據(jù)分析軟 件 Weka 對采集數(shù)據(jù)進行數(shù)據(jù)挖掘,通過數(shù)據(jù)尋找社交網(wǎng)絡用戶行為及其影響因素,可以說是從一個比較新穎的角度分析 了 社交網(wǎng)絡用戶行為。并對社交網(wǎng)絡更加具有 時代的特點進行 描述。 論文 第二章主要討論了社交網(wǎng)絡定義與特點,并對一般社交網(wǎng)絡用戶行為動機進行分析。 論文第四章對所收集數(shù)據(jù)進行預處理,并通過 Weka 數(shù)據(jù)挖掘軟件對數(shù)據(jù)進行聚類分析,并對所獲結(jié)果做出解釋。s number)[3],平均大小約為 124 人左右 (Hill and Dunbar, 20xx),它是指社會行動者及其間關系的集合,在上世紀 90 年代之前這一詞語主要在管理學、社會學等領域應用。 隨后產(chǎn)生的 即時通信( IM)和博客( Blog) 更像是前面兩 個社交工具的升級版本,前者提高了即時效果(傳輸速度)和同時交流能力(并行處理);后者則開始體現(xiàn)社會學和心理學的理論 —— 信息發(fā)布節(jié)點開始體現(xiàn)越來越強的個體意識,因為在時間維度上的分散信息開始可以被聚合,進而成為信息發(fā)布節(jié)點的“形象”和“性格”,隨著網(wǎng)絡社交的悄悄演進,一個人在網(wǎng)絡上的形象更加趨于完整,這時候符合我們現(xiàn)在定義的社交網(wǎng)絡出現(xiàn)了。從這個定義上講,符合“真實人際關系及其衍生”的 SNS 主要有 Facebook, Linked— In. Google+以及國內(nèi)的人人網(wǎng)、開心網(wǎng)等。 社 交 網(wǎng) 絡服 務( S N S )具 有真 實 人 際 關 系基 礎 的 社 交網(wǎng) 絡 平 臺傳 統(tǒng) 虛 擬 人 際關 系 基 礎 的 社交 網(wǎng) 絡 平 臺F a c e b o o kL i n k e d I nG o o g l e +人 人 網(wǎng)開 心 網(wǎng)T w i t t e rF l i c k e r微 博T u m b u l r 圖 21 基于人際關系 的 社交網(wǎng)站分類 北京交通大學畢業(yè)設計(論文) 第 8 頁 社交網(wǎng)絡特 點 與傳統(tǒng)網(wǎng)絡類型相比,在 以下特點: ? 人際傳播回歸和社交網(wǎng)絡關系化 正如“電話代替不了握手”一樣,網(wǎng)絡上具有時并不能帶來人們內(nèi)心的親切感和信任感。社交網(wǎng)絡的 UGC(用戶生成內(nèi)容 )力量是驚人的,它使得 每個人都有一種參與感,讓每個人都可以創(chuàng)造自己的媒體。之所以會出現(xiàn)如此大的反差,這也是由于 SNS的真實性造成的。除此以外, 信息 分享成為社交網(wǎng)站用戶的主要動機也反映了科技給媒體行為帶來的變化。在這一分類中,娛樂消遣既是行為,也是動機。對于一種特定的需求下,不同 的關系所產(chǎn)生的影響因子往往是不同的。所以最近幾年,有不少學者關注于大規(guī)模網(wǎng)絡的社區(qū)挖掘技術,具有代表性算法如日本學者 Ken Wakita和 Toshiyuki Tsurumi所提出的 KT識別技術 [9]。目前,該領域的研究者主要關注如下兩方面的問題,一是如何簡化現(xiàn) 有信息相關度的算法以使得整個衡量系統(tǒng)更易于整合,二是如何改進節(jié)點間的關系衡量算法,來加強對一些特定關系的衡量,例如個人和關鍵詞相關度的計算,不同人際關系的分類等等 [10]。在國內(nèi),中國互聯(lián)網(wǎng)信息中心自 97年起針對我國互聯(lián)網(wǎng)的宏觀狀況、網(wǎng)民行為意識等每年發(fā)布兩次統(tǒng)計報告 。 本文對于社交網(wǎng)絡用戶行為的定義主要是指用戶對于社交網(wǎng)站基本功能與用戶生成內(nèi)容( User Generated Content,簡稱 UGC)的使用方式。聚類的另一個主要應用是數(shù)據(jù)挖掘 (多關系數(shù)據(jù)挖掘 )、時空數(shù)據(jù)庫應用 (GIS等 )、序列和異類數(shù)據(jù)分析等。 由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。評估主要分為外部有效 。具體又可分為“自底向上”和“自頂向下”兩種方案。這 個方法的指導思想就是,只要一個區(qū)域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。網(wǎng)絡爬蟲是一個功能強大的自動提取網(wǎng)頁的程序,負責收集頁面來源。 URL 存在形態(tài)分析 從聯(lián)系的角度來看,互聯(lián)網(wǎng)上的 URL可分為有聯(lián)系的和孤立的 2類,如下圖所示: 圖 32 互聯(lián)網(wǎng) URL分類 大部分的 URL都是相互關聯(lián)的,比如從 urla出發(fā),通過 urlb、 urld可到達 urlf,所有關聯(lián)的 URL最后組成了一個復雜的網(wǎng)絡結(jié)構。 ? 動態(tài)生成的鏈接 這里說的動態(tài)生成的鏈接是指通過 javasript/vbscript生成的鏈接,它們需要通過 script腳本解釋引擎來組裝生成,如下偽代碼: 圖 33 script腳本動態(tài)生成鏈接代碼 從這段偽代碼中,我們無法直接看出來存在什么鏈接,分析代碼可知,變量 URL由 3個部分組成 , path、 page還有用戶輸入的 id值。比如:在 json的任意一個位置,都可能是一個 URL,也可能看著像是 URL,實際上只是一個不存在的 URL字符串。silverlight以及一些其他第三方組件也是類似。網(wǎng)絡封包分析軟件的功能是擷取網(wǎng)絡封包,并盡可能顯示出最為詳細的網(wǎng)絡封包資料。確定之后開始等操作下來就可開始抓包。 在抓取網(wǎng)頁的過程中,人人網(wǎng)頁面有許多不相關內(nèi)容在其中, 因此需要通過正則表達式進行數(shù)據(jù)提取。 Python是一種面向?qū)ο?、直譯式計算機程序設計語言,由 Guido van Rossum于 1989年底發(fā)明,第一個公開發(fā)行版發(fā)行于 1991年。 本爬蟲主要通過 python模塊 urllib2獲取 URL,并通過該模塊 來處理 基本的認證以及 cookies等。再分析就發(fā)現(xiàn),其搜索入口頁面可以在不登陸下的情況也能使用,并且在搜索頁面可獲取我們需要的部分數(shù)據(jù)。其運行結(jié)果北京交通大學畢業(yè)設計(論文) 第 28 頁 如圖 316 和圖 315 所示。WEKA 軟件的標準應用格式是 ARFF,但它也對 DATA 和 CSV 等幾個常用格式進行支持 ,如下圖所示 。 其中 自帶 11 種類型 136 個函數(shù)。而 WEKA 必須從 CSV 文件的第一行讀取屬性 名, 否則就會把第一行的各屬性值讀成變量名 ,因此 在數(shù)據(jù)表頭加入屬性標示
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1