freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶(hù)行為分析畢業(yè)設(shè)計(jì)論文(存儲(chǔ)版)

  

【正文】 ? 先將正則表達(dá)式的字符串形式編譯為 Pattern實(shí)例, 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 23 頁(yè) ? 然后使用 Pattern實(shí)例處理文本并獲得匹配結(jié)果 。 圖 37 主要使用模塊 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 24 頁(yè) UID 獲取 ? 首先根據(jù)學(xué)校名字以及入學(xué)年份搜索到 uid,如下圖所示 圖 38 輸入學(xué)校名稱(chēng)并簡(jiǎn)單判斷 圖 39 獲取 UID代碼 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 25 頁(yè) 圖 310 獲取 UID部分代碼 圖 311 最終獲取 UID ? 通過(guò) UID 獲取用戶(hù)其他信息 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 26 頁(yè) 圖 312 通過(guò) UID獲取信息 CSV 格式對(duì)數(shù)據(jù)進(jìn)行輸出 由于 Weka軟件可以對(duì) csv格式數(shù)據(jù)進(jìn)行識(shí)別,則只需在抓取的每個(gè)屬性之間加半角逗號(hào)(即 ,)作為分隔符即可: 圖 312 數(shù)據(jù)輸出格式設(shè)置 爬蟲(chóng) 設(shè)計(jì)過(guò)程 中克服的 技術(shù) 難點(diǎn) 在登陸人人網(wǎng)后, 默認(rèn)情況下遇到的第一個(gè)界面是用戶(hù)登陸界面,正常情況下會(huì)通過(guò)登錄網(wǎng)站然后收集數(shù)據(jù)。圖 41 顯示了所獲取的數(shù)據(jù)集片段: 圖 41 人人網(wǎng)用戶(hù)行為屬性數(shù)據(jù)集片段 示例 ( CSV 格式) 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 30 頁(yè) 以此為基礎(chǔ),本文將 分別采用 WEKA 與 SPSS 軟件對(duì)采集資料進(jìn)行數(shù)據(jù)挖掘 與分析。 是一款應(yīng)用十分廣泛的統(tǒng)計(jì)分析軟件。 ? 離散化可以有效地克服數(shù)據(jù)中隱藏的缺陷:使模型結(jié)果更加穩(wěn)定。分析原因,有可能是 由對(duì)于抓取的數(shù)據(jù) 處理不夠精細(xì) , 導(dǎo)致 數(shù)據(jù)可能還存在有噪聲等問(wèn)題 。 ? M 步驟:重新估計(jì)分布參數(shù),以使得數(shù)據(jù)的似然性最大 ,給出未知變量的期望估計(jì)。 而α類(lèi)幾乎所有屬性都高于后兩類(lèi)的原因則在于 他們的 入學(xué)平均時(shí)間在 20xx 年 7 月 ,這一時(shí)期是校內(nèi)網(wǎng)發(fā)展的黃金時(shí)間段,幾乎沒(méi)有競(jìng)爭(zhēng)對(duì)手,用戶(hù)對(duì)于校內(nèi)網(wǎng)的忠誠(chéng)度都很高,可以說(shuō)α 類(lèi)的用戶(hù) 是現(xiàn)在人人網(wǎng)的核心用戶(hù),如何維護(hù)好這部分客戶(hù)的關(guān)系,保持用戶(hù)黏性是維持人人網(wǎng)穩(wěn)定發(fā)展的關(guān)鍵因素。 然而人們想 從海量的、不完全的、有噪聲的、模糊隨機(jī)的數(shù)據(jù)中 獲取有效的相關(guān)數(shù)據(jù)卻 并不容易,因此選擇合理的數(shù)據(jù)采集手段對(duì)于獲取有效數(shù)據(jù)十分重要。另外這次 數(shù)據(jù)挖掘 也僅僅使用了 Weka 軟件中一種分析方法,希望下北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 44 頁(yè) 次能夠不光對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析,同時(shí)也能夠進(jìn)行分類(lèi)、關(guān)聯(lián)規(guī)則等其他方式的 數(shù)據(jù)挖掘。 北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 45 頁(yè) 。 進(jìn)一步研究的問(wèn)題 研究問(wèn)題 1: 獲取更多的數(shù)據(jù)屬性 畢業(yè)設(shè)計(jì)的完成只是 抓取了 8 個(gè)屬性的數(shù)據(jù)集,使得分析的結(jié)果顯得比較單薄。而 基本所有屬性值都是α類(lèi) γ類(lèi) β類(lèi) ,大致 可以推測(cè)出目前人人網(wǎng)的用戶(hù)數(shù)量也是α類(lèi) γ類(lèi) β類(lèi),如圖所示: 圖 410 3 個(gè)聚類(lèi)簇的屬性值分布 可以說(shuō)通過(guò) EM 算法得出的聚類(lèi)都能夠得到較好的解釋?zhuān)@也是一次比較成功的聚類(lèi)分析 。 以 β類(lèi) 為例 ,由于 人人網(wǎng) 前身校內(nèi)網(wǎng) 誕生于 20xx 年,而當(dāng)時(shí)的校內(nèi)網(wǎng)只邀請(qǐng)大學(xué)生進(jìn)行注冊(cè),而β類(lèi)的平均入學(xué)年份在 月,因此大部分β類(lèi)都沒(méi)有注冊(cè)校內(nèi)網(wǎng),因此β類(lèi)好友數(shù)量與訪客數(shù)量遠(yuǎn)低于α類(lèi)與γ類(lèi)。 第二 步上找到的參數(shù)估計(jì)值被用于下一個(gè) 期望 計(jì)算 步驟 中,這個(gè)過(guò)程不斷交替進(jìn)行 ,形成一個(gè)迭代過(guò)程 。 圖 44 顯示了采用 SimpleKMeans 算法所得到的聚類(lèi)結(jié)果。離散化數(shù)據(jù)主要有以下好處 [22]: ? 某些算法( 例如決策樹(shù), NaiveBayes 等 ) 本身不能直接使用連續(xù)型變量,連續(xù)型數(shù)據(jù)只有經(jīng)離散處理后才能進(jìn)入算法引擎。 其中 自帶 11 種類(lèi)型 136 個(gè)函數(shù)。其運(yùn)行結(jié)果北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 28 頁(yè) 如圖 316 和圖 315 所示。 本爬蟲(chóng)主要通過(guò) python模塊 urllib2獲取 URL,并通過(guò)該模塊 來(lái)處理 基本的認(rèn)證以及 cookies等。 在抓取網(wǎng)頁(yè)的過(guò)程中,人人網(wǎng)頁(yè)面有許多不相關(guān)內(nèi)容在其中, 因此需要通過(guò)正則表達(dá)式進(jìn)行數(shù)據(jù)提取。網(wǎng)絡(luò)封包分析軟件的功能是擷取網(wǎng)絡(luò)封包,并盡可能顯示出最為詳細(xì)的網(wǎng)絡(luò)封包資料。比如:在 json的任意一個(gè)位置,都可能是一個(gè) URL,也可能看著像是 URL,實(shí)際上只是一個(gè)不存在的 URL字符串。 URL 存在形態(tài)分析 從聯(lián)系的角度來(lái)看,互聯(lián)網(wǎng)上的 URL可分為有聯(lián)系的和孤立的 2類(lèi),如下圖所示: 圖 32 互聯(lián)網(wǎng) URL分類(lèi) 大部分的 URL都是相互關(guān)聯(lián)的,比如從 urla出發(fā),通過(guò) urlb、 urld可到達(dá) urlf,所有關(guān)聯(lián)的 URL最后組成了一個(gè)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。具體又可分為“自底向上”和“自頂向下”兩種方案。 由聚類(lèi)所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異。 本文對(duì)于社交網(wǎng)絡(luò)用戶(hù)行為的定義主要是指用戶(hù)對(duì)于社交網(wǎng)站基本功能與用戶(hù)生成內(nèi)容( User Generated Content,簡(jiǎn)稱(chēng) UGC)的使用方式。目前,該領(lǐng)域的研究者主要關(guān)注如下兩方面的問(wèn)題,一是如何簡(jiǎn)化現(xiàn) 有信息相關(guān)度的算法以使得整個(gè)衡量系統(tǒng)更易于整合,二是如何改進(jìn)節(jié)點(diǎn)間的關(guān)系衡量算法,來(lái)加強(qiáng)對(duì)一些特定關(guān)系的衡量,例如個(gè)人和關(guān)鍵詞相關(guān)度的計(jì)算,不同人際關(guān)系的分類(lèi)等等 [10]。對(duì)于一種特定的需求下,不同 的關(guān)系所產(chǎn)生的影響因子往往是不同的。除此以外, 信息 分享成為社交網(wǎng)站用戶(hù)的主要?jiǎng)訖C(jī)也反映了科技給媒體行為帶來(lái)的變化。社交網(wǎng)絡(luò)的 UGC(用戶(hù)生成內(nèi)容 )力量是驚人的,它使得 每個(gè)人都有一種參與感,讓每個(gè)人都可以創(chuàng)造自己的媒體。從這個(gè)定義上講,符合“真實(shí)人際關(guān)系及其衍生”的 SNS 主要有 Facebook, Linked— In. Google+以及國(guó)內(nèi)的人人網(wǎng)、開(kāi)心網(wǎng)等。s number)[3],平均大小約為 124 人左右 (Hill and Dunbar, 20xx),它是指社會(huì)行動(dòng)者及其間關(guān)系的集合,在上世紀(jì) 90 年代之前這一詞語(yǔ)主要在管理學(xué)、社會(huì)學(xué)等領(lǐng)域應(yīng)用。 論文 第二章主要討論了社交網(wǎng)絡(luò)定義與特點(diǎn),并對(duì)一般社交網(wǎng)絡(luò)用戶(hù)行為動(dòng)機(jī)進(jìn)行分析。而本文則通過(guò)網(wǎng)絡(luò)爬蟲(chóng)采集相關(guān)數(shù)據(jù),并通過(guò)數(shù)據(jù)分析軟 件 Weka 對(duì)采集數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,通過(guò)數(shù)據(jù)尋找社交網(wǎng)絡(luò)用戶(hù)行為及其影響因素,可以說(shuō)是從一個(gè)比較新穎的角度分析 了 社交網(wǎng)絡(luò)用戶(hù)行為。 現(xiàn)行網(wǎng)絡(luò)中較為成熟和流行的社交網(wǎng)站有國(guó)外的 Facebook, twitter,Google+, Plurk, Flickr, Linked— in 等,而國(guó)內(nèi)也不乏人人網(wǎng)、開(kāi)心網(wǎng)、豆瓣、新浪微博、騰訊微博等社交網(wǎng)絡(luò)應(yīng)用或網(wǎng)站。北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 1 頁(yè) 1 緒論 選題背景 社交網(wǎng)絡(luò),簡(jiǎn)稱(chēng) SNS( social work service) , 在 浪潮中已發(fā)展為社會(huì)化媒體中一個(gè)主要平臺(tái)。在整個(gè)互聯(lián)網(wǎng)都走向社交化的大趨勢(shì)下,傳統(tǒng)的實(shí)名制社交網(wǎng)站也不斷增加平臺(tái)功能,在原有網(wǎng)站北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 2 頁(yè) 基礎(chǔ)上融入以上新型的社交功能組件,尤其是將業(yè)務(wù)發(fā)展重 點(diǎn)轉(zhuǎn)向移動(dòng)終端,進(jìn)而帶動(dòng)了 20xx 年社交網(wǎng)站用戶(hù)增長(zhǎng),同時(shí)也為社交網(wǎng)絡(luò)的進(jìn)一步發(fā)展提供無(wú)限可能。 目前,社會(huì)科學(xué)對(duì)網(wǎng)絡(luò)行為的研究,主要集中在以下議題: ? 作為行為場(chǎng)域的網(wǎng)絡(luò)空間的社會(huì)特性 ? 網(wǎng)絡(luò)行為及其影響因素 雖然以上研究都已比較深入,但 大 多的都從社會(huì)學(xué)角度切入研究 宏觀 網(wǎng)絡(luò)用戶(hù)行為,內(nèi)容與社交網(wǎng)絡(luò)契合較少并偏向理論化, 方 法也大多采用問(wèn)卷調(diào)查等主觀性較強(qiáng)的方式 , 很少有通過(guò)技術(shù)手段采集客觀數(shù)據(jù) 并通過(guò)軟件分析等方式進(jìn)行研究的文獻(xiàn)。編碼過(guò)程主要分為兩步,首先通過(guò) 使用 Wireshark 抓包后 使用 python 中的urlllib 庫(kù)構(gòu)造目標(biāo)網(wǎng)站可識(shí)別 HTTP 協(xié)議,然后通過(guò)設(shè)計(jì)正則表達(dá)式進(jìn)行數(shù)據(jù)提取 。一個(gè)社交網(wǎng)絡(luò)的大小最大約為 150 人左右 (Dunbar39。社交網(wǎng)絡(luò)含義包括硬件、軟件、服務(wù)及應(yīng)用,狹義上講它是指建立在真實(shí)人際關(guān)系基礎(chǔ)上的網(wǎng)絡(luò)平臺(tái),是作為現(xiàn)實(shí)中的社會(huì)團(tuán)體在互聯(lián)網(wǎng)上交流的輔助工具而存在,是現(xiàn)實(shí)活動(dòng)的北京交通大學(xué)畢業(yè)設(shè)計(jì)(論文) 第 7 頁(yè) 在線拓展,與傳統(tǒng)的虛擬網(wǎng)絡(luò)有很大的不同。 ? 以用戶(hù)為中心 這也是 ,那些過(guò)去被輕視、被忽略的“微內(nèi)容”、“微價(jià)值”由于新的聚合力量而顯得格外強(qiáng)大。用戶(hù)對(duì)別人發(fā)的帖子,上傳的照片或者別的動(dòng)態(tài)發(fā)表評(píng)論 和意見(jiàn),或者接受別人對(duì)自己發(fā)表內(nèi) 容的反饋。 ? 多層次關(guān)系的社區(qū)挖掘 研究表明,在多層次社交網(wǎng)絡(luò)的社區(qū)中。這個(gè)領(lǐng)域的研究大部分是利用搜索引擎來(lái)挖掘人際網(wǎng)絡(luò)關(guān)系,最新的代表性技術(shù)是一種叫做 POLYPHONET的社交網(wǎng)絡(luò)抽取分析算法,該算法引入了一序列關(guān)于人際關(guān)系的識(shí)別,社區(qū)的挖掘,以及個(gè)人關(guān)鍵詞挖掘等先進(jìn)技術(shù)。在研究視角上基本延續(xù)了社會(huì)學(xué)的兩種傳統(tǒng)視角,或者將解釋的焦點(diǎn) 放在個(gè)人行為對(duì)社會(huì)結(jié)構(gòu)的構(gòu)建上,或者將解釋的焦點(diǎn)放在社會(huì)結(jié)
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1