正文內(nèi)容

社交網(wǎng)絡(luò)數(shù)據(jù)采集算法的設(shè)計(軟件工程課程設(shè)計報告)(已修改)

2025-08-16 05:10 本頁面

　

【正文】 . . . .軟件工程課程設(shè)計社交網(wǎng)絡(luò)數(shù)據(jù)收集算法的設(shè)計組號第21組組長姓名：蓋云東學(xué)號：130104010049組員姓名：任志成學(xué)號：130104010121組員姓名：馬劍楠學(xué)號：130104010004組員姓名：陳海濤學(xué)號：130104010045摘要隨著互聯(lián)網(wǎng)的發(fā)展，人們正處于一個信息爆炸的時代。社交網(wǎng)絡(luò)數(shù)據(jù)信息量大、主題性強,具有巨大的數(shù)據(jù)挖掘價值,是互聯(lián)網(wǎng)大數(shù)據(jù)的重要組成部分。一些社交平臺如Twitter、新浪微博、人人網(wǎng)等,允許用戶申請平臺數(shù)據(jù)的采集權(quán)限,并提供了相應(yīng)的API 接口采集數(shù)據(jù),通過注冊社交平臺、申請API授權(quán)、調(diào)用API 方法等流程獲取社交信息數(shù)據(jù)。但社交平臺采集權(quán)限的申請比較嚴(yán)格,申請成功后對于數(shù)據(jù)的采集也有限制。因此,本文采用網(wǎng)絡(luò)爬蟲的方式,利用社交賬戶模擬登錄社交平臺,訪問社交平臺的網(wǎng)頁信息,并在爬蟲任務(wù)執(zhí)行完畢后,及時返回任務(wù)執(zhí)行結(jié)果。相比于過去的信息匱乏，面對現(xiàn)階段海量的信息數(shù)據(jù)，對信息的篩選和過濾成為了衡量一個系統(tǒng)好壞的重要指標(biāo)。本文運用了爬蟲和協(xié)同過濾算法對網(wǎng)絡(luò)社交數(shù)據(jù)進行收集。關(guān)鍵詞：軟件工程；社交網(wǎng)絡(luò)；爬蟲；協(xié)同過濾算法目錄摘要 2 目錄 3 課題研究的目的 1 課題研究背景 1 2 優(yōu)先抓取策略PageRank 2 PageRank簡介 2 PageRank流程 2 3 爬蟲 4 爬蟲介紹 4 4 工作流程 4 抓取策略介紹 5 工具介紹 6 Eclipse 7 Python語言 7 BeautifulSoup 7 實現(xiàn) 8 運行結(jié)果 9 4 算法部分 10 10 10 通過調(diào)用微博API接口獲取用戶微博數(shù)據(jù) 11 14 14 15 18 結(jié)論 22 參考文獻 23 學(xué)習(xí)參考課題研究的目的課題研究背景互聯(lián)網(wǎng)導(dǎo)致一種全新的人類社會組織和生存模式悄然走進我們，構(gòu)建了一個超越地球空問之上的、巨大的群體——網(wǎng)絡(luò)群體，21世紀(jì)的人類社會正在逐漸浮現(xiàn)出嶄新的形態(tài)與特質(zhì)，網(wǎng)絡(luò)全球化時代的個人正在聚合為新的社會群體。隨著社交網(wǎng)站的興起，網(wǎng)絡(luò)社交蓬勃發(fā)展，新的互聯(lián)網(wǎng)熱再次升溫，有分析人士甚至說，網(wǎng)絡(luò)社交將締造人際交往的新模式?；ヂ?lián)網(wǎng)的興起打破了傳統(tǒng)的社會交往方式,簡單、快捷和無距離的社交體驗推動社交網(wǎng)絡(luò)快速發(fā)展,以Facebook、Twitter、微博等為代表的應(yīng)用吸引了大量活躍網(wǎng)絡(luò)用戶,社交網(wǎng)絡(luò)信息呈現(xiàn)爆發(fā)式的增長。社交網(wǎng)絡(luò)信息反映了用戶的網(wǎng)絡(luò)行為特征,通過對這些信息的研究,可以實現(xiàn)社會輿論監(jiān)控、網(wǎng)絡(luò)營銷、股市預(yù)測等。社交網(wǎng)絡(luò)信息的重要價值在于實時性,如何快速、準(zhǔn)確、有效地獲取目標(biāo)信息非常重要。但社交網(wǎng)絡(luò)屬于Deep Web 的專有網(wǎng)絡(luò),信息量大、主題性強,傳統(tǒng)搜索引擎無法索引這些Deep Web 頁面,只有通過網(wǎng)站提供的查詢接口或登錄網(wǎng)站才能訪問其信息,這增加了獲取社交網(wǎng)絡(luò)信息的難度。目前國外有關(guān)社交網(wǎng)絡(luò)數(shù)據(jù)采集模型的研究較少,對社交網(wǎng)絡(luò)的研究主要集中在社會網(wǎng)絡(luò)分析領(lǐng)域。國內(nèi)社交網(wǎng)絡(luò)平臺的數(shù)據(jù)采集技術(shù)研究有一定成果,如文獻提出并實現(xiàn)一種利用新浪微博應(yīng)用程序接口(Application Programming Interface,API)和網(wǎng)絡(luò)數(shù)據(jù)流相結(jié)合的方式采集數(shù)據(jù),文獻利用人人網(wǎng)開發(fā)平臺提供的API 實現(xiàn)數(shù)據(jù)采集,并通過WebBrowser 和HttpFox 監(jiān)測信息交互時的數(shù)據(jù)包,實現(xiàn)動態(tài)獲取Ajax 頁面信息等。2 優(yōu)先抓取策略PageRank PageRank簡介PageRank，即網(wǎng)頁排名，又稱網(wǎng)頁級別、Google左側(cè)排名或佩奇排名是Google創(chuàng)始人拉里佩奇和謝爾蓋布林于1997年構(gòu)建早期的搜索系統(tǒng)原型時提出的鏈接分析算法，自從Google在商業(yè)上獲得空前的成功后，該算法也成為其他搜索引擎和學(xué)術(shù)界十分關(guān)注的計算模型。目前很多重要的鏈接分析算法都是在PageRank算法基礎(chǔ)上衍生出來的。 PageRank流程首先PageRank的計算充分利用了兩個假設(shè)：數(shù)量假設(shè)和質(zhì)量假設(shè)。步驟如下： 1) 在初始階段：網(wǎng)頁通過鏈接關(guān)系構(gòu)建起Web圖，每個頁面設(shè)置相同的PageRank值，通過若干輪的計算，會得到每個頁面所獲得的最終PageRank值。隨著每一輪的計算進行，網(wǎng)頁當(dāng)前的PageRank值會不斷得到更新。2) 在一輪中更新頁面PageRank得分的計算方法：在一輪更新頁面PageRank得分的計算中，每個頁面將其當(dāng)前的PageRank值平均分配到本頁面包含的出鏈上，這樣每個鏈接即獲得了相應(yīng)的權(quán)值。而每個頁面將所有指向本頁面的入鏈所傳入的權(quán)值求和，即可得到新的PageRank得分。當(dāng)每個頁面都獲得了更新后的PageRank值，就完成了一輪PageRank計算。然后，引入阻尼系數(shù)p。完整公式如下：PageRankpi=1qN+qΣPageRank(pj)L(pj)p1,p2,…,pN是被研究的頁面，是鏈入頁面的數(shù)量，是鏈出頁面的數(shù)量，而N是所有頁面的數(shù)量。使用冪法求PageRank。那公式可以轉(zhuǎn)換為求解的值，其中矩陣為 A = q P + ( 1 一 q) * /N 。 P 為概率轉(zhuǎn)移矩陣，為 n 維的全

點擊復(fù)制文檔內(nèi)容

醫(yī)療健康相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

社交網(wǎng)絡(luò)數(shù)據(jù)采集算法的設(shè)計(軟件工程課程設(shè)計報告)(已修改)

軟件工程課程設(shè)計—選課系統(tǒng)-資料下載頁

酒店管理系統(tǒng)--軟件工程課程設(shè)計報告-資料下載頁

學(xué)生選課系統(tǒng)_軟件工程課程設(shè)計報告-資料下載頁

學(xué)生選課系統(tǒng)_軟件工程課程設(shè)計報告-資料下載頁

java論文課程設(shè)計軟件工程-資料下載頁

軟件工程課程設(shè)計報告--網(wǎng)上書店-資料下載頁

軟件工程課程設(shè)計城市導(dǎo)航-資料下載頁

軟件工程綜合課程設(shè)計論文-資料下載頁

xx軟件工程導(dǎo)論課程設(shè)計報告規(guī)范-資料下載頁

軟件工程課程設(shè)計報告--網(wǎng)上書店-資料下載頁

軟件工程課程設(shè)計-超市管理系統(tǒng)設(shè)計-資料下載頁

軟件工程專業(yè)課程設(shè)計項目-電梯控制課程設(shè)計報告-資料下載頁

軟件工程與數(shù)據(jù)庫課程設(shè)計報告--超市庫存管理系統(tǒng)-資料下載頁

軟件工程與數(shù)據(jù)庫課程設(shè)計--班費管理系統(tǒng)-資料下載頁

軟件工程與數(shù)據(jù)庫課程設(shè)計報告--超市庫存管理系統(tǒng)-資料下載頁

社交網(wǎng)絡(luò)數(shù)據(jù)采集算法的設(shè)計(軟件工程課程設(shè)計報告)(參考版)

社交網(wǎng)絡(luò)數(shù)據(jù)采集算法的設(shè)計(軟件工程課程設(shè)計報告)-文庫吧資料

社交網(wǎng)絡(luò)數(shù)據(jù)采集算法的設(shè)計(軟件工程課程設(shè)計報告)-展示頁

社交網(wǎng)絡(luò)數(shù)據(jù)采集算法的設(shè)計(軟件工程課程設(shè)計報告)-在線瀏覽

社交網(wǎng)絡(luò)數(shù)據(jù)采集算法的設(shè)計(軟件工程課程設(shè)計報告)-閱讀頁