freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

社交網(wǎng)絡(luò)數(shù)據(jù)采集算法的設(shè)計(軟件工程課程設(shè)計報告)(已修改)

2025-08-16 05:10 本頁面
 

【正文】 . . . .軟件工程課程設(shè)計社交網(wǎng)絡(luò)數(shù)據(jù)收集算法的設(shè)計組號第21組組長姓名:蓋云東學(xué)號:130104010049組員姓名:任志成學(xué)號:130104010121組員姓名:馬劍楠學(xué)號:130104010004組員姓名:陳海濤學(xué)號:130104010045摘要隨著互聯(lián)網(wǎng)的發(fā)展,人們正處于一個信息爆炸的時代。社交網(wǎng)絡(luò)數(shù)據(jù)信息量大、主題性強,具有巨大的數(shù)據(jù)挖掘價值,是互聯(lián)網(wǎng)大數(shù)據(jù)的重要組成部分。一些社交平臺如Twitter、新浪微博、人人網(wǎng)等,允許用戶申請平臺數(shù)據(jù)的采集權(quán)限,并提供了相應(yīng)的API 接口采集數(shù)據(jù),通過注冊社交平臺、申請API授權(quán)、調(diào)用API 方法等流程獲取社交信息數(shù)據(jù)。但社交平臺采集權(quán)限的申請比較嚴(yán)格,申請成功后對于數(shù)據(jù)的采集也有限制。因此,本文采用網(wǎng)絡(luò)爬蟲的方式,利用社交賬戶模擬登錄社交平臺,訪問社交平臺的網(wǎng)頁信息,并在爬蟲任務(wù)執(zhí)行完畢后,及時返回任務(wù)執(zhí)行結(jié)果。相比于過去的信息匱乏,面對現(xiàn)階段海量的信息數(shù)據(jù),對信息的篩選和過濾成為了衡量一個系統(tǒng)好壞的重要指標(biāo)。本文運用了爬蟲和協(xié)同過濾算法對網(wǎng)絡(luò)社交數(shù)據(jù)進行收集。關(guān)鍵詞:軟件工程;社交網(wǎng)絡(luò);爬蟲;協(xié)同過濾算法目錄摘要 2 目錄 3 課題研究的目的 1 課題研究背景 1 2 優(yōu)先抓取策略PageRank 2 PageRank簡介 2 PageRank流程 2 3 爬蟲 4 爬蟲介紹 4 4 工作流程 4 抓取策略介紹 5 工具介紹 6 Eclipse 7 Python語言 7 BeautifulSoup 7 實現(xiàn) 8 運行結(jié)果 9 4 算法部分 10 10 10 通過調(diào)用微博API接口獲取用戶微博數(shù)據(jù) 11 14 14 15 18 結(jié)論 22 參考文獻 23 學(xué)習(xí)參考課題研究的目的 課題研究背景互聯(lián)網(wǎng)導(dǎo)致一種全新的人類社會組織和生存模式悄然走進我們,構(gòu)建了一個超越地球空問之上的、巨大的群體——網(wǎng)絡(luò)群體,21世紀(jì)的人類社會正在逐漸浮現(xiàn)出嶄新的形態(tài)與特質(zhì),網(wǎng)絡(luò)全球化時代的個人正在聚合為新的社會群體。隨著社交網(wǎng)站的興起,網(wǎng)絡(luò)社交蓬勃發(fā)展,新的互聯(lián)網(wǎng)熱再次升溫,有分析人士甚至說,網(wǎng)絡(luò)社交將締造人際交往的新模式?;ヂ?lián)網(wǎng)的興起打破了傳統(tǒng)的社會交往方式,簡單、快捷和無距離的社交體驗推動社交網(wǎng)絡(luò)快速發(fā)展,以Facebook、Twitter、微博等為代表的應(yīng)用吸引了大量活躍網(wǎng)絡(luò)用戶,社交網(wǎng)絡(luò)信息呈現(xiàn)爆發(fā)式的增長。社交網(wǎng)絡(luò)信息反映了用戶的網(wǎng)絡(luò)行為特征,通過對這些信息的研究,可以實現(xiàn)社會輿論監(jiān)控、網(wǎng)絡(luò)營銷、股市預(yù)測等。社交網(wǎng)絡(luò)信息的重要價值在于實時性,如何快速、準(zhǔn)確、有效地獲取目標(biāo)信息非常重要。但社交網(wǎng)絡(luò)屬于Deep Web 的專有網(wǎng)絡(luò),信息量大、主題性強,傳統(tǒng)搜索引擎無法索引這些Deep Web 頁面,只有通過網(wǎng)站提供的查詢接口或登錄網(wǎng)站才能訪問其信息,這增加了獲取社交網(wǎng)絡(luò)信息的難度。目前國外有關(guān)社交網(wǎng)絡(luò)數(shù)據(jù)采集模型的研究較少,對社交網(wǎng)絡(luò)的研究主要集中在社會網(wǎng)絡(luò)分析領(lǐng)域。國內(nèi)社交網(wǎng)絡(luò)平臺的數(shù)據(jù)采集技術(shù)研究有一定成果,如文獻提出并實現(xiàn)一種利用新浪微博應(yīng)用程序接口(Application Programming Interface,API)和網(wǎng)絡(luò)數(shù)據(jù)流相結(jié)合的方式采集數(shù)據(jù),文獻利用人人網(wǎng)開發(fā)平臺提供的API 實現(xiàn)數(shù)據(jù)采集,并通過WebBrowser 和HttpFox 監(jiān)測信息交互時的數(shù)據(jù)包,實現(xiàn)動態(tài)獲取Ajax 頁面信息等。2 優(yōu)先抓取策略PageRank PageRank簡介PageRank,即網(wǎng)頁排名,又稱網(wǎng)頁級別、Google左側(cè)排名或佩奇排名是Google創(chuàng)始人拉里佩奇和謝爾蓋布林于1997年構(gòu)建早期的搜索系統(tǒng)原型時提出的鏈接分析算法,自從Google在商業(yè)上獲得空前的成功后,該算法也成為其他搜索引擎和學(xué)術(shù)界十分關(guān)注的計算模型。目前很多重要的鏈接分析算法都是在PageRank算法基礎(chǔ)上衍生出來的。 PageRank流程首先PageRank的計算充分利用了兩個假設(shè):數(shù)量假設(shè)和質(zhì)量假設(shè)。步驟如下: 1) 在初始階段:網(wǎng)頁通過鏈接關(guān)系構(gòu)建起Web圖,每個頁面設(shè)置相同的PageRank值,通過若干輪的計算,會得到每個頁面所獲得的最終PageRank值。隨著每一輪的計算進行,網(wǎng)頁當(dāng)前的PageRank值會不斷得到更新。2) 在一輪中更新頁面PageRank得分的計算方法:在一輪更新頁面PageRank得分的計算中,每個頁面將其當(dāng)前的PageRank值平均分配到本頁面包含的出鏈上,這樣每個鏈接即獲得了相應(yīng)的權(quán)值。而每個頁面將所有指向本頁面的入鏈所傳入的權(quán)值求和,即可得到新的PageRank得分。當(dāng)每個頁面都獲得了更新后的PageRank值,就完成了一輪PageRank計算。然后,引入阻尼系數(shù)p。完整公式如下:PageRankpi=1qN+qΣPageRank(pj)L(pj)p1,p2,…,pN是被研究的頁面,是鏈入頁面的數(shù)量,是鏈出頁面的數(shù)量,而N是所有頁面的數(shù)量。使用冪法求PageRank。那公式可以轉(zhuǎn)換為求解的值,其中矩陣為 A = q P + ( 1 一 q) * /N 。 P 為概率轉(zhuǎn)移矩陣,為 n 維的全
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1