freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢設開題報告-及開題報告分析(編輯修改稿)

2025-08-22 14:56 本頁面
 

【文章內(nèi)容簡介】 廣度優(yōu)先搜索策略的思考以及設計的詳細過 程,著重解決URL的去重、URL地址集合動態(tài)變化等問題;研究分析短文本主題抽取技術以及多關鍵匹配技術,確定微博主題相關性分析的設計方案;最后設計 實現(xiàn)基于主題的微博網(wǎng)頁爬蟲的原型系統(tǒng),實時抓取和存儲微博數(shù)據(jù)。本文研究的核心問題是,根據(jù)微博數(shù)據(jù)的特點設計一種基于“剪枝”的廣度優(yōu)先搜索策略,并 將其應用到微博爬蟲中;同時使用微博頁面分析技術使得爬蟲不受微博平臺API限制,從而讓用戶盡可能準確地抓取主題相關的微博數(shù)據(jù)。 通過多次反復實驗獲取原型系統(tǒng)實驗結果,將實驗結果同基于API微博爬蟲和基于網(wǎng)頁微博爬蟲的抓取效果進行對比分析得出結論:本文提出的爬行策略能夠抓取 主題相關的微博數(shù)據(jù),雖然在效率上有所降低,但在抓取的微博數(shù)據(jù)具有較好的主題相關性。這實驗結果證明本論文研究的實現(xiàn)方案是可行的。 文獻[9]闡述了基于ajax的web應用程序的爬蟲和用戶界面狀態(tài)改變的動態(tài)分析的過程和思路。文獻[10]對于全球社交網(wǎng)絡Twitter,設計并實現(xiàn)了,一個爬蟲系統(tǒng),從另一個角度闡明了Python在編寫爬蟲這個方面的強大和快速。僅僅用少量的代碼就能實現(xiàn)爬蟲系統(tǒng),并且再強大的社交網(wǎng)站也可以利用Python編寫出對應的爬蟲系統(tǒng)爬取相關的數(shù)據(jù)用于分析。 文獻[11] 針對Web數(shù)據(jù)采集技術進行了介紹,分析了Web數(shù)據(jù)采集技術 在將非結構化數(shù)據(jù)轉換為結構化數(shù)據(jù)方面的優(yōu)勢:速度快、準確性高。從HTTP協(xié)議層分析了Web數(shù)據(jù)抓取的原理,并重點介紹了如何實現(xiàn)基于Python的 Web數(shù)據(jù)采集方案。Web數(shù)據(jù)采集系統(tǒng)可以分為:HTTP交互和數(shù)據(jù)解析兩個模塊。文獻[12] 提出并實現(xiàn)自動化測試平臺,命名為Desktop CheckList Testing。通過參照白盒測試自動化原理后,按照腳本語言的特點即運行時封裝模板類改進為編譯前封裝模板文件。在該平臺上可以自動化的運行Python黑盒用例并得到相應的運行結果反饋。 實驗結果證明軟件測試自動化平臺對測試項目帶來諸多便捷與改善。文獻[13]設計并實現(xiàn)了一 種可以自動登錄并可以根據(jù)更新頻率快慢智能抓取數(shù)據(jù)的爬蟲, 爬取由于權限和數(shù)據(jù)更新頻繁等限制,傳統(tǒng)的網(wǎng)絡爬蟲很難獲取那一部分數(shù)據(jù),不同于以往爬蟲以頁面為粒度,該爬蟲以人為最小粒度,并以人與人之間的關系為抓取依據(jù),在獲取這類數(shù)據(jù)上有很好的性能。 綜上,在瀏覽器網(wǎng)絡爬蟲領域,很多技術已經(jīng)很充分了,并且解決了諸如,數(shù)據(jù)爬取,頁面分析等問題。但在根據(jù)語義爬取數(shù)據(jù)和聚焦爬蟲的方面,還并不是很完善,萬維網(wǎng)上大量的有用的信息,或者語義相近的有用信息得不到利用,這是一種巨大的損失,所以對于爬蟲的研究還是非常有必要的。三、根據(jù)任務書的任務及文獻調(diào)研結果,初步擬定的執(zhí)行(實施)方案(含具體進度計劃) 在文獻[4]、文獻[7]、文獻[13]等中,都對爬蟲程序的基本模塊和設計進行了討論。文獻[4]中將微博爬蟲程序分為:微博登錄、微博關系抓取、微博內(nèi)容抓取、關鍵字匹配等4個模塊,該爬蟲側重于微博中各種信息的抓取。所以我將后面的三個模塊總結為內(nèi)容抓取。文獻[7]中的爬蟲
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1