freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢設(shè)開(kāi)題報(bào)告-及開(kāi)題報(bào)告分析(編輯修改稿)

2024-08-22 14:56 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 廣度優(yōu)先搜索策略的思考以及設(shè)計(jì)的詳細(xì)過(guò) 程,著重解決URL的去重、URL地址集合動(dòng)態(tài)變化等問(wèn)題;研究分析短文本主題抽取技術(shù)以及多關(guān)鍵匹配技術(shù),確定微博主題相關(guān)性分析的設(shè)計(jì)方案;最后設(shè)計(jì) 實(shí)現(xiàn)基于主題的微博網(wǎng)頁(yè)爬蟲(chóng)的原型系統(tǒng),實(shí)時(shí)抓取和存儲(chǔ)微博數(shù)據(jù)。本文研究的核心問(wèn)題是,根據(jù)微博數(shù)據(jù)的特點(diǎn)設(shè)計(jì)一種基于“剪枝”的廣度優(yōu)先搜索策略,并 將其應(yīng)用到微博爬蟲(chóng)中;同時(shí)使用微博頁(yè)面分析技術(shù)使得爬蟲(chóng)不受微博平臺(tái)API限制,從而讓用戶盡可能準(zhǔn)確地抓取主題相關(guān)的微博數(shù)據(jù)。 通過(guò)多次反復(fù)實(shí)驗(yàn)獲取原型系統(tǒng)實(shí)驗(yàn)結(jié)果,將實(shí)驗(yàn)結(jié)果同基于API微博爬蟲(chóng)和基于網(wǎng)頁(yè)微博爬蟲(chóng)的抓取效果進(jìn)行對(duì)比分析得出結(jié)論:本文提出的爬行策略能夠抓取 主題相關(guān)的微博數(shù)據(jù),雖然在效率上有所降低,但在抓取的微博數(shù)據(jù)具有較好的主題相關(guān)性。這實(shí)驗(yàn)結(jié)果證明本論文研究的實(shí)現(xiàn)方案是可行的。 文獻(xiàn)[9]闡述了基于ajax的web應(yīng)用程序的爬蟲(chóng)和用戶界面狀態(tài)改變的動(dòng)態(tài)分析的過(guò)程和思路。文獻(xiàn)[10]對(duì)于全球社交網(wǎng)絡(luò)Twitter,設(shè)計(jì)并實(shí)現(xiàn)了,一個(gè)爬蟲(chóng)系統(tǒng),從另一個(gè)角度闡明了Python在編寫爬蟲(chóng)這個(gè)方面的強(qiáng)大和快速。僅僅用少量的代碼就能實(shí)現(xiàn)爬蟲(chóng)系統(tǒng),并且再?gòu)?qiáng)大的社交網(wǎng)站也可以利用Python編寫出對(duì)應(yīng)的爬蟲(chóng)系統(tǒng)爬取相關(guān)的數(shù)據(jù)用于分析。 文獻(xiàn)[11] 針對(duì)Web數(shù)據(jù)采集技術(shù)進(jìn)行了介紹,分析了Web數(shù)據(jù)采集技術(shù) 在將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)方面的優(yōu)勢(shì):速度快、準(zhǔn)確性高。從HTTP協(xié)議層分析了Web數(shù)據(jù)抓取的原理,并重點(diǎn)介紹了如何實(shí)現(xiàn)基于Python的 Web數(shù)據(jù)采集方案。Web數(shù)據(jù)采集系統(tǒng)可以分為:HTTP交互和數(shù)據(jù)解析兩個(gè)模塊。文獻(xiàn)[12] 提出并實(shí)現(xiàn)自動(dòng)化測(cè)試平臺(tái),命名為Desktop CheckList Testing。通過(guò)參照白盒測(cè)試自動(dòng)化原理后,按照腳本語(yǔ)言的特點(diǎn)即運(yùn)行時(shí)封裝模板類改進(jìn)為編譯前封裝模板文件。在該平臺(tái)上可以自動(dòng)化的運(yùn)行Python黑盒用例并得到相應(yīng)的運(yùn)行結(jié)果反饋。 實(shí)驗(yàn)結(jié)果證明軟件測(cè)試自動(dòng)化平臺(tái)對(duì)測(cè)試項(xiàng)目帶來(lái)諸多便捷與改善。文獻(xiàn)[13]設(shè)計(jì)并實(shí)現(xiàn)了一 種可以自動(dòng)登錄并可以根據(jù)更新頻率快慢智能抓取數(shù)據(jù)的爬蟲(chóng), 爬取由于權(quán)限和數(shù)據(jù)更新頻繁等限制,傳統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)很難獲取那一部分?jǐn)?shù)據(jù),不同于以往爬蟲(chóng)以頁(yè)面為粒度,該爬蟲(chóng)以人為最小粒度,并以人與人之間的關(guān)系為抓取依據(jù),在獲取這類數(shù)據(jù)上有很好的性能。 綜上,在瀏覽器網(wǎng)絡(luò)爬蟲(chóng)領(lǐng)域,很多技術(shù)已經(jīng)很充分了,并且解決了諸如,數(shù)據(jù)爬取,頁(yè)面分析等問(wèn)題。但在根據(jù)語(yǔ)義爬取數(shù)據(jù)和聚焦爬蟲(chóng)的方面,還并不是很完善,萬(wàn)維網(wǎng)上大量的有用的信息,或者語(yǔ)義相近的有用信息得不到利用,這是一種巨大的損失,所以對(duì)于爬蟲(chóng)的研究還是非常有必要的。三、根據(jù)任務(wù)書(shū)的任務(wù)及文獻(xiàn)調(diào)研結(jié)果,初步擬定的執(zhí)行(實(shí)施)方案(含具體進(jìn)度計(jì)劃) 在文獻(xiàn)[4]、文獻(xiàn)[7]、文獻(xiàn)[13]等中,都對(duì)爬蟲(chóng)程序的基本模塊和設(shè)計(jì)進(jìn)行了討論。文獻(xiàn)[4]中將微博爬蟲(chóng)程序分為:微博登錄、微博關(guān)系抓取、微博內(nèi)容抓取、關(guān)鍵字匹配等4個(gè)模塊,該爬蟲(chóng)側(cè)重于微博中各種信息的抓取。所以我將后面的三個(gè)模塊總結(jié)為內(nèi)容抓取。文獻(xiàn)[7]中的爬蟲(chóng)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1