freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

2024-08-16 07:56本頁面
  

【正文】 感謝這篇論文所涉及到的各位學(xué)者,如果沒有各位學(xué)者的研究成果的幫助和啟發(fā)我將很難完成論文。 參考文獻(xiàn)[1]TianjunFu,AhmedAbbasi,HsinchunChen. A focused crawler for Dark Web forums[J]. J. Am. Soc. Inf. Sci.,2010,6,16.[2]Punam Bedi,Anjali Thukral,Hema Banati,Abhishek Behl,Varun Mendiratta. A MultiThreaded Semantic Focused Crawler[J]. Journal of Computer Science and Technology,2012,2,16.[3]Subhendu kumar pani,Deepak Mohapatra,Bikram Keshari Ratha. Integration of Web mining and web crawler: Relevance and State of Art[J].International Journal on Computer Science and Engineering,2010,772.[4]王繼成,潘金貴,張福炎. Web文本挖掘技術(shù)研究[J]. 計(jì)算機(jī)研究與發(fā)展,2000,05:513520.[5]李煥哲,劉曉亮,郭大權(quán),王凡,曹強(qiáng),馬書敏. J2EE體系結(jié)構(gòu)探討[J]. 河北省科學(xué)院學(xué)報(bào),2003,03:152156. [6]張波,陳定方,祖巧紅. 基于SQL SERVER 2005的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)[J]. 湖北工業(yè)大學(xué)學(xué)報(bào),2007,03:2931. [7]郝瑞吉. 基于SQL Server構(gòu)建數(shù)據(jù)挖掘解決方案的研究及應(yīng)用[D].上海海事大學(xué),2004. [8]陳道鑫,宋紹云,袁中旺,王曉燕. ExtJS框架在Web軟件開發(fā)中的應(yīng)用[J]. 電腦知識(shí)與技術(shù),2011,09:20442047.[9]夏啟明. 軟件測試及評(píng)價(jià)的復(fù)用策略研究及其實(shí)現(xiàn)[D].武漢大學(xué),2010. [10]魏少涵. 面向?qū)ο筌浖y試方法分析與研究[D].廈門大學(xué),2009. 8 致謝詞歷時(shí)將近一個(gè)月的時(shí)間終于將這篇論文完成了在論文完成過程中遇到了很多問題但都在老師和學(xué)長學(xué)姐的指導(dǎo)下完成了。 盡管在本次畢業(yè)設(shè)計(jì)過程中我基本上設(shè)計(jì)實(shí)現(xiàn)了一個(gè)新聞爬蟲系統(tǒng)并對(duì)其中的數(shù)據(jù)采集和數(shù)據(jù)可視化模塊有了較深的理解,可我深知想要設(shè)計(jì)出一個(gè)多數(shù)據(jù)源且功能強(qiáng)大的智能新聞爬取分析系統(tǒng)還需要付出更多的努力。因?yàn)椴还苣阍O(shè)計(jì)的系統(tǒng)是多么的完善,功能是多么的強(qiáng)大但是如果你根本就不會(huì)實(shí)現(xiàn)就都是紙上談兵。例如,我在接到這個(gè)課題的時(shí)候就是先上網(wǎng)查詢了什么是網(wǎng)絡(luò)爬蟲,而后又學(xué)習(xí)了爬蟲爬取網(wǎng)頁的原理,需要的工具等。在本次畢業(yè)設(shè)計(jì)的過程中,通過對(duì)網(wǎng)絡(luò)爬蟲模塊以及新聞信息可視化模塊的設(shè)計(jì)和實(shí)現(xiàn),我的編程思想有了較大轉(zhuǎn)變,對(duì)于一些編程語言和開發(fā)工具的運(yùn)用能力有了較大提升,對(duì)于一個(gè)整體的項(xiàng)目開發(fā)流程也有了整體的把握,主要心得體會(huì)如下:首先,對(duì)于一個(gè)我們不太熟悉的項(xiàng)目,我們首先要做的就是學(xué)習(xí)做這個(gè)項(xiàng)目所必需的知識(shí)技術(shù)。鑒于此,本系統(tǒng)接下來需要做的工作包括:1) 增加數(shù)據(jù)源的廣度,不僅僅局限于新浪新聞數(shù)據(jù)源,嘗試對(duì)于其他新聞網(wǎng)站進(jìn)行一起爬取并能夠?qū)崿F(xiàn)去重工作;2) 增強(qiáng)系統(tǒng)功能,由現(xiàn)階段的簡單抽取文本內(nèi)容以及圖片信息擴(kuò)展到可以靈活的抽取音頻視頻等多媒體信息。本文所設(shè)計(jì)實(shí)現(xiàn)的新聞爬蟲系統(tǒng),綜合參考了一些現(xiàn)有的爬蟲系統(tǒng)產(chǎn)品的采集方法,通過編寫爬蟲程序?qū)崿F(xiàn)了對(duì)于新聞內(nèi)容、標(biāo)題、發(fā)布時(shí)間等信息元數(shù)據(jù)的抓取,利用ExtJS結(jié)合Google Visualization API實(shí)現(xiàn)了數(shù)據(jù)可視化功能,兼顧用戶交互方式的多樣性以及系統(tǒng)的跨瀏覽器兼容性。 本章小結(jié) 本章節(jié)首先從理論上對(duì)軟件測試的目標(biāo)和方法進(jìn)行了簡要介紹,之后設(shè)計(jì)了多個(gè)測試用例對(duì)系統(tǒng)的相關(guān)功能模塊進(jìn)行了詳細(xì)的測試并對(duì)測試結(jié)果進(jìn)行了分析。通過使用測試用例對(duì)整個(gè)系統(tǒng)進(jìn)行了詳細(xì)測試,系統(tǒng)能夠達(dá)到大部分測試用例的預(yù)期結(jié)果,偶而出現(xiàn)個(gè)別測試不通過的情況,經(jīng)過仔細(xì)的分析和調(diào)試發(fā)現(xiàn)了系統(tǒng)的漏洞并對(duì)其進(jìn)行調(diào)整和修改,之后所有測試用例全部通過,均達(dá)到了預(yù)期的測試結(jié)果。測試用例編寫應(yīng)該遵循的原則如下:1)測試用例要達(dá)到最大覆蓋軟件系統(tǒng)的功能點(diǎn),測試工程師應(yīng)該在測試計(jì)劃編寫完成之后,在開發(fā)階段編寫測試用例,參考需求規(guī)格說明書和軟件功能點(diǎn)對(duì)每個(gè)功能點(diǎn)進(jìn)行操作上的細(xì)化,盡可能趨向最大需求覆蓋率;2)測試用例對(duì)測試功能點(diǎn)、測試條件、測試步驟、輸入值和預(yù)期結(jié)果應(yīng)該有準(zhǔn)確的定義;3)測試用例的設(shè)計(jì)應(yīng)該包括各種類型的測試用例,在設(shè)計(jì)測試用例時(shí),除了滿足系統(tǒng)基本功能需求外,還應(yīng)該考慮各種異常情況、邊界情況和承受壓力的能力等。白盒測試主要用于對(duì)程序模塊的測試[10]。黑盒測試可用于各種測試。 軟件測試的方法軟件測試用例的設(shè)計(jì)方法大體可分為兩類:黑盒測試和白盒測試。軟件測試是軟件質(zhì)量保證的關(guān)鍵環(huán)節(jié),直接影響著軟件的質(zhì)量評(píng)估。 一個(gè)好的測試用例是指很可能找到迄今為止尚未發(fā)現(xiàn)錯(cuò)誤的測試用例。應(yīng)該排除對(duì)測試的錯(cuò)誤觀點(diǎn),設(shè)計(jì)合適的測試用例,用盡可能少的測試用例,來發(fā)現(xiàn)盡可能多的軟件錯(cuò)誤。本章節(jié)按照系統(tǒng)測試的原則設(shè)計(jì)出多個(gè)測試用例,根據(jù)系統(tǒng)測試的常用方法對(duì)新聞爬蟲系統(tǒng)進(jìn)行測試。 本章小結(jié) 本章節(jié)對(duì)新聞爬蟲系統(tǒng)進(jìn)行了功能模塊的詳細(xì)設(shè)計(jì)并完成了系統(tǒng)的開發(fā)實(shí)現(xiàn)工作,對(duì)于數(shù)據(jù)獲取模塊以及數(shù)據(jù)可視化模塊進(jìn)行了詳細(xì)的設(shè)計(jì)實(shí)現(xiàn)和功能說明。 新聞小類別分析柱狀圖用戶需要輸入日期進(jìn)行檢索,查看當(dāng)前日期下的相應(yīng)類別的新聞數(shù)量,當(dāng)用戶不輸入日期時(shí)就顯示相應(yīng)類型的全部的新聞數(shù)量。分析柱狀圖如圖511和512所示: 圖511未輸入任何日期的柱狀分析圖 圖512 搜索“20140608”后的類型分析柱狀圖分析結(jié)果顯示,當(dāng)沒有輸入任何時(shí)間時(shí),國內(nèi)新聞共576條,國外591條,社會(huì)578條,軍事354條,可見除了軍事新聞相對(duì)較少外其他三種數(shù)量差不多。例如日期設(shè)定為“20140608”,進(jìn)行分析,則顯示出的統(tǒng)計(jì)圖如圖510所示:圖510 按時(shí)辰分析折線圖根據(jù)分析結(jié)果可以看到新聞發(fā)布的高峰期以及新聞發(fā)布數(shù)量隨時(shí)間變化的趨勢。如圖56所示:圖56 系統(tǒng)歡迎頁面 查看各類新聞?dòng)脩粜枰x擇相應(yīng)的新聞?lì)悇e,也可輸入關(guān)鍵字,日期進(jìn)行檢索。例如我們選擇對(duì)于china對(duì)應(yīng)的國內(nèi)新聞進(jìn)行爬取則程序會(huì)對(duì)國內(nèi)新聞開始進(jìn)行抓?。ㄈ鐖D54所示)并將帖子信息寫入到數(shù)據(jù)庫中(如圖55所示)。用戶在點(diǎn)擊“建立連接”按鈕后,在控制臺(tái)進(jìn)行當(dāng)前狀態(tài)輸出,系統(tǒng)狀態(tài)由NotLinked變?yōu)長inked。界面底部使用JProgressBar實(shí)現(xiàn)了一個(gè)爬行進(jìn)度指示條,用于指示當(dāng)前爬行操作的執(zhí)行進(jìn)度。本程序利用SWING實(shí)現(xiàn),界面上方是功能選區(qū),管理員用戶可以指定爬行操作的數(shù)據(jù)源,進(jìn)行數(shù)據(jù)抓取過程的相關(guān)操作。在爬蟲程序執(zhí)行數(shù)據(jù)抓取的過程中,采用HTMLParser對(duì)獲取到的新聞信息進(jìn)行元數(shù)據(jù)抽取,將新聞的URL、標(biāo)題、內(nèi)容、發(fā)布方、發(fā)布時(shí)間、新聞?lì)悇e等元數(shù)據(jù)以及新聞的圖片存入SQL Server數(shù)據(jù)庫中。 5 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)本章節(jié)將圍繞新聞爬蟲系統(tǒng)的功能模塊詳細(xì)設(shè)計(jì)和技術(shù)實(shí)現(xiàn)展開詳細(xì)說明,針對(duì)系統(tǒng)總體設(shè)計(jì)進(jìn)行細(xì)化和擴(kuò)充,詳細(xì)地設(shè)計(jì)每個(gè)模塊實(shí)現(xiàn)算法以及所需的局部結(jié)構(gòu),最后將所有的設(shè)計(jì)方案進(jìn)行技術(shù)實(shí)現(xiàn)。爬行控制子模塊的工作流程如圖46所示:圖46 爬行控制子模塊4) 數(shù)據(jù)存儲(chǔ)子模塊在每次進(jìn)行完HTML頁面的信息抽取之后,都要將所有獲取到的元數(shù)據(jù)寫入到數(shù)據(jù)庫中去,另外還需要將本次抓取的URL也寫入數(shù)據(jù)庫中。對(duì)于第一類HTML頁面,直接利用HTML解析工具對(duì)其進(jìn)行解析并進(jìn)行元數(shù)據(jù)抽取;對(duì)于第二類HTML頁面,則需要對(duì)其進(jìn)行URL抽取而非元數(shù)據(jù)抽取,將HTML中復(fù)合鏈接過濾器的URL全部提取出來進(jìn)行重爬判斷并將符合條件的URL加入到爬行隊(duì)列中去。鏈接過濾子模塊的工作方式如圖44所示:圖44 鏈接過濾子模塊2) 頁面解析子模塊爬行隊(duì)列在爬蟲程序中的地位是非常重要的。在爬蟲中采用鏈接過濾器進(jìn)行URL過濾是很有必要的。爬蟲程序在針對(duì)系統(tǒng)指定的網(wǎng)站進(jìn)行爬行時(shí),會(huì)對(duì)網(wǎng)頁中的相關(guān)元數(shù)據(jù)進(jìn)行抽取并保存在本地?cái)?shù)據(jù)庫中。根據(jù)本系統(tǒng)的實(shí)際需求,數(shù)據(jù)庫中需要具備的基本表有三個(gè):1) (如表41所示)表41 帖子信息列表字段名字段類型字段限制注釋news_idINT主鍵新聞編號(hào)News_urlNVARCHARnot null數(shù)據(jù)來源news_titleNVARCHARnot null新聞標(biāo)題news_pudbateNVARCHARnot null新聞發(fā)布時(shí)間news_mediaNVARCHARnot null新聞發(fā)布方news_contentNVARCHARnot null新聞內(nèi)容news_typeINTnot null新聞?lì)愋途幪?hào)news_typenameNVARCHARnot null新聞?lì)愋蚽ews_typecodeINTnot null新聞?lì)愋途幋anews_smalltypeNVARCHARnot null新聞詳細(xì)類別news_pictureNVARCHAR無新聞圖片2) (如表42所示)表42 數(shù)據(jù)源信息列表字段名字段類型字段限制注釋url_idINT主鍵數(shù)據(jù)源編號(hào)urlVARCHARnot null數(shù)據(jù)源名稱3) (如表43所示)表43情感傾向標(biāo)注列表字段名字段類型字段限制注釋type_idINT主鍵新聞?lì)愋途幪?hào)type_contentVARCHARnot null新聞?lì)愋蛅ype_codeINTnot null新聞?lì)愋途幋asmalltypeVARCHARnot null新聞詳細(xì)類別這三個(gè)表之間的實(shí)體關(guān)系圖如圖41所示:圖41 數(shù)據(jù)庫實(shí)體關(guān)系圖 系統(tǒng)功能模塊設(shè)計(jì)整個(gè)新聞爬蟲系統(tǒng)應(yīng)該包括四部分的功能模塊:爬取類別的選擇、數(shù)據(jù)獲取模塊、數(shù)據(jù)存入模塊、數(shù)據(jù)分析以及數(shù)據(jù)可視化模塊。本系統(tǒng)使用SQL Server 2005作為數(shù)據(jù)庫管理工具,SQL Server 2005是一個(gè)具備完整的Web支持的數(shù)據(jù)庫產(chǎn)品,提供了以Web標(biāo)準(zhǔn)為基礎(chǔ)的擴(kuò)展數(shù)據(jù)庫編程功能。數(shù)據(jù)庫結(jié)構(gòu)如果沒有設(shè)計(jì)好將會(huì)給以后的工作帶來很多麻煩,一方面是性能問題,另一方面是維護(hù)問題。系統(tǒng)設(shè)計(jì)階段的主要參考依據(jù)是需求分析階段得出的相關(guān)結(jié)果,據(jù)此進(jìn)行系統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)和功能模塊設(shè)計(jì),本階段的工作是對(duì)上一階段分析結(jié)果的進(jìn)一步具體化。首先從技術(shù)可行性、操作可行性和經(jīng)濟(jì)可行性三個(gè)方面對(duì)系統(tǒng)可行性進(jìn)行了評(píng)估,隨后對(duì)系統(tǒng)的用戶對(duì)象和用戶用況從管理員用戶和普通用戶兩個(gè)角度進(jìn)行了詳細(xì)的分析,并分別總結(jié)出了相應(yīng)的功能需求,最后對(duì)系統(tǒng)的性能需求進(jìn)行了簡要分析。2) 針對(duì)普通用戶:a) 查看各類新聞:輸入關(guān)鍵字和日期進(jìn)行檢索,查看當(dāng)前 類型的符合條件的新聞;b) 查看新聞?lì)悇e分析柱狀圖:輸入日期進(jìn)行檢索,查看 當(dāng)前時(shí)間下的新聞?lì)悇e分析柱狀圖;c) 查看新聞小類別分析柱狀圖:輸入日期進(jìn)行檢索,可查看當(dāng)前時(shí)間下的小的新聞?lì)悇e的數(shù)量分析柱狀圖; d) 查看新聞數(shù)量隨月份的變化折線圖:根據(jù)輸入的年份可查看當(dāng)前年份中新聞發(fā)布數(shù)量隨月份變化的折線圖;e) 查看在某一天新聞數(shù)量在一天中的變化折線圖:根據(jù)輸入的時(shí)間可查看當(dāng)前日期下新聞發(fā)布數(shù)量隨時(shí)間變化的折線圖。 綜合用例分析圖33 系統(tǒng)綜合用例圖該新聞爬蟲系統(tǒng)的綜合用例圖如圖33所示,普通用戶可以進(jìn)入該系統(tǒng)進(jìn)行查看各類新聞、按關(guān)鍵字,時(shí)間等多條件搜索新聞、查看新聞?lì)悇e分析柱狀圖、查看新聞小類別分析柱狀圖、查看新聞數(shù)量隨月份的變化折線圖、查看在某一天新聞數(shù)量在一天中的變化折線圖以及進(jìn)行綜合分析統(tǒng)計(jì)操作;管理員用戶具有最高權(quán)限,除了可以正常使用本系統(tǒng)進(jìn)行系統(tǒng)功能測試之外,還可以進(jìn)行控制系統(tǒng)數(shù)據(jù)源、觸發(fā)一次數(shù)據(jù)采集等操作。5) 將爬取的新聞信息以及分析的結(jié)果展示給用戶。3) 對(duì)于數(shù)據(jù)庫中的新聞信息進(jìn)行分析。2) 開始一次數(shù)據(jù)采集過程:手動(dòng)采集和增量采集(添加定時(shí)任務(wù))。 用戶用例分析 管理員用戶用例分析管理員用戶用例圖如圖31所示:圖31 管理員用戶用例圖對(duì)于管理員用戶,其使用場景分為五大類:1) 對(duì)爬蟲數(shù)據(jù)源進(jìn)行控制:包括對(duì)爬蟲爬取的數(shù)據(jù)源的增加和刪除,以及對(duì)被爬行網(wǎng)站的配置(例如改動(dòng)HTML代碼關(guān)鍵字匹配特征以通過HTMLParser抓取到相應(yīng)類型的新聞)。 對(duì)于行政機(jī)構(gòu)類用戶,他們需要對(duì)國內(nèi)重點(diǎn)論壇和新聞門戶網(wǎng)站,也包含國外部分敏感網(wǎng)站,特別是國外的Twitter,F(xiàn)acebook等網(wǎng)站進(jìn)行一些監(jiān)控,以對(duì)一些敏感事件進(jìn)行及時(shí)的發(fā)現(xiàn)、后續(xù)跟蹤,同時(shí)對(duì)于民意的聽取也很感興趣,從而做到對(duì)特殊事件的早發(fā)現(xiàn)、早預(yù)警,為及時(shí)處置奠定基礎(chǔ)。對(duì)于企業(yè)公關(guān)來說,信息時(shí)代的到來導(dǎo)致危機(jī)的信息傳播比危機(jī)本身發(fā)展要快得多,媒體的報(bào)道也很難避免。本系統(tǒng)的用戶一般是新聞熱點(diǎn)分析部門或是各公安部門的觀察員。 用戶對(duì)象分析互聯(lián)網(wǎng)定向信息采集系統(tǒng)面對(duì)的客戶是特定的專業(yè)人群和企業(yè)機(jī)構(gòu),他們關(guān)心的信息一般限于特定的主題。例如:為政府機(jī)關(guān)、公安、廣電、教育機(jī)構(gòu)提供輿情監(jiān)測服務(wù),為上市公司、投資機(jī)構(gòu)、金融監(jiān)管機(jī)構(gòu)提供口碑管理服務(wù),為各類商業(yè)公司提供競爭情報(bào)管理、招投標(biāo)監(jiān)測、危機(jī)公關(guān)處理、市場調(diào)研、趨勢分析以及營銷效果評(píng)估等服務(wù)。兩者相結(jié)合開發(fā)出的前臺(tái)網(wǎng)頁,保證了良好的用戶體驗(yàn),能夠滿足用戶實(shí)際操作的需要。ExtJS作為開源JavaScript框架,功能強(qiáng)
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1