freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

新聞爬蟲系統(tǒng)的設計與實現畢業(yè)論文-wenkub

2022-09-02 07:56:19 本頁面
 

【正文】 熱點動態(tài),提高對于重大突發(fā)事件的處理能力,對于更及時,全面的了解各地的實時信息具有重要意義。小到心情日志,大到國家大事。網絡檢索功能起于互聯(lián)網內容爆炸性發(fā)展所帶來的對內容檢索的需求。這些服務與現有的搜索引擎提供的服務不同,其重要特征主要體現在:及時性,專用性,人性化。在數據采集方面系統(tǒng)采用手動爬取與增量爬取相結合的方式。 用戶可以隨時查看任意一個時間的新聞分析結果,而且該系統(tǒng)由于是基于多線程的程序完成任務的效率高。另一方面,原來的新聞信息收集工作主要依靠人工完成,工作量巨大,覆蓋面小,不僅費時費力而且還不免出現人為疏漏的情況,這種局面亟待通過技術手段提高工作效率。上世紀九十年代,國外的搜索引擎開發(fā)者已經開始以社會網絡工作為模型,對萬維網進行模擬。早在2002年,歐美地區(qū)便出現了這種最原始的基于鏈接的搜索系統(tǒng)。由于搜索角度的轉變,這種新的技術逐漸開始被人們所關注。CORA 。從現在的技術來看,當時的IBM Focused Crawler采取了全新雙模塊系統(tǒng),即分類器和選擇器。這種通過學習網頁引用關系的方法后來被證明效率并不高,但在當時也是重要的創(chuàng)新手段。對于基于內容分析的搜索,國人也做出了很大貢獻。該系統(tǒng)的最大優(yōu)點是準確度高,其代價是犧牲了覆蓋度,搜索的深度非常有限[4]。第2章 為系統(tǒng)開發(fā)知識準備,簡要介紹了進行本次新聞爬蟲系統(tǒng)開發(fā)所需要的相關理論和技術,主要包括爬蟲技術的知識理論和J2EE技術、SQL Server 2005數據庫管理系統(tǒng)以及ExtJS框架等相關知識,并對系統(tǒng)開發(fā)過程中用到的一些關鍵開源工具做出了簡要說明。第6章 進行了系統(tǒng)測試和發(fā)布工作,首先從理論上對軟件測試的目標和方法進行了簡要介紹,之后設計了多個測試用例對系統(tǒng)的相關功能模塊進行了詳細的測試并對測試結果進行了分析,最后將本系統(tǒng)通過TOMCAT部署到了PC服務器上,完成了系統(tǒng)發(fā)布的過程。通用網絡爬蟲從一個或幾個初始網頁的URL開始,獲得初始網頁上的URL列表;在抓取網頁的過程中不斷從當前網頁上抽取新的URL放入到待爬行隊列,直到滿足系統(tǒng)的停止條件。在目前為覆蓋盡可能多的網頁,一般使用廣度優(yōu)先搜索算法。它只訪問經過網頁任意算法預測為“有用”的網頁。 J2EE技術簡介J2EE指的是Java2平臺企業(yè)版(Java 2 Platform , Enterprise Edition)。J2EE體系結構提供中間層集成框架用來滿足無需太多費用而又需要高可用性、高可靠性以及可擴展性的應用的需求。傳統(tǒng)的客戶端往往承擔了太多的功能,導致客戶端比較臃腫,升級很不方便。Microsoft SQL Server 2005數據庫引擎為關系型數據和結構化數據提供了更安全可靠的存儲功能,使得用戶可以構建和管理用于業(yè)務的高可用和高性能的數據應用程序。SQL Server Framework, SQL Server專有對象,從而使SQL Server數據庫具有靈活的功能。因此,、Java以及PHP等多種開發(fā)語言中。該框架完全基于純HTML/CSS+JS技術,提供豐富的跨瀏覽器UI組件,靈活采用JSON/XML數據源開發(fā),使得服務端表示層的負荷真正得以減輕。HTTPClient已經應用在很多大型的項目中,比如Apache Jakarta上很著名的另外兩個開源項目Cactus和HTMLUnit都使用了HTTPClient。HTMLParser主要包含以下兩個方面的功能:1)信息提取功能:1  文本信息抽取,例如對HTML進行有效信息搜索;2  鏈接提取,用于自動給頁面的鏈接文本加上鏈接的標簽;3  資源提取,例如對一些圖片、聲音的資源的處理;4  鏈接檢查,用于檢查HTML中的鏈接是否有效;5  頁面內容的監(jiān)控。本章主要從系統(tǒng)可行性、用戶對象、用戶用例、功能需求以及性能需求五個方面進行詳細的系統(tǒng)需求分析。由于該新聞爬蟲系統(tǒng)采用B/S架構方式,用戶僅需在瀏覽器端利用瀏覽器進入系統(tǒng)使用相關功能即可,當前主流的個人電腦硬件配置完全滿足使用條件。兩者相結合開發(fā)出的前臺網頁,保證了良好的用戶體驗,能夠滿足用戶實際操作的需要。 用戶對象分析互聯(lián)網定向信息采集系統(tǒng)面對的客戶是特定的專業(yè)人群和企業(yè)機構,他們關心的信息一般限于特定的主題。對于企業(yè)公關來說,信息時代的到來導致危機的信息傳播比危機本身發(fā)展要快得多,媒體的報道也很難避免。 用戶用例分析 管理員用戶用例分析管理員用戶用例圖如圖31所示:圖31 管理員用戶用例圖對于管理員用戶,其使用場景分為五大類:1) 對爬蟲數據源進行控制:包括對爬蟲爬取的數據源的增加和刪除,以及對被爬行網站的配置(例如改動HTML代碼關鍵字匹配特征以通過HTMLParser抓取到相應類型的新聞)。3) 對于數據庫中的新聞信息進行分析。 綜合用例分析圖33 系統(tǒng)綜合用例圖該新聞爬蟲系統(tǒng)的綜合用例圖如圖33所示,普通用戶可以進入該系統(tǒng)進行查看各類新聞、按關鍵字,時間等多條件搜索新聞、查看新聞類別分析柱狀圖、查看新聞小類別分析柱狀圖、查看新聞數量隨月份的變化折線圖、查看在某一天新聞數量在一天中的變化折線圖以及進行綜合分析統(tǒng)計操作;管理員用戶具有最高權限,除了可以正常使用本系統(tǒng)進行系統(tǒng)功能測試之外,還可以進行控制系統(tǒng)數據源、觸發(fā)一次數據采集等操作。首先從技術可行性、操作可行性和經濟可行性三個方面對系統(tǒng)可行性進行了評估,隨后對系統(tǒng)的用戶對象和用戶用況從管理員用戶和普通用戶兩個角度進行了詳細的分析,并分別總結出了相應的功能需求,最后對系統(tǒng)的性能需求進行了簡要分析。數據庫結構如果沒有設計好將會給以后的工作帶來很多麻煩,一方面是性能問題,另一方面是維護問題。根據本系統(tǒng)的實際需求,數據庫中需要具備的基本表有三個:1) (如表41所示)表41 帖子信息列表字段名字段類型字段限制注釋news_idINT主鍵新聞編號News_urlNVARCHARnot null數據來源news_titleNVARCHARnot null新聞標題news_pudbateNVARCHARnot null新聞發(fā)布時間news_mediaNVARCHARnot null新聞發(fā)布方news_contentNVARCHARnot null新聞內容news_typeINTnot null新聞類型編號news_typenameNVARCHARnot null新聞類型news_typecodeINTnot null新聞類型編碼news_smalltypeNVARCHARnot null新聞詳細類別news_pictureNVARCHAR無新聞圖片2) (如表42所示)表42 數據源信息列表字段名字段類型字段限制注釋url_idINT主鍵數據源編號urlVARCHARnot null數據源名稱3) (如表43所示)表43情感傾向標注列表字段名字段類型字段限制注釋type_idINT主鍵新聞類型編號type_contentVARCHARnot null新聞類型type_codeINTnot null新聞類型編碼smalltypeVARCHARnot null新聞詳細類別這三個表之間的實體關系圖如圖41所示:圖41 數據庫實體關系圖 系統(tǒng)功能模塊設計整個新聞爬蟲系統(tǒng)應該包括四部分的功能模塊:爬取類別的選擇、數據獲取模塊、數據存入模塊、數據分析以及數據可視化模塊。在爬蟲中采用鏈接過濾器進行URL過濾是很有必要的。對于第一類HTML頁面,直接利用HTML解析工具對其進行解析并進行元數據抽??;對于第二類HTML頁面,則需要對其進行URL抽取而非元數據抽取,將HTML中復合鏈接過濾器的URL全部提取出來進行重爬判斷并將符合條件的URL加入到爬行隊列中去。 5 系統(tǒng)詳細設計與實現本章節(jié)將圍繞新聞爬蟲系統(tǒng)的功能模塊詳細設計和技術實現展開詳細說明,針對系統(tǒng)總體設計進行細化和擴充,詳細地設計每個模塊實現算法以及所需的局部結構,最后將所有的設計方案進行技術實現。本程序利用SWING實現,界面上方是功能選區(qū),管理員用戶可以指定爬行操作的數據源,進行數據抓取過程的相關操作。用戶在點擊“建立連接”按鈕后,在控制臺進行當前狀態(tài)輸出,系統(tǒng)狀態(tài)由NotLinked變?yōu)長inked。如圖56所示:圖56 系統(tǒng)歡迎頁面 查看各類新聞用戶需要選擇相應的新聞類別,也可輸入關鍵字,日期進行檢索。分析柱狀圖如圖511和512所示: 圖511未輸入任何日期的柱狀分析圖 圖512 搜索“20140608”后的類型分析柱狀圖分析結果顯示,當沒有輸入任何時間時,國內新聞共576條,國外591條,社會578條,軍事354條,可見除了軍事新聞相對較少外其他三種數量差不多。 本章小結 本章節(jié)對新聞爬蟲系統(tǒng)進行了功能模塊的詳細設計并完成了系統(tǒng)的開發(fā)實現工作,對于數據獲取模塊以及數據可視化模塊進行了詳細的設計實現和功能說明。應該排除對測試的錯誤觀點,設計合適的測試用例,用盡可能少的測試用例,來發(fā)現盡可能多的軟件錯誤。軟件測試是軟件質量保證的關鍵環(huán)節(jié),直接影響著軟件的質量評估。黑盒測試可用于各種測試。測試用例編寫應該遵循的原則如下:1)測試用例要達到最大覆蓋軟件系統(tǒng)的功能點,測試工程師應該在測試計劃編寫完成之后,在開發(fā)階段編寫測試用例,參考需求規(guī)格說明書和軟件功能點對每個功能點進行操作上的細化,盡可能趨向最大需求覆蓋率;2)測試用例對測試功能點、測試條件、測試步驟、輸入值和預期結果應該有準確的定義;3)測試用例的設計應該包括各種類型的測試用例,在設計測試用例時,除了滿足系統(tǒng)基本功能需求外,還應該考慮各種異常情況、邊界情況和承受壓力的能力等。 本章小結 本章節(jié)首先從理論上對軟件測試的目標和方法進行了簡要介紹,之后設計了多個測試用例對系統(tǒng)的相關功能模塊進行了詳細的測試并對測試結果進行了分析。鑒于此,本系統(tǒng)接下來需要做的工作包括:1) 增加數據源的廣度,不僅僅局限于新浪新聞數據源,嘗試對于其他新聞網站進行一起爬取并能夠實現去重工作;2) 增強系統(tǒng)功能,由現階段的簡單抽取文本內容以及圖片信息擴展到可以靈活的抽取音頻視頻等多媒體信息。例如,我在接到這個課題的時候就是先上網查詢了什么是網絡爬蟲,而后又學習了爬蟲爬取網頁的原理,需要的工具等。 盡管在本次畢業(yè)設計過程中我基本上設計實現了一個新聞爬蟲系統(tǒng)并對其中的數據采集和數據可視化模塊有了較深的理解,可我深知想要設計出一個多數據源且功能強大的智能新聞爬取分析系統(tǒng)還需要付出更多的努力。感謝這篇論文所涉及到的各位學者,如果沒有各位學者的研究成果的幫助和啟發(fā)我將很難完成論文。 參考文獻[1]TianjunFu,AhmedAbbasi,HsinchunChen. A focused crawler for Dark Web forums[J]. J. Am. Soc. Inf. Sci.,2010,6,16.[2]Punam Bedi,Anjali Thukral,Hema Banati,Abhishek Behl,Varun Mendiratta. A MultiThreaded Semantic Focused Crawler[J]. Journal of Computer Science and Technology,2012,2,16.[3]Subhendu kumar pani,Deepak Mohapatra,Bikram Keshari Ratha. Integration of Web mining and web crawler: Relevance and State of Art[J].International Journal on Computer Science and Engineering,2010,772.[4]王繼成,潘金貴,張福炎. Web文本挖掘技術研究[J]. 計算機研究與發(fā)展,2000,05:513520.[5]李煥哲,劉曉亮,郭大權,王凡,曹強,馬書敏. J2EE體系結構探討[J]. 河北省科學院學報,2003,03:152156. [6]張波,陳定方,祖巧紅. 基于SQL SERVER 2005的數據挖掘系統(tǒng)設計[J]. 湖北工業(yè)大學學報,2007,03:2931. [7]郝瑞吉. 基于SQL Server構建數據挖掘解決方案的研究及應用[D].上海海事大學,2004. [8]陳道鑫,宋紹云,袁中旺,王曉燕. ExtJS框架在Web軟件開發(fā)中的應用[J]. 電腦知識與技術,2011,09:20442047.[9]夏啟明. 軟件測試及評價的復用策略研究及其實現[D].武漢大學,2010. [10]魏少涵. 面向對象軟件測試方法分析與研究[D].廈門大學,2009. 8 致謝詞歷時將近一個月的時間終于將這篇論文完成了在論文完成過程中遇到了很多問題但都在老師和學長學姐的指導下完成了。因為不管你設計的系統(tǒng)是多么的完善,功能是多么的強大但是如果你根本就不會實現就都是紙上談兵。在本次畢業(yè)設計的過程中,通過對網絡爬蟲模塊以及新聞信息可視化模塊的設計和實現,我的編程思想有了較大轉變,對于一些編程語言和開發(fā)工具的運用能力有了較大提升,對于一個整體的項目開發(fā)流程也有了整體的把握,主要心得體會如下:首先,對于一個我們不太熟悉的項目,我們首先要做的就是學習做這個項目所必需的知識技術。本文所設計實現的新聞爬蟲系統(tǒng),綜合參考了一些現有的爬蟲系統(tǒng)產品的采集方法,通過編寫爬蟲程序實現了對于新聞內容、標題、發(fā)布時間等信息元數據的抓取,利用ExtJS結合Google Visualization API
點擊復制文檔內容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1