freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-wenkub.com

2025-08-02 07:56 本頁面
   

【正文】 在此向幫助過我的老師學(xué)長學(xué)姐表示衷心的感謝。在這個由面向?qū)ο蟮某绦蛟O(shè)計思想主導(dǎo)軟件行業(yè)的時代,只有學(xué)好一門面向?qū)ο蟮某绦蛟O(shè)計語言(如C、JAVA以及ActionScript)方能保持自己在激烈的社會競爭中立于不敗之地;最后,充分利用一些開源工具能夠在很大程度上提升編程效率,例如,爬蟲采集部分我使用HttpClient來進(jìn)行服務(wù)器訪問和響應(yīng)處理,信息處理部分我借助HTMLParser進(jìn)行文本抽取,數(shù)據(jù)可視化部分該系統(tǒng)使用了ExtJS開源AJAX框架結(jié)合Google Visualization API進(jìn)行數(shù)據(jù)顯示,這些開源工具用起來簡捷方便,幫助我在較短的時間實現(xiàn)了所需要的功能。當(dāng)對于這個項目所需要的知識和技術(shù)比較了解的時候才可以著手做。本次設(shè)計開發(fā)的新聞爬蟲系統(tǒng),目前還存在著許多方面的問題,例如:數(shù)據(jù)源的廣度不夠,目前主要的數(shù)據(jù)來源都是新浪新聞;系統(tǒng)功能較為單一,目前主要的功能只有新聞爬取并以不同的可視化形式來呈現(xiàn)新聞內(nèi)容以及新聞分析結(jié)果;對于新聞內(nèi)容的爬取也不是很完善,只是簡單的抽取了一些文本信息和圖片信息,對于音頻和視頻并不能很好地抽取下來。盡管已經(jīng)進(jìn)行了詳細(xì)的測試分析,但在后期系統(tǒng)的使用過程中難免會出現(xiàn)新的問題,系統(tǒng)也將在不斷的調(diào)整和維護(hù)中日趨完善。 測試用例 測試用例設(shè)計原則測試用例是一份關(guān)于具體測試步驟的文檔,它描述了測試的輸入?yún)?shù)、條件以及配置、預(yù)期的輸出結(jié)果等,以判斷被測軟件的工作是否正常。軟件的黑盒測試又稱為“行為測試”,這種方法把測試對象看作一個黑盒子 ,測試人員可以完全不考慮程序內(nèi)部的邏輯結(jié)構(gòu)和內(nèi)部特性,只需要依據(jù)程序的需求規(guī)格說明書,檢查程序的功能是否符合其需求。 一個成功的測試是指揭示了迄今為止尚未發(fā)現(xiàn)錯誤的測試[9]。 軟件測試的目標(biāo)和方法 軟件測試的目的軟件測試的目的是指發(fā)現(xiàn)軟件中的錯誤和缺陷并加以改正,它不僅是軟件開發(fā)階段的有機(jī)組成部分,而且在軟件工程(即軟件定義、設(shè)計和開發(fā)過程)中占據(jù)相當(dāng)大的比重。分析柱狀圖如圖513和514所示:圖513 未輸入任何日期的柱狀分析圖 圖5154輸入20140608后的類型柱狀分析圖結(jié)果顯示不管是新聞總數(shù)還是某一天的新聞數(shù)各地新聞的數(shù)量都是做多的,其次就是社會萬象,而最少的應(yīng)屬奇聞軼事和環(huán)球新聞。 新聞類別分析柱狀圖用戶需要輸入日期進(jìn)行檢索,查看當(dāng)前日期下的相應(yīng)類別的新聞數(shù)量,當(dāng)用戶不輸入日期時就顯示相應(yīng)類型的全部的新聞數(shù)量。 圖53 需要抓取的新聞列表圖54 正在進(jìn)行抓取圖55 新聞信息已寫入數(shù)據(jù)庫中 數(shù)據(jù)可視化模塊 歡迎頁用戶在進(jìn)入新聞爬蟲系統(tǒng)后,系統(tǒng)會彈出歡迎頁面,并對該系統(tǒng)主要功能進(jìn)行顯示。圖51 爬蟲程序初始界面 “建立連接”操作用戶點擊“建立連接”按鈕可以獲取到數(shù)據(jù)庫的連接,通過點擊“測試連接”按鈕可以連接到測試數(shù)據(jù)庫進(jìn)行各類測試操作而不影響主數(shù)據(jù)庫的數(shù)據(jù)。 爬蟲程序初始界面爬蟲程序的初始界面如圖51所示。數(shù)據(jù)存儲子模塊的工作流程如圖47所示:圖47 數(shù)據(jù)存儲子模塊 數(shù)據(jù)可視化功能模塊 數(shù)據(jù)可視化功能模塊查看新聞內(nèi)容查看新聞小類別圖表歡迎頁面查看符合條件新聞列表查看新聞類別分析圖表查看一天中新聞變化查看新聞隨月份變化圖 圖48 數(shù)據(jù)可視化功能結(jié)構(gòu)圖系統(tǒng)可視化功能模塊的主要功能結(jié)構(gòu)如圖48所示,通過ExtJS結(jié)合Google Visualization API進(jìn)行構(gòu)建,其主要功能包括:1) 顯示歡迎頁:用戶進(jìn)入本系統(tǒng)后顯示歡迎信息并對系統(tǒng)主要功能進(jìn) 展示;2) 查看各類新聞:查看當(dāng)前類型的新聞;3) 按關(guān)鍵字,時間等多條件搜索新聞:輸入關(guān)鍵字和日期進(jìn)行檢索,查看當(dāng)前符合條件的新聞;4) 查看新聞類別分析柱狀圖:輸入日期進(jìn)行檢索,可查看當(dāng)前日期下的新聞類別的分析柱狀圖,在沒有日期限制的條件下就顯示全部新聞的類別分析柱狀圖;5) 查看新聞小類別分析柱狀圖:輸入日期進(jìn)行檢索,可查看當(dāng)前日期下的新聞小類別的分析柱狀圖,在沒有日期限制的條件下就顯示全部新聞的小類別分析柱狀圖;6) 查看新聞數(shù)量隨月份的變化折線圖:輸入日期進(jìn)行檢索,可查看對于當(dāng)前年份下的新聞數(shù)量隨月份變化的折線圖;7) 查看新聞數(shù)量在一天中的變化折線圖:輸入日期進(jìn)行檢索,可查看對于當(dāng)前日期下的新聞數(shù)量隨時間變化的折線圖; 本章小結(jié)本章節(jié)對新聞爬蟲系統(tǒng)進(jìn)行了數(shù)據(jù)庫結(jié)構(gòu)的總體設(shè)計以及系統(tǒng)功能模塊的總體設(shè)計,并對數(shù)據(jù)獲取功能模塊的子模塊以及數(shù)據(jù)可視化功能模塊的功能結(jié)構(gòu)做出了明確的劃分,為系統(tǒng)詳細(xì)設(shè)計與實現(xiàn)階段的工作備好條件。在爬蟲程序的工作過程中,需要不斷地提取符合鏈接過濾器的URL加入到爬蟲隊列中去,這些URL所指向的HTML頁面可以分為兩類:一類是可以直接從中獲取元數(shù)據(jù)的HTML頁面,另一類是包含更多符合鏈接過濾器的URL但是不能抽取元數(shù)據(jù)的HTML頁面。爬蟲程序主要由鏈接過濾子模塊、頁面解析子模塊、爬行控制子模塊以及數(shù)據(jù)存儲子模塊構(gòu)成,其模塊結(jié)構(gòu)如圖43所示:圖43 數(shù)據(jù)獲取功能模塊結(jié)構(gòu)圖1) 鏈接過濾子模塊在爬蟲程序的爬行過程中,需要不斷地向待抓取的URL隊列中添加新的URL,而爬蟲作為計算機(jī)程序具有機(jī)械執(zhí)行的特性,無法智能判斷出某一個URL是否需要進(jìn)行解析,這就要求在爬行過程中需要為爬蟲定義一個鏈接過濾器,只有符合某些條件的URL才能被過濾器所識別,其余不符合條件的URL將會被鏈接過濾器過濾掉,不會加入到待抓取的爬行隊列中去,同時對于符合條件的URL也要判斷該URL是否被爬取過,如果已被爬過則舍棄。在數(shù)據(jù)訪問層,采用JDBC直接訪問數(shù)據(jù)庫的方式,通過SQL語句操作數(shù)據(jù)庫,簡單易用。 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計良好的數(shù)據(jù)庫結(jié)構(gòu)對于保障一個應(yīng)用程序始終運(yùn)行在高性能狀態(tài)具有非常重要的意義。 性能需求分析本系統(tǒng)運(yùn)行在Windows 7 Ultimate操作系統(tǒng)上,Web服務(wù)器選用Apache Tomcat ,整個系統(tǒng)的性能指標(biāo)如下:1) 運(yùn)行環(huán)境:a) CPU:Intel Core (TM) 2 Duo E7200 b) 內(nèi)存:3 GB ( DDR2 667MHz / DDR2 800MHz )c) 帶寬:,100M網(wǎng)卡2) 運(yùn)行參數(shù):a) 最大網(wǎng)絡(luò)連接數(shù):65b) 單一主機(jī)連接數(shù):203) 下載速度:(按照平均每個頁面包含10條數(shù)據(jù)來計算)a) 最高速度:200Pages/Min,平均每分鐘抓取2000條記錄b) 最低速度:50Pages/Min,平均每分鐘抓取500條記錄4) 頁面解析速度:a) 平均速度:1000Pages/Minb) 并發(fā)解析線程數(shù):205) 資源使用率:a) 下載服務(wù):CPU占用率50%,內(nèi)存占用率500MBb) 解析服務(wù):CPU占用率70%,內(nèi)存占用率800MB 本章小結(jié) 本章主要對需求分析階段所做的相關(guān)工作進(jìn)行了描述,為后期系統(tǒng)設(shè)計和開發(fā)工作做準(zhǔn)備。 普通用戶用例分析普通用戶用例圖如圖32所示:圖32 普通用戶用例圖對于普通用戶,其使用場景分為五種:1) 查看各類新聞;2) 按關(guān)鍵字,時間等多條件搜索新聞;3) 查看新聞類別分析柱狀圖;4) 查看新聞小類別分析柱狀圖;5) 查看新聞數(shù)量隨月份的變化折線圖;6) 查看在某一天新聞數(shù)量在一天中的變化折線圖。兩者的本質(zhì)都是開啟網(wǎng)絡(luò)爬蟲對數(shù)據(jù)源網(wǎng)站根據(jù)抓取配置來執(zhí)行數(shù)據(jù)獲取的任務(wù),不同的是手動采集由管理員觸發(fā)后執(zhí)行一次特定任務(wù),增量采集會對部分更新頻率較高的網(wǎng)頁進(jìn)行周期性的抓取以達(dá)到服務(wù)器端數(shù)據(jù)庫實時更新的效果。此外,還有很重要的一個方面的用戶就是系統(tǒng)管理員,他們并不是新聞爬蟲系統(tǒng)的用戶,但是該管理員需要控制數(shù)據(jù)源的獲取邏輯,進(jìn)行數(shù)據(jù)的分析,并將分析結(jié)果進(jìn)行展示。一般來說,他們無法將精力全部花在瀏覽各大網(wǎng)站新聞和BBS上,但是他們的職責(zé)需要他們對網(wǎng)絡(luò)上的信息有一個把握,尤其是和其興趣點、切身利益相關(guān)的帖子和新聞。綜上所述,新聞爬蟲分析系統(tǒng)具有非常強(qiáng)的經(jīng)濟(jì)可行性。Google Visualization API所提供的圖表工具作為Flex程序,具有極為豐富的交互效果。2) 硬件可行性新聞爬蟲系統(tǒng)需要進(jìn)行抓取和分析的數(shù)據(jù)量非常大,這對于服務(wù)器端數(shù)據(jù)庫的承載能力要求較高,通過較長時間的測試,目前主流的服務(wù)器完全可以勝任作為輿情分析系統(tǒng)服務(wù)器的要求。 3 系統(tǒng)需求分析需求分析階段的主要工作就是分析用戶的需求是什么,是指針對軟件所要解決的問題進(jìn)行詳細(xì)的分析,明確對軟件系統(tǒng)的輸入輸出要求。作為目前最為方便易用的進(jìn)行HTML解析和信息提取的工具,HTMLParser已經(jīng)成為了抓取網(wǎng)頁數(shù)據(jù)和改造HTML的內(nèi)容的首選工具。雖然在 ,但是對于大部分應(yīng)用程序來說,JDK庫本身提供的功能還不夠豐富和靈活。發(fā)展至今,ExtJS除YUI外還支持包括jQuery、Prototype等多種JS底層庫,可以讓開發(fā)人員自由進(jìn)行選擇[8]。ExtJS可以用來開發(fā)富互聯(lián)網(wǎng)應(yīng)用(RIA:Rich Internet Applications),主要用于創(chuàng)建前端用戶界面,是一個與后臺技術(shù)無關(guān)的前端AJAX框架。近年來在Microsoft SQL Server的發(fā)展歷程中不斷更新版本:1996年發(fā)布的SQL ,該版本具備了市場所需的速度快、功能強(qiáng)、易使用和價格低等有點;1998年推出了SQL ,該版本再一次對核心數(shù)據(jù)庫引擎進(jìn)行了重大改寫,在操作上更加簡單、易用,因此獲得了良好的聲譽(yù);2000年,發(fā)布了SQL Server 2000版本,該版本在可擴(kuò)縮性和可靠性上有了很大的改進(jìn),成為企業(yè)級數(shù)據(jù)庫市場中重要的一員;2005年,發(fā)布了SQL Server 2005版本,該版本擴(kuò)展了SQL Server 2000的性能,如在可靠性、可用性、可編程性和易用性等方面做出了重大改進(jìn)。 SQL Server 2005簡介Microsoft SQL Server 2005是一個全面的數(shù)據(jù)庫平臺,使用集成的商業(yè)智能工具提供了企業(yè)級的數(shù)據(jù)管理方式。事實上,SUN設(shè)計J2EE的初衷正是為了解決兩層模式(Client/Server)的弊端。J2EE規(guī)范是這樣定義J2EE組件的:客戶端應(yīng)用程序和Applet是運(yùn)行在客戶端的組件;Java Servlet和Java Server Pages (JSP) 是運(yùn)行在服務(wù)器端的Web組件;Enterprise Java Bean (EJB )是運(yùn)行在服務(wù)器端的業(yè)務(wù)組件。因此需要在應(yīng)用中對最佳優(yōu)先策略進(jìn)行改進(jìn),以跳出局部最優(yōu)點。最佳優(yōu)先策略是按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度,或與主題的相關(guān)性,并選評價最好的一個或幾個URL進(jìn)行抓取。 廣度優(yōu)先策略是指在爬取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。 網(wǎng)絡(luò)爬蟲的相關(guān)知識與理論 網(wǎng)絡(luò)爬蟲的定義 網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從WEB上下載網(wǎng)頁,是搜索引擎的重要組成部分。第5章 對本系統(tǒng)的詳細(xì)設(shè)計和實現(xiàn)過程做出了說明,進(jìn)行了功能模塊的詳細(xì)設(shè)計并完成了系統(tǒng)的開發(fā)實現(xiàn)工作,對于數(shù)據(jù)獲取模塊以及數(shù)據(jù)可視化模塊進(jìn)行了詳細(xì)的設(shè)計實現(xiàn)和功能說明。第1章 為緒論,主要闡明了該課題的研究背景及其研究意義,簡要說明了國內(nèi)外對于爬蟲系統(tǒng)的研究現(xiàn)狀,并介紹了本論文的主要內(nèi)容組成以及論文的組織結(jié)構(gòu)。在該系統(tǒng)中由模式匹配模塊計算相關(guān)度,采取漫游模型來進(jìn)行后期的持續(xù)檢索。在這個過程中,分類器會確定他們的層級關(guān)系,確定之后,頁面的鏈接便會加入隊列,由此提取到所有需要進(jìn)行抓取的網(wǎng)頁[3]。美國人Diligenti采取建立上下文圖的方式設(shè)計出了聚焦爬蟲,他們將其命名為Context Graphs Focused Crawler。 Focused Crawler,這是一種全新的爬行系統(tǒng)。 時至今日,聚焦爬蟲技術(shù)取得了長足的發(fā)展和進(jìn)步,國外典型的系統(tǒng)包括CORA、IBM Focused Crawler等。當(dāng)用戶在專業(yè)領(lǐng)域進(jìn)行搜索時,可以將詞庫和爬蟲結(jié)合起來進(jìn)行檢索。這樣通過對照就可以分析得出結(jié)論,從關(guān)系網(wǎng)絡(luò)的角度入手,就能將互聯(lián)網(wǎng)上大量的網(wǎng)頁進(jìn)行分類。 國內(nèi)外相關(guān)研究現(xiàn)狀 網(wǎng)絡(luò)爬蟲從搜索對象上來分類,主流的的爬蟲技術(shù)包括以下兩種:第一種是基于鏈接分析的搜索。一方面,新聞爬蟲系統(tǒng)提供了大量的分析素材,方便全面的了解大眾網(wǎng)絡(luò)新聞的熱點。 人性化 新聞爬蟲系統(tǒng)的人性化主要體現(xiàn)在數(shù)據(jù)結(jié)果的展示上。 專用性 新聞爬蟲系統(tǒng)的專用性體現(xiàn)在數(shù)據(jù)采集,數(shù)據(jù)分析,數(shù)據(jù)展現(xiàn)等幾個環(huán)節(jié)上。本課題來源于新聞爬蟲系統(tǒng)項目的建設(shè),旨在為相關(guān)機(jī)構(gòu)提供及時的網(wǎng)絡(luò)信息服務(wù)。網(wǎng)絡(luò)爬蟲是一種按照一定上網(wǎng)規(guī)則,自動的抓取萬維網(wǎng)信息的程序或腳本。由于互聯(lián)網(wǎng)是開放的,每個人都可以在網(wǎng)絡(luò)上發(fā)表信息,內(nèi)容涉及各個方面。本文主要進(jìn)行了以下幾個方面的工作: 1)利用Java語言結(jié)合HTTPClient開源工具編寫了一個針對新浪新聞的可擴(kuò)展的網(wǎng)絡(luò)爬蟲,該爬蟲程序能夠按照廣度優(yōu)先的爬行策略對新聞數(shù)據(jù)(包括圖片信息)進(jìn)行全面的定向抓取以及周期性的增量抓?。?)采用HTMLParser對獲取到的新聞信息進(jìn)行元數(shù)據(jù)抽取,將新聞的編號、標(biāo)題、內(nèi)容、發(fā)布方、發(fā)布時間等元數(shù)據(jù)以及新聞圖片等元數(shù)據(jù)解析出來并存入SQL Server數(shù)據(jù)庫中;3)前端界面利用開源AJAX框架ExtJS結(jié)合Servlet進(jìn)行實現(xiàn),兼顧用戶交互方式的多樣性以及系統(tǒng)的跨瀏覽器兼容性。為了及時了解網(wǎng)絡(luò)新聞熱點,相關(guān)機(jī)構(gòu)引入了新聞熱點分析系統(tǒng)。本文設(shè)計的新聞爬蟲系統(tǒng)是新聞熱點分析系統(tǒng)的數(shù)據(jù)源,負(fù)責(zé)新聞信息的采集。通過使用該新聞爬取系統(tǒng),用戶能夠?qū)崟r的更新新聞信息,及時、全面、準(zhǔn)確地掌握新聞
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1