freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-在線瀏覽

2024-09-15 07:56本頁(yè)面
  

【正文】 采集會(huì)對(duì)部分更新頻率較高的網(wǎng)頁(yè)進(jìn)行周期性的抓取以達(dá)到服務(wù)器端數(shù)據(jù)庫(kù)實(shí)時(shí)更新的效果。4) 進(jìn)入WEB頁(yè)測(cè)試本地服務(wù)器和系統(tǒng)是否運(yùn)行正常。 普通用戶(hù)用例分析普通用戶(hù)用例圖如圖32所示:圖32 普通用戶(hù)用例圖對(duì)于普通用戶(hù),其使用場(chǎng)景分為五種:1) 查看各類(lèi)新聞;2) 按關(guān)鍵字,時(shí)間等多條件搜索新聞;3) 查看新聞?lì)悇e分析柱狀圖;4) 查看新聞小類(lèi)別分析柱狀圖;5) 查看新聞數(shù)量隨月份的變化折線圖;6) 查看在某一天新聞數(shù)量在一天中的變化折線圖。 功能需求分析根據(jù)上文對(duì)于用戶(hù)用例的分析,可以總結(jié)出本系統(tǒng)的功能需求:1) 針對(duì)管理員用戶(hù):a) 對(duì)爬蟲(chóng)爬取的數(shù)據(jù)源進(jìn)行便捷的管理操作,包括對(duì)數(shù)據(jù)源的增 加和刪除以及對(duì)于數(shù)據(jù)抓取策略的修改;b) 觸發(fā)一次數(shù)據(jù)采集的過(guò)程,包括指定一次手動(dòng)采集的過(guò)程和觸 發(fā)一次定時(shí)采集的過(guò)程以實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)獲取和增量獲??;c) 對(duì)于數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析;d) 具備普通用戶(hù)能夠使用的所有功能,可進(jìn)入WEB頁(yè)測(cè)試本地 服務(wù)器和系統(tǒng)是否運(yùn)行正常。 性能需求分析本系統(tǒng)運(yùn)行在Windows 7 Ultimate操作系統(tǒng)上,Web服務(wù)器選用Apache Tomcat ,整個(gè)系統(tǒng)的性能指標(biāo)如下:1) 運(yùn)行環(huán)境:a) CPU:Intel Core (TM) 2 Duo E7200 b) 內(nèi)存:3 GB ( DDR2 667MHz / DDR2 800MHz )c) 帶寬:,100M網(wǎng)卡2) 運(yùn)行參數(shù):a) 最大網(wǎng)絡(luò)連接數(shù):65b) 單一主機(jī)連接數(shù):203) 下載速度:(按照平均每個(gè)頁(yè)面包含10條數(shù)據(jù)來(lái)計(jì)算)a) 最高速度:200Pages/Min,平均每分鐘抓取2000條記錄b) 最低速度:50Pages/Min,平均每分鐘抓取500條記錄4) 頁(yè)面解析速度:a) 平均速度:1000Pages/Minb) 并發(fā)解析線程數(shù):205) 資源使用率:a) 下載服務(wù):CPU占用率50%,內(nèi)存占用率500MBb) 解析服務(wù):CPU占用率70%,內(nèi)存占用率800MB 本章小結(jié) 本章主要對(duì)需求分析階段所做的相關(guān)工作進(jìn)行了描述,為后期系統(tǒng)設(shè)計(jì)和開(kāi)發(fā)工作做準(zhǔn)備。 4 系統(tǒng)總體設(shè)計(jì)系統(tǒng)需求分析階段主要提出了系統(tǒng)需要做什么,系統(tǒng)設(shè)計(jì)階段需要解決的問(wèn)題就是系統(tǒng)需要怎么做。 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)良好的數(shù)據(jù)庫(kù)結(jié)構(gòu)對(duì)于保障一個(gè)應(yīng)用程序始終運(yùn)行在高性能狀態(tài)具有非常重要的意義。過(guò)多的重復(fù)性數(shù)據(jù)會(huì)嚴(yán)重影響系統(tǒng)的執(zhí)行性能,當(dāng)這些數(shù)據(jù)的一個(gè)實(shí)例發(fā)生改變時(shí),其他數(shù)據(jù)也都要進(jìn)行相應(yīng)的改變。在數(shù)據(jù)訪問(wèn)層,采用JDBC直接訪問(wèn)數(shù)據(jù)庫(kù)的方式,通過(guò)SQL語(yǔ)句操作數(shù)據(jù)庫(kù),簡(jiǎn)單易用。其總體的工程如圖42所示:數(shù)據(jù)存儲(chǔ):將獲取的新聞數(shù)據(jù)存入數(shù)據(jù)庫(kù)中數(shù)據(jù)取得:利用爬蟲(chóng)程序獲得網(wǎng)頁(yè)中的新聞數(shù)據(jù)數(shù)據(jù)爬取選擇:選擇要爬取得新聞?lì)悇e和方式 開(kāi)始 數(shù)據(jù)可視化:將新聞信息以及分析結(jié)果輸?shù)角芭_(tái) 開(kāi)始 圖42 系統(tǒng)主要工作流程 數(shù)據(jù)獲取功能模塊在該新聞爬蟲(chóng)系統(tǒng)中,數(shù)據(jù)的獲取主要依靠網(wǎng)絡(luò)爬蟲(chóng)來(lái)實(shí)現(xiàn)。爬蟲(chóng)程序主要由鏈接過(guò)濾子模塊、頁(yè)面解析子模塊、爬行控制子模塊以及數(shù)據(jù)存儲(chǔ)子模塊構(gòu)成,其模塊結(jié)構(gòu)如圖43所示:圖43 數(shù)據(jù)獲取功能模塊結(jié)構(gòu)圖1) 鏈接過(guò)濾子模塊在爬蟲(chóng)程序的爬行過(guò)程中,需要不斷地向待抓取的URL隊(duì)列中添加新的URL,而爬蟲(chóng)作為計(jì)算機(jī)程序具有機(jī)械執(zhí)行的特性,無(wú)法智能判斷出某一個(gè)URL是否需要進(jìn)行解析,這就要求在爬行過(guò)程中需要為爬蟲(chóng)定義一個(gè)鏈接過(guò)濾器,只有符合某些條件的URL才能被過(guò)濾器所識(shí)別,其余不符合條件的URL將會(huì)被鏈接過(guò)濾器過(guò)濾掉,不會(huì)加入到待抓取的爬行隊(duì)列中去,同時(shí)對(duì)于符合條件的URL也要判斷該URL是否被爬取過(guò),如果已被爬過(guò)則舍棄。一方面,能夠被過(guò)濾器識(shí)別的URL符合用戶(hù)預(yù)定義的過(guò)濾規(guī)則,這些URL全部都是用戶(hù)所期望獲取的數(shù)據(jù)來(lái)源,數(shù)據(jù)抓取的準(zhǔn)確性得到很好的保證;另一方面,由于大量不符合條件的URL都被過(guò)濾掉了,爬行隊(duì)列中僅僅加入符合條件的URL,大大節(jié)省了寶貴的內(nèi)存空間。在爬蟲(chóng)程序的工作過(guò)程中,需要不斷地提取符合鏈接過(guò)濾器的URL加入到爬蟲(chóng)隊(duì)列中去,這些URL所指向的HTML頁(yè)面可以分為兩類(lèi):一類(lèi)是可以直接從中獲取元數(shù)據(jù)的HTML頁(yè)面,另一類(lèi)是包含更多符合鏈接過(guò)濾器的URL但是不能抽取元數(shù)據(jù)的HTML頁(yè)面。頁(yè)面解析子模塊的工作方式如圖45所示:圖45 頁(yè)面解析子模塊3) 爬行控制子模塊爬行控制模塊是整個(gè)爬蟲(chóng)程序的核心,它控制著整個(gè)爬蟲(chóng)的抓取策略(寬度優(yōu)先或者深度優(yōu)先)以及停止條件。數(shù)據(jù)存儲(chǔ)子模塊的工作流程如圖47所示:圖47 數(shù)據(jù)存儲(chǔ)子模塊 數(shù)據(jù)可視化功能模塊 數(shù)據(jù)可視化功能模塊查看新聞內(nèi)容查看新聞小類(lèi)別圖表歡迎頁(yè)面查看符合條件新聞列表查看新聞?lì)悇e分析圖表查看一天中新聞變化查看新聞隨月份變化圖 圖48 數(shù)據(jù)可視化功能結(jié)構(gòu)圖系統(tǒng)可視化功能模塊的主要功能結(jié)構(gòu)如圖48所示,通過(guò)ExtJS結(jié)合Google Visualization API進(jìn)行構(gòu)建,其主要功能包括:1) 顯示歡迎頁(yè):用戶(hù)進(jìn)入本系統(tǒng)后顯示歡迎信息并對(duì)系統(tǒng)主要功能進(jìn) 展示;2) 查看各類(lèi)新聞:查看當(dāng)前類(lèi)型的新聞;3) 按關(guān)鍵字,時(shí)間等多條件搜索新聞:輸入關(guān)鍵字和日期進(jìn)行檢索,查看當(dāng)前符合條件的新聞;4) 查看新聞?lì)悇e分析柱狀圖:輸入日期進(jìn)行檢索,可查看當(dāng)前日期下的新聞?lì)悇e的分析柱狀圖,在沒(méi)有日期限制的條件下就顯示全部新聞的類(lèi)別分析柱狀圖;5) 查看新聞小類(lèi)別分析柱狀圖:輸入日期進(jìn)行檢索,可查看當(dāng)前日期下的新聞小類(lèi)別的分析柱狀圖,在沒(méi)有日期限制的條件下就顯示全部新聞的小類(lèi)別分析柱狀圖;6) 查看新聞數(shù)量隨月份的變化折線圖:輸入日期進(jìn)行檢索,可查看對(duì)于當(dāng)前年份下的新聞數(shù)量隨月份變化的折線圖;7) 查看新聞數(shù)量在一天中的變化折線圖:輸入日期進(jìn)行檢索,可查看對(duì)于當(dāng)前日期下的新聞數(shù)量隨時(shí)間變化的折線圖; 本章小結(jié)本章節(jié)對(duì)新聞爬蟲(chóng)系統(tǒng)進(jìn)行了數(shù)據(jù)庫(kù)結(jié)構(gòu)的總體設(shè)計(jì)以及系統(tǒng)功能模塊的總體設(shè)計(jì),并對(duì)數(shù)據(jù)獲取功能模塊的子模塊以及數(shù)據(jù)可視化功能模塊的功能結(jié)構(gòu)做出了明確的劃分,為系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)階段的工作備好條件。 數(shù)據(jù)獲取模塊數(shù)據(jù)獲取模塊主要利用Java語(yǔ)言結(jié)合HTTPClient開(kāi)源工具編寫(xiě)了一個(gè)針對(duì)新聞的可擴(kuò)展的網(wǎng)絡(luò)爬蟲(chóng),該爬蟲(chóng)程序能夠按照廣度優(yōu)先的爬行策略對(duì)新聞數(shù)據(jù)進(jìn)行全面的定向抓取以及周期性的增量抓取。 爬蟲(chóng)程序初始界面爬蟲(chóng)程序的初始界面如圖51所示。界面下方的空白區(qū)域使用JTextArea實(shí)現(xiàn),其作用是截獲系統(tǒng)的控制臺(tái)輸出并進(jìn)行顯示,用于指示當(dāng)前的爬行動(dòng)態(tài)信息。圖51 爬蟲(chóng)程序初始界面 “建立連接”操作用戶(hù)點(diǎn)擊“建立連接”按鈕可以獲取到數(shù)據(jù)庫(kù)的連接,通過(guò)點(diǎn)擊“測(cè)試連接”按鈕可以連接到測(cè)試數(shù)據(jù)庫(kù)進(jìn)行各類(lèi)測(cè)試操作而不影響主數(shù)據(jù)庫(kù)的數(shù)據(jù)。操作效果如圖52所示:圖52 “建立連接”操作 “開(kāi)始爬行”操作用戶(hù)在取得到數(shù)據(jù)庫(kù)的連接之后,可以通過(guò)選擇新聞?lì)悇e(可細(xì)分為china、world、society、mil)開(kāi)始抓取數(shù)據(jù),數(shù)據(jù)來(lái)源和爬行限制選項(xiàng)可在界面上部進(jìn)行控制。 圖53 需要抓取的新聞列表圖54 正在進(jìn)行抓取圖55 新聞信息已寫(xiě)入數(shù)據(jù)庫(kù)中 數(shù)據(jù)可視化模塊 歡迎頁(yè)用戶(hù)在進(jìn)入新聞爬蟲(chóng)系統(tǒng)后,系統(tǒng)會(huì)彈出歡迎頁(yè)面,并對(duì)該系統(tǒng)主要功能進(jìn)行顯示。例如在新聞?lì)悇e下選國(guó)內(nèi)下的港澳臺(tái)快訊,然后輸入關(guān)鍵字,日期關(guān)鍵字為“臺(tái)灣”時(shí)間為20140609,進(jìn)行檢索,則檢索過(guò)程圖如圖57所示: 圖57檢索過(guò)程圖檢索的結(jié)果圖如下圖58所示: 圖58 檢索結(jié)果圖當(dāng)點(diǎn)擊第二個(gè)結(jié)果時(shí)新聞內(nèi)容展示圖如下圖59所示:圖59新聞內(nèi)容展示圖 按時(shí)辰分析折線圖用戶(hù)需要輸入日期進(jìn)行檢索,查看當(dāng)前日期下的新聞數(shù)量隨時(shí)間的變化圖。 新聞?lì)悇e分析柱狀圖用戶(hù)需要輸入日期進(jìn)行檢索,查看當(dāng)前日期下的相應(yīng)類(lèi)別的新聞數(shù)量,當(dāng)用戶(hù)不輸入日期時(shí)就顯示相應(yīng)類(lèi)型的全部的新聞數(shù)量。當(dāng)輸入時(shí)間為“20140608”時(shí)國(guó)內(nèi)新聞69條,國(guó)外29條,社會(huì)23條,軍事12條,可見(jiàn)仍然是軍事新聞數(shù)量最少。分析柱狀圖如圖513和514所示:圖513 未輸入任何日期的柱狀分析圖 圖5154輸入20140608后的類(lèi)型柱狀分析圖結(jié)果顯示不管是新聞總數(shù)還是某一天的新聞數(shù)各地新聞的數(shù)量都是做多的,其次就是社會(huì)萬(wàn)象,而最少的應(yīng)屬奇聞?shì)W事和環(huán)球新聞。 6 系統(tǒng)測(cè)試與發(fā)布 系統(tǒng)測(cè)試是針對(duì)整個(gè)產(chǎn)品系統(tǒng)進(jìn)行的測(cè)試,目的是驗(yàn)證系統(tǒng)是否滿足了需求規(guī)格的定義,找出與需求規(guī)格不符或與之矛盾的地方,從而提出更加完善的方案。 軟件測(cè)試的目標(biāo)和方法 軟件測(cè)試的目的軟件測(cè)試的目的是指發(fā)現(xiàn)軟件中的錯(cuò)誤和缺陷并加以改正,它不僅是軟件開(kāi)發(fā)階段的有機(jī)組成部分,而且在軟件工程(即軟件定義、設(shè)計(jì)和開(kāi)發(fā)過(guò)程)中占據(jù)相當(dāng)大的比重??梢苑?wù)于測(cè)試目標(biāo)的規(guī)則為: 測(cè)試是一個(gè)為了發(fā)現(xiàn)錯(cuò)誤而執(zhí)行程序的過(guò)程。 一個(gè)成功的測(cè)試是指揭示了迄今為止尚未發(fā)現(xiàn)錯(cuò)誤的測(cè)試[9]。首先,測(cè)試并不僅僅是為了要找出錯(cuò)誤,通過(guò)分析錯(cuò)誤產(chǎn)生的原因和錯(cuò)誤的分布特征,可以幫助項(xiàng)目管理者發(fā)現(xiàn)當(dāng)前所采用的軟件過(guò)程的缺陷以便改進(jìn);其次,沒(méi)有發(fā)現(xiàn)錯(cuò)誤的測(cè)試也是有價(jià)值的,完整的測(cè)試是評(píng)定軟件質(zhì)量的方法之一。軟件的黑盒測(cè)試又稱(chēng)為“行為測(cè)試”,這種方法把測(cè)試對(duì)象看作一個(gè)黑盒子 ,測(cè)試人員可以完全不考慮程序內(nèi)部的邏輯結(jié)構(gòu)和內(nèi)部特性,只需要依據(jù)程序的需求規(guī)格說(shuō)明書(shū),檢查程序的功能是否符合其需求。軟件的白盒測(cè)試又稱(chēng)為“結(jié)構(gòu)測(cè)試”,這種方法是把測(cè)試對(duì)象看作一個(gè)打開(kāi)的盒子,它允許測(cè)試人員利用程序內(nèi)部的邏輯結(jié)構(gòu)以及有關(guān)信息來(lái)設(shè)計(jì)或選擇測(cè)試用例,從而對(duì)程序所有邏輯路徑進(jìn)行測(cè)試,檢查程序的功能是否符合其功能需求。 測(cè)試用例 測(cè)試用例設(shè)計(jì)原則測(cè)試用例是一份關(guān)于具體測(cè)試步驟的文檔,它描述了測(cè)試的輸入?yún)?shù)、條件以及配置、預(yù)期的輸出結(jié)果等,以判斷被測(cè)軟件的工作是否正常。 設(shè)計(jì)測(cè)試用例針對(duì)系統(tǒng)不同的功能模塊,設(shè)計(jì)8個(gè)測(cè)試用例分別進(jìn)行測(cè)試,如表61至表68所示:表61 測(cè)試用例一測(cè)試用例編號(hào)Testing_Crawling測(cè)試項(xiàng)目數(shù)據(jù)獲取模塊手動(dòng)抓取功能預(yù)設(shè)條件當(dāng)前已連接到數(shù)據(jù)庫(kù)服務(wù)器輸入數(shù)據(jù)源URL種子集合操作步驟(1)選擇數(shù)據(jù)來(lái)源(2)點(diǎn)擊“爬取所有新聞”按鈕預(yù)期輸出(1) 抓取的數(shù)據(jù)逐條存入數(shù)據(jù)庫(kù)中(2) 抓取狀態(tài)實(shí)時(shí)輸出至控制臺(tái)狀態(tài)欄表62 測(cè)試用例二測(cè)試用例編號(hào)Testing_KeepCrawling測(cè)試項(xiàng)目數(shù)據(jù)獲取模塊增量抓取功能預(yù)設(shè)條件當(dāng)前已連接到數(shù)據(jù)庫(kù)服務(wù)器輸入需要進(jìn)行增量采集(周期性任務(wù))的頁(yè)面URL操作步驟(1)選擇數(shù)據(jù)來(lái)源(2)點(diǎn)擊“增量抓取”按鈕預(yù)期輸出(1) 增量抓取的數(shù)據(jù)逐條存入數(shù)據(jù)庫(kù)中(2) 抓取狀態(tài)實(shí)時(shí)輸出至控制臺(tái)狀態(tài)欄(3) 抓取任務(wù)定時(shí)進(jìn)行觸發(fā)表63 測(cè)試用例三測(cè)試用例編號(hào)Testing_VisualGragf測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊分析圖預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入(1) 需要進(jìn)行檢索的關(guān)鍵詞(2) 檢索日期操作步驟(1)輸入關(guān)鍵詞和日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出與該關(guān)鍵詞相關(guān)的新聞標(biāo)題以及新聞發(fā)布時(shí)間表64 測(cè)試用例四測(cè)試用例編號(hào)Testing_NewsContent測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊新聞內(nèi)容展現(xiàn)預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入輸入查看的新聞標(biāo)題操作步驟點(diǎn)擊要查看的新聞的標(biāo)題預(yù)期輸出該新聞的正文內(nèi)容表65 測(cè)試用例五測(cè)試用例編號(hào)Testing_TypeAnalysis測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊新聞?lì)愋头治鲋鶢顖D預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入需要進(jìn)行檢索的日期操作步驟(1)輸入日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出(1) 新聞?lì)愋头治霰恚?) 新聞?lì)愋头治鲋鶢顖D表66 測(cè)試用例六測(cè)試用例編號(hào)Testing_SmallTypeAnalysis測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊新聞小類(lèi)型分析柱狀圖預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入需要進(jìn)行檢索的日期操作步驟(1)輸入日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出(1)新聞小類(lèi)型分析表(2)新聞小類(lèi)型分析柱狀圖表67 測(cè)試用例七測(cè)試用例編號(hào)Testing_DayTime測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊一天中新聞數(shù)量變化折線圖預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入需要進(jìn)行檢索的日期操作步驟(1)輸入日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出新聞數(shù)量隨時(shí)間變化折線圖表68 測(cè)試用例八測(cè)試用例編號(hào)Testing_yearTime測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊一年中新聞數(shù)量變化折線圖預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入需要進(jìn)行檢索的日期操作步驟(1)輸入日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出(1) 新聞數(shù)量隨月份變化折線圖(2)新聞數(shù)量按月份變化分析表 測(cè)試結(jié)果軟件測(cè)試的步驟執(zhí)行過(guò)后,整個(gè)測(cè)試活動(dòng)并未結(jié)束而對(duì)于測(cè)試結(jié)果分析才是最為重要的環(huán)節(jié),詳細(xì)分析并總結(jié)測(cè)試結(jié)果對(duì)下一輪測(cè)試工作的開(kāi)展具有很大的借鑒意義。盡管已經(jīng)進(jìn)行了詳細(xì)的測(cè)試分析,但在
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1