freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文(留存版)

2025-09-19 07:56上一頁面

下一頁面
  

【正文】 和管理用于業(yè)務(wù)的高可用和高性能的數(shù)據(jù)應(yīng)用程序。HTTPClient已經(jīng)應(yīng)用在很多大型的項目中,比如Apache Jakarta上很著名的另外兩個開源項目Cactus和HTMLUnit都使用了HTTPClient。兩者相結(jié)合開發(fā)出的前臺網(wǎng)頁,保證了良好的用戶體驗,能夠滿足用戶實際操作的需要。3) 對于數(shù)據(jù)庫中的新聞信息進行分析。根據(jù)本系統(tǒng)的實際需求,數(shù)據(jù)庫中需要具備的基本表有三個:1) (如表41所示)表41 帖子信息列表字段名字段類型字段限制注釋news_idINT主鍵新聞編號News_urlNVARCHARnot null數(shù)據(jù)來源news_titleNVARCHARnot null新聞標題news_pudbateNVARCHARnot null新聞發(fā)布時間news_mediaNVARCHARnot null新聞發(fā)布方news_contentNVARCHARnot null新聞內(nèi)容news_typeINTnot null新聞類型編號news_typenameNVARCHARnot null新聞類型news_typecodeINTnot null新聞類型編碼news_smalltypeNVARCHARnot null新聞詳細類別news_pictureNVARCHAR無新聞圖片2) (如表42所示)表42 數(shù)據(jù)源信息列表字段名字段類型字段限制注釋url_idINT主鍵數(shù)據(jù)源編號urlVARCHARnot null數(shù)據(jù)源名稱3) (如表43所示)表43情感傾向標注列表字段名字段類型字段限制注釋type_idINT主鍵新聞類型編號type_contentVARCHARnot null新聞類型type_codeINTnot null新聞類型編碼smalltypeVARCHARnot null新聞詳細類別這三個表之間的實體關(guān)系圖如圖41所示:圖41 數(shù)據(jù)庫實體關(guān)系圖 系統(tǒng)功能模塊設(shè)計整個新聞爬蟲系統(tǒng)應(yīng)該包括四部分的功能模塊:爬取類別的選擇、數(shù)據(jù)獲取模塊、數(shù)據(jù)存入模塊、數(shù)據(jù)分析以及數(shù)據(jù)可視化模塊。本程序利用SWING實現(xiàn),界面上方是功能選區(qū),管理員用戶可以指定爬行操作的數(shù)據(jù)源,進行數(shù)據(jù)抓取過程的相關(guān)操作。 本章小結(jié) 本章節(jié)對新聞爬蟲系統(tǒng)進行了功能模塊的詳細設(shè)計并完成了系統(tǒng)的開發(fā)實現(xiàn)工作,對于數(shù)據(jù)獲取模塊以及數(shù)據(jù)可視化模塊進行了詳細的設(shè)計實現(xiàn)和功能說明。測試用例編寫應(yīng)該遵循的原則如下:1)測試用例要達到最大覆蓋軟件系統(tǒng)的功能點,測試工程師應(yīng)該在測試計劃編寫完成之后,在開發(fā)階段編寫測試用例,參考需求規(guī)格說明書和軟件功能點對每個功能點進行操作上的細化,盡可能趨向最大需求覆蓋率;2)測試用例對測試功能點、測試條件、測試步驟、輸入值和預(yù)期結(jié)果應(yīng)該有準確的定義;3)測試用例的設(shè)計應(yīng)該包括各種類型的測試用例,在設(shè)計測試用例時,除了滿足系統(tǒng)基本功能需求外,還應(yīng)該考慮各種異常情況、邊界情況和承受壓力的能力等。 盡管在本次畢業(yè)設(shè)計過程中我基本上設(shè)計實現(xiàn)了一個新聞爬蟲系統(tǒng)并對其中的數(shù)據(jù)采集和數(shù)據(jù)可視化模塊有了較深的理解,可我深知想要設(shè)計出一個多數(shù)據(jù)源且功能強大的智能新聞爬取分析系統(tǒng)還需要付出更多的努力。在本次畢業(yè)設(shè)計的過程中,通過對網(wǎng)絡(luò)爬蟲模塊以及新聞信息可視化模塊的設(shè)計和實現(xiàn),我的編程思想有了較大轉(zhuǎn)變,對于一些編程語言和開發(fā)工具的運用能力有了較大提升,對于一個整體的項目開發(fā)流程也有了整體的把握,主要心得體會如下:首先,對于一個我們不太熟悉的項目,我們首先要做的就是學(xué)習(xí)做這個項目所必需的知識技術(shù)。 軟件測試的方法軟件測試用例的設(shè)計方法大體可分為兩類:黑盒測試和白盒測試。例如日期設(shè)定為“20140608”,進行分析,則顯示出的統(tǒng)計圖如圖510所示:圖510 按時辰分析折線圖根據(jù)分析結(jié)果可以看到新聞發(fā)布的高峰期以及新聞發(fā)布數(shù)量隨時間變化的趨勢。爬行控制子模塊的工作流程如圖46所示:圖46 爬行控制子模塊4) 數(shù)據(jù)存儲子模塊在每次進行完HTML頁面的信息抽取之后,都要將所有獲取到的元數(shù)據(jù)寫入到數(shù)據(jù)庫中去,另外還需要將本次抓取的URL也寫入數(shù)據(jù)庫中。系統(tǒng)設(shè)計階段的主要參考依據(jù)是需求分析階段得出的相關(guān)結(jié)果,據(jù)此進行系統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計和功能模塊設(shè)計,本階段的工作是對上一階段分析結(jié)果的進一步具體化。 對于行政機構(gòu)類用戶,他們需要對國內(nèi)重點論壇和新聞門戶網(wǎng)站,也包含國外部分敏感網(wǎng)站,特別是國外的Twitter,F(xiàn)acebook等網(wǎng)站進行一些監(jiān)控,以對一些敏感事件進行及時的發(fā)現(xiàn)、后續(xù)跟蹤,同時對于民意的聽取也很感興趣,從而做到對特殊事件的早發(fā)現(xiàn)、早預(yù)警,為及時處置奠定基礎(chǔ)。新聞信息的可視化模塊可以通過借助Google Visualization API動態(tài)地將新聞顯示在交互方式非常豐富的圖表上,再結(jié)合ExtJS構(gòu)建一個富互聯(lián)網(wǎng)應(yīng)用,整個系統(tǒng)能夠提供良好的用戶體驗。ExtJS的組件結(jié)構(gòu)如圖23所示:圖23 ExtJS組件結(jié)構(gòu)圖ExtJS初期僅是對Yahoo! UI的對話框擴展,后來逐漸有了自己的特色,深受技術(shù)研發(fā)人員的喜愛。J2EE使用多層的分布式應(yīng)用模型,應(yīng)用邏輯按功能劃分為組件,各個應(yīng)用組件根據(jù)他們所在的層分布在不同的機器上。深度優(yōu)先在很多時候會導(dǎo)致爬蟲的陷入問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。IDGS 能夠在萬維網(wǎng)上對信息進行自動查詢,采用向量空間模型技術(shù)對內(nèi)容進行檢索,同時利用權(quán)重評價技術(shù)來進行統(tǒng)計。后來在1998年和1999年相繼出現(xiàn)了Shark Search System和聚焦爬蟲(Focused Crawler)[1]。 新聞爬蟲系統(tǒng)項目建設(shè)意義重大。網(wǎng)絡(luò)新聞熱點通常形成迅速,多是人們對于日常生活中的各種問題發(fā)表的各種意見,評論,態(tài)度,情緒等,隨著事件的發(fā)展而變化,是反映社會熱點的重要載體之一。本文借助于爬蟲領(lǐng)域的相關(guān)技術(shù)與工具,結(jié)合新聞熱點分析系統(tǒng)的需求從原理或工作流程上詳細論述了爬蟲系統(tǒng)中核心模塊的具體實現(xiàn)。 及時性新聞爬蟲系統(tǒng)通過爬蟲技術(shù)自動爬取新聞信息,定期對相應(yīng)類型的新聞的地址進行掃描,如若該新聞并未被爬取過則對其進行自動爬取。專家們通過社會間人與人的關(guān)系網(wǎng),設(shè)計研發(fā)出了頁面間的超鏈接關(guān)系網(wǎng)絡(luò)。分類器主要用于計算相關(guān)度,而選擇器用來確定主要頁面。第3章 對本系統(tǒng)進行了需求分析,首先從技術(shù)可行性、操作可行性和經(jīng)濟可行性三個方面對系統(tǒng)可行性進行了評估,隨后對系統(tǒng)的用戶對象和用戶用況從管理員用戶和普通用戶兩個角度進行了詳細的分析,并分別總結(jié)出了相應(yīng)的功能需求,最后對系統(tǒng)的性能需求進行了簡要分析。存在的一個問題是,在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略。SQL Server是由Microsoft開發(fā)和推廣的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(DBMS),它最初是由Microsoft、Sybase、AshtonTate三家公司共同開發(fā)的,并于1988年推出了第一個在OS/2版本上運行的SQL Server系統(tǒng)。HTTPClient所提供的主要功能包括:1) 實現(xiàn)了所有HTTP的方法(GET,POST,PUT,HEAD 等);2) 支持自動轉(zhuǎn)向;3) 支持 HTTPS 協(xié)議;4) 支持代理服務(wù)器。 經(jīng)濟可行性經(jīng)過不斷的系統(tǒng)完善和功能增強過程,成型之后的新聞爬蟲系統(tǒng)能夠為各個行業(yè)按需提供不同的服務(wù)。4) 進入WEB頁測試本地服務(wù)器和系統(tǒng)是否運行正常。其總體的工程如圖42所示:數(shù)據(jù)存儲:將獲取的新聞數(shù)據(jù)存入數(shù)據(jù)庫中數(shù)據(jù)取得:利用爬蟲程序獲得網(wǎng)頁中的新聞數(shù)據(jù)數(shù)據(jù)爬取選擇:選擇要爬取得新聞類別和方式 開始 數(shù)據(jù)可視化:將新聞信息以及分析結(jié)果輸?shù)角芭_ 開始 圖42 系統(tǒng)主要工作流程 數(shù)據(jù)獲取功能模塊在該新聞爬蟲系統(tǒng)中,數(shù)據(jù)的獲取主要依靠網(wǎng)絡(luò)爬蟲來實現(xiàn)。界面下方的空白區(qū)域使用JTextArea實現(xiàn),其作用是截獲系統(tǒng)的控制臺輸出并進行顯示,用于指示當前的爬行動態(tài)信息。 6 系統(tǒng)測試與發(fā)布 系統(tǒng)測試是針對整個產(chǎn)品系統(tǒng)進行的測試,目的是驗證系統(tǒng)是否滿足了需求規(guī)格的定義,找出與需求規(guī)格不符或與之矛盾的地方,從而提出更加完善的方案。 設(shè)計測試用例針對系統(tǒng)不同的功能模塊,設(shè)計8個測試用例分別進行測試,如表61至表68所示:表61 測試用例一測試用例編號Testing_Crawling測試項目數(shù)據(jù)獲取模塊手動抓取功能預(yù)設(shè)條件當前已連接到數(shù)據(jù)庫服務(wù)器輸入數(shù)據(jù)源URL種子集合操作步驟(1)選擇數(shù)據(jù)來源(2)點擊“爬取所有新聞”按鈕預(yù)期輸出(1) 抓取的數(shù)據(jù)逐條存入數(shù)據(jù)庫中(2) 抓取狀態(tài)實時輸出至控制臺狀態(tài)欄表62 測試用例二測試用例編號Testing_KeepCrawling測試項目數(shù)據(jù)獲取模塊增量抓取功能預(yù)設(shè)條件當前已連接到數(shù)據(jù)庫服務(wù)器輸入需要進行增量采集(周期性任務(wù))的頁面URL操作步驟(1)選擇數(shù)據(jù)來源(2)點擊“增量抓取”按鈕預(yù)期輸出(1) 增量抓取的數(shù)據(jù)逐條存入數(shù)據(jù)庫中(2) 抓取狀態(tài)實時輸出至控制臺狀態(tài)欄(3) 抓取任務(wù)定時進行觸發(fā)表63 測試用例三測試用例編號Testing_VisualGragf測試項目數(shù)據(jù)可視化模塊分析圖預(yù)設(shè)條件TOMCAT服務(wù)器已開啟輸入(1) 需要進行檢索的關(guān)鍵詞(2) 檢索日期操作步驟(1)輸入關(guān)鍵詞和日期(2)點擊“搜索”按鈕預(yù)期輸出與該關(guān)鍵詞相關(guān)的新聞標題以及新聞發(fā)布時間表64 測試用例四測試用例編號Testing_NewsContent測試項目數(shù)據(jù)可視化模塊新聞內(nèi)容展現(xiàn)預(yù)設(shè)條件TOMCAT服務(wù)器已開啟輸入輸入查看的新聞標題操作步驟點擊要查看的新聞的標題預(yù)期輸出該新聞的正文內(nèi)容表65 測試用例五測試用例編號Testing_TypeAnalysis測試項目數(shù)據(jù)可視化模塊新聞類型分析柱狀圖預(yù)設(shè)條件TOMCAT服務(wù)器已開啟輸入需要進行檢索的日期操作步驟(1)輸入日期(2)點擊“搜索”按鈕預(yù)期輸出(1) 新聞類型分析表(2) 新聞類型分析柱狀圖表66 測試用例六測試用例編號Testing_SmallTypeAnalysis測試項目數(shù)據(jù)可視化模塊新聞小類型分析柱狀圖預(yù)設(shè)條件TOMCAT服務(wù)器已開啟輸入需要進行檢索的日期操作步驟(1)輸入日期(2)點擊“搜索”按鈕預(yù)期輸出(1)新聞小類型分析表(2)新聞小類型分析柱狀圖表67 測試用例七測試用例編號Testing_DayTime測試項目數(shù)據(jù)可視化模塊一天中新聞數(shù)量變化折線圖預(yù)設(shè)條件TOMCAT服務(wù)器已開啟輸入需要進行檢索的日期操作步驟(1)輸入日期(2)點擊“搜索”按鈕預(yù)期輸出新聞數(shù)量隨時間變化折線圖表68 測試用例八測試用例編號Testing_yearTime測試項目數(shù)據(jù)可視化模塊一年中新聞數(shù)量變化折線圖預(yù)設(shè)條件TOMCAT服務(wù)器已開啟輸入需要進行檢索的日期操作步驟(1)輸入日期(2)點擊“搜索”按鈕預(yù)期輸出(1) 新聞數(shù)量隨月份變化折線圖(2)新聞數(shù)量按月份變化分析表 測試結(jié)果軟件測試的步驟執(zhí)行過后,整個測試活動并未結(jié)束而對于測試結(jié)果分析才是最為重要的環(huán)節(jié),詳細分析并總結(jié)測試結(jié)果對下一輪測試工作的開展具有很大的借鑒意義。在今后的學(xué)習(xí)過程中,我會繼續(xù)嚴格要求自己,以做產(chǎn)品的態(tài)度來對待所有的工作,力求完美。3) 將整個系統(tǒng)打造成一個多數(shù)據(jù)源、功能強大的智能新聞爬取分析平臺。首先,測試并不僅僅是為了要找出錯誤,通過分析錯誤產(chǎn)生的原因和錯誤的分布特征,可以幫助項目管理者發(fā)現(xiàn)當前所采用的軟件過程的缺陷以便改進;其次,沒有發(fā)現(xiàn)錯誤的測試也是有價值的,完整的測試是評定軟件質(zhì)量的方法之一。例如在新聞類別下選國內(nèi)下的港澳臺快訊,然后輸入關(guān)鍵字,日期關(guān)鍵字為“臺灣”時間為20140609,進行檢索,則檢索過程圖如圖57所示: 圖57檢索過程圖檢索的結(jié)果圖如下圖58所示: 圖58 檢索結(jié)果圖當點擊第二個結(jié)果時新聞內(nèi)容展示圖如下圖59所示:圖59新聞內(nèi)容展示圖 按時辰分析折線圖用戶需要輸入日期進行檢索,查看當前日期下的新聞數(shù)量隨時間的變化圖。頁面解析子模塊的工作方式如圖45所示:圖45 頁面解析子模塊3) 爬行控制子模塊爬行控制模塊是整個爬蟲程序的核心,它控制著整個爬蟲的抓取策略(寬度優(yōu)先或者深度優(yōu)先)以及停止條件。 4 系統(tǒng)總體設(shè)計系統(tǒng)需求分析階段主要提出了系統(tǒng)需要做什么,系統(tǒng)設(shè)計階段需要解決的問題就是系統(tǒng)需要怎么做。他們需要不斷的知道外屆對企業(yè)的評價,是否有競爭對手惡意中傷等,從而在第一時間作出應(yīng)對措施,減少破壞性和蔓延速度,以維護形象和贏得消費者的同情和理解。 系統(tǒng)可行性研究 技術(shù)可行性1)軟件可行性新聞爬蟲系統(tǒng)所需要的數(shù)據(jù)源可以通過編寫網(wǎng)絡(luò)爬蟲程序來實現(xiàn)定向抓取,通過定制爬行過程中的過濾條件和爬行策略,爬蟲程序所獲取的數(shù)據(jù)量和抓取的效率都能得到很好的保證。ExtJS最開始基于YUI技術(shù),由開發(fā)人員Jack Slocum開發(fā),通過參考J
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1