freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-免費(fèi)閱讀

  

【正文】 在今后的學(xué)習(xí)過(guò)程中,我會(huì)繼續(xù)嚴(yán)格要求自己,以做產(chǎn)品的態(tài)度來(lái)對(duì)待所有的工作,力求完美。3) 將整個(gè)系統(tǒng)打造成一個(gè)多數(shù)據(jù)源、功能強(qiáng)大的智能新聞爬取分析平臺(tái)。 設(shè)計(jì)測(cè)試用例針對(duì)系統(tǒng)不同的功能模塊,設(shè)計(jì)8個(gè)測(cè)試用例分別進(jìn)行測(cè)試,如表61至表68所示:表61 測(cè)試用例一測(cè)試用例編號(hào)Testing_Crawling測(cè)試項(xiàng)目數(shù)據(jù)獲取模塊手動(dòng)抓取功能預(yù)設(shè)條件當(dāng)前已連接到數(shù)據(jù)庫(kù)服務(wù)器輸入數(shù)據(jù)源URL種子集合操作步驟(1)選擇數(shù)據(jù)來(lái)源(2)點(diǎn)擊“爬取所有新聞”按鈕預(yù)期輸出(1) 抓取的數(shù)據(jù)逐條存入數(shù)據(jù)庫(kù)中(2) 抓取狀態(tài)實(shí)時(shí)輸出至控制臺(tái)狀態(tài)欄表62 測(cè)試用例二測(cè)試用例編號(hào)Testing_KeepCrawling測(cè)試項(xiàng)目數(shù)據(jù)獲取模塊增量抓取功能預(yù)設(shè)條件當(dāng)前已連接到數(shù)據(jù)庫(kù)服務(wù)器輸入需要進(jìn)行增量采集(周期性任務(wù))的頁(yè)面URL操作步驟(1)選擇數(shù)據(jù)來(lái)源(2)點(diǎn)擊“增量抓取”按鈕預(yù)期輸出(1) 增量抓取的數(shù)據(jù)逐條存入數(shù)據(jù)庫(kù)中(2) 抓取狀態(tài)實(shí)時(shí)輸出至控制臺(tái)狀態(tài)欄(3) 抓取任務(wù)定時(shí)進(jìn)行觸發(fā)表63 測(cè)試用例三測(cè)試用例編號(hào)Testing_VisualGragf測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊分析圖預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入(1) 需要進(jìn)行檢索的關(guān)鍵詞(2) 檢索日期操作步驟(1)輸入關(guān)鍵詞和日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出與該關(guān)鍵詞相關(guān)的新聞標(biāo)題以及新聞發(fā)布時(shí)間表64 測(cè)試用例四測(cè)試用例編號(hào)Testing_NewsContent測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊新聞內(nèi)容展現(xiàn)預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入輸入查看的新聞標(biāo)題操作步驟點(diǎn)擊要查看的新聞的標(biāo)題預(yù)期輸出該新聞的正文內(nèi)容表65 測(cè)試用例五測(cè)試用例編號(hào)Testing_TypeAnalysis測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊新聞?lì)愋头治鲋鶢顖D預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入需要進(jìn)行檢索的日期操作步驟(1)輸入日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出(1) 新聞?lì)愋头治霰恚?) 新聞?lì)愋头治鲋鶢顖D表66 測(cè)試用例六測(cè)試用例編號(hào)Testing_SmallTypeAnalysis測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊新聞小類型分析柱狀圖預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入需要進(jìn)行檢索的日期操作步驟(1)輸入日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出(1)新聞小類型分析表(2)新聞小類型分析柱狀圖表67 測(cè)試用例七測(cè)試用例編號(hào)Testing_DayTime測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊一天中新聞數(shù)量變化折線圖預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入需要進(jìn)行檢索的日期操作步驟(1)輸入日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出新聞數(shù)量隨時(shí)間變化折線圖表68 測(cè)試用例八測(cè)試用例編號(hào)Testing_yearTime測(cè)試項(xiàng)目數(shù)據(jù)可視化模塊一年中新聞數(shù)量變化折線圖預(yù)設(shè)條件TOMCAT服務(wù)器已開(kāi)啟輸入需要進(jìn)行檢索的日期操作步驟(1)輸入日期(2)點(diǎn)擊“搜索”按鈕預(yù)期輸出(1) 新聞數(shù)量隨月份變化折線圖(2)新聞數(shù)量按月份變化分析表 測(cè)試結(jié)果軟件測(cè)試的步驟執(zhí)行過(guò)后,整個(gè)測(cè)試活動(dòng)并未結(jié)束而對(duì)于測(cè)試結(jié)果分析才是最為重要的環(huán)節(jié),詳細(xì)分析并總結(jié)測(cè)試結(jié)果對(duì)下一輪測(cè)試工作的開(kāi)展具有很大的借鑒意義。首先,測(cè)試并不僅僅是為了要找出錯(cuò)誤,通過(guò)分析錯(cuò)誤產(chǎn)生的原因和錯(cuò)誤的分布特征,可以幫助項(xiàng)目管理者發(fā)現(xiàn)當(dāng)前所采用的軟件過(guò)程的缺陷以便改進(jìn);其次,沒(méi)有發(fā)現(xiàn)錯(cuò)誤的測(cè)試也是有價(jià)值的,完整的測(cè)試是評(píng)定軟件質(zhì)量的方法之一。 6 系統(tǒng)測(cè)試與發(fā)布 系統(tǒng)測(cè)試是針對(duì)整個(gè)產(chǎn)品系統(tǒng)進(jìn)行的測(cè)試,目的是驗(yàn)證系統(tǒng)是否滿足了需求規(guī)格的定義,找出與需求規(guī)格不符或與之矛盾的地方,從而提出更加完善的方案。例如在新聞?lì)悇e下選國(guó)內(nèi)下的港澳臺(tái)快訊,然后輸入關(guān)鍵字,日期關(guān)鍵字為“臺(tái)灣”時(shí)間為20140609,進(jìn)行檢索,則檢索過(guò)程圖如圖57所示: 圖57檢索過(guò)程圖檢索的結(jié)果圖如下圖58所示: 圖58 檢索結(jié)果圖當(dāng)點(diǎn)擊第二個(gè)結(jié)果時(shí)新聞內(nèi)容展示圖如下圖59所示:圖59新聞內(nèi)容展示圖 按時(shí)辰分析折線圖用戶需要輸入日期進(jìn)行檢索,查看當(dāng)前日期下的新聞數(shù)量隨時(shí)間的變化圖。界面下方的空白區(qū)域使用JTextArea實(shí)現(xiàn),其作用是截獲系統(tǒng)的控制臺(tái)輸出并進(jìn)行顯示,用于指示當(dāng)前的爬行動(dòng)態(tài)信息。頁(yè)面解析子模塊的工作方式如圖45所示:圖45 頁(yè)面解析子模塊3) 爬行控制子模塊爬行控制模塊是整個(gè)爬蟲(chóng)程序的核心,它控制著整個(gè)爬蟲(chóng)的抓取策略(寬度優(yōu)先或者深度優(yōu)先)以及停止條件。其總體的工程如圖42所示:數(shù)據(jù)存儲(chǔ):將獲取的新聞數(shù)據(jù)存入數(shù)據(jù)庫(kù)中數(shù)據(jù)取得:利用爬蟲(chóng)程序獲得網(wǎng)頁(yè)中的新聞數(shù)據(jù)數(shù)據(jù)爬取選擇:選擇要爬取得新聞?lì)悇e和方式 開(kāi)始 數(shù)據(jù)可視化:將新聞信息以及分析結(jié)果輸?shù)角芭_(tái) 開(kāi)始 圖42 系統(tǒng)主要工作流程 數(shù)據(jù)獲取功能模塊在該新聞爬蟲(chóng)系統(tǒng)中,數(shù)據(jù)的獲取主要依靠網(wǎng)絡(luò)爬蟲(chóng)來(lái)實(shí)現(xiàn)。 4 系統(tǒng)總體設(shè)計(jì)系統(tǒng)需求分析階段主要提出了系統(tǒng)需要做什么,系統(tǒng)設(shè)計(jì)階段需要解決的問(wèn)題就是系統(tǒng)需要怎么做。4) 進(jìn)入WEB頁(yè)測(cè)試本地服務(wù)器和系統(tǒng)是否運(yùn)行正常。他們需要不斷的知道外屆對(duì)企業(yè)的評(píng)價(jià),是否有競(jìng)爭(zhēng)對(duì)手惡意中傷等,從而在第一時(shí)間作出應(yīng)對(duì)措施,減少破壞性和蔓延速度,以維護(hù)形象和贏得消費(fèi)者的同情和理解。 經(jīng)濟(jì)可行性經(jīng)過(guò)不斷的系統(tǒng)完善和功能增強(qiáng)過(guò)程,成型之后的新聞爬蟲(chóng)系統(tǒng)能夠?yàn)楦鱾€(gè)行業(yè)按需提供不同的服務(wù)。 系統(tǒng)可行性研究 技術(shù)可行性1)軟件可行性新聞爬蟲(chóng)系統(tǒng)所需要的數(shù)據(jù)源可以通過(guò)編寫網(wǎng)絡(luò)爬蟲(chóng)程序來(lái)實(shí)現(xiàn)定向抓取,通過(guò)定制爬行過(guò)程中的過(guò)濾條件和爬行策略,爬蟲(chóng)程序所獲取的數(shù)據(jù)量和抓取的效率都能得到很好的保證。HTTPClient所提供的主要功能包括:1) 實(shí)現(xiàn)了所有HTTP的方法(GET,POST,PUT,HEAD 等);2) 支持自動(dòng)轉(zhuǎn)向;3) 支持 HTTPS 協(xié)議;4) 支持代理服務(wù)器。ExtJS最開(kāi)始基于YUI技術(shù),由開(kāi)發(fā)人員Jack Slocum開(kāi)發(fā),通過(guò)參考Java SWING等機(jī)制來(lái)組織可視化組件,從UI界面上CSS樣式的應(yīng)用,到數(shù)據(jù)解析過(guò)程中的異常處理,都可算是一款不可多得的JavaScript客戶端技術(shù)的精品。SQL Server是由Microsoft開(kāi)發(fā)和推廣的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS),它最初是由Microsoft、Sybase、AshtonTate三家公司共同開(kāi)發(fā)的,并于1988年推出了第一個(gè)在OS/2版本上運(yùn)行的SQL Server系統(tǒng)。通過(guò)提供統(tǒng)一的開(kāi)發(fā)平臺(tái),J2EE降低了開(kāi)發(fā)多層應(yīng)用的費(fèi)用和復(fù)雜性,同時(shí)提供對(duì)現(xiàn)有應(yīng)用程序集成的強(qiáng)有力支持,極大地提高了系統(tǒng)的運(yùn)行效率和安全性。存在的一個(gè)問(wèn)題是,在爬蟲(chóng)抓取路徑上的很多相關(guān)網(wǎng)頁(yè)可能被忽略。 頁(yè)面搜索策略介紹 網(wǎng)頁(yè)的爬取策略可分為深度優(yōu)先,廣度優(yōu)先和最佳優(yōu)先三種。第3章 對(duì)本系統(tǒng)進(jìn)行了需求分析,首先從技術(shù)可行性、操作可行性和經(jīng)濟(jì)可行性三個(gè)方面對(duì)系統(tǒng)可行性進(jìn)行了評(píng)估,隨后對(duì)系統(tǒng)的用戶對(duì)象和用戶用況從管理員用戶和普通用戶兩個(gè)角度進(jìn)行了詳細(xì)的分析,并分別總結(jié)出了相應(yīng)的功能需求,最后對(duì)系統(tǒng)的性能需求進(jìn)行了簡(jiǎn)要分析。張福炎教授設(shè)計(jì)出了IDGS(Internet Data Gather System)系統(tǒng),可以對(duì)萬(wàn)維網(wǎng)上的中英文內(nèi)容進(jìn)行搜索,大大的填補(bǔ)了中文方面的空白。分類器主要用于計(jì)算相關(guān)度,而選擇器用來(lái)確定主要頁(yè)面。在上世紀(jì)九十年代,F(xiàn)ish Search System系統(tǒng)作為首個(gè)基于內(nèi)容分析的搜索系統(tǒng)被開(kāi)發(fā)出來(lái)。專家們通過(guò)社會(huì)間人與人的關(guān)系網(wǎng),設(shè)計(jì)研發(fā)出了頁(yè)面間的超鏈接關(guān)系網(wǎng)絡(luò)。所以不管實(shí)在界面上還是在效率上都非常的人性化。 及時(shí)性新聞爬蟲(chóng)系統(tǒng)通過(guò)爬蟲(chóng)技術(shù)自動(dòng)爬取新聞信息,定期對(duì)相應(yīng)類型的新聞的地址進(jìn)行掃描,如若該新聞并未被爬取過(guò)則對(duì)其進(jìn)行自動(dòng)爬取?;ヂ?lián)網(wǎng)已成為思想文化信息的集散地,并具有傳統(tǒng)媒體無(wú)法相比的優(yōu)勢(shì):便捷性,虛擬性,互動(dòng)性,多元性。本文借助于爬蟲(chóng)領(lǐng)域的相關(guān)技術(shù)與工具,結(jié)合新聞熱點(diǎn)分析系統(tǒng)的需求從原理或工作流程上詳細(xì)論述了爬蟲(chóng)系統(tǒng)中核心模塊的具體實(shí)現(xiàn)。本文所描述的新聞爬蟲(chóng)系統(tǒng)其數(shù)據(jù)來(lái)源主要是新浪新聞,首先利用爬蟲(chóng)工具將新聞數(shù)據(jù)獲取到本地?cái)?shù)據(jù)庫(kù)中,然后將新聞信息以及新聞分析的結(jié)果將在前臺(tái)網(wǎng)頁(yè)中進(jìn)行可視化輸出。網(wǎng)絡(luò)新聞熱點(diǎn)通常形成迅速,多是人們對(duì)于日常生活中的各種問(wèn)題發(fā)表的各種意見(jiàn),評(píng)論,態(tài)度,情緒等,隨著事件的發(fā)展而變化,是反映社會(huì)熱點(diǎn)的重要載體之一。讓系統(tǒng)的工作人員可以靜觀事態(tài)的發(fā)展。 新聞爬蟲(chóng)系統(tǒng)項(xiàng)目建設(shè)意義重大。同時(shí)他們還驚奇的發(fā)現(xiàn),相似度最高的在傳統(tǒng)引文方面。后來(lái)在1998年和1999年相繼出現(xiàn)了Shark Search System和聚焦爬蟲(chóng)(Focused Crawler)[1]。使得該系統(tǒng)在準(zhǔn)確度和相關(guān)度方面有了大幅度的提升[2]。IDGS 能夠在萬(wàn)維網(wǎng)上對(duì)信息進(jìn)行自動(dòng)查詢,采用向量空間模型技術(shù)對(duì)內(nèi)容進(jìn)行檢索,同時(shí)利用權(quán)重評(píng)價(jià)技術(shù)來(lái)進(jìn)行統(tǒng)計(jì)。第4章 對(duì)本系統(tǒng)進(jìn)行了總體設(shè)計(jì),包括數(shù)據(jù)庫(kù)結(jié)構(gòu)的總體設(shè)計(jì)以及系統(tǒng)功能模塊的總體設(shè)計(jì),并對(duì)數(shù)據(jù)獲取功能模塊的子模塊以及數(shù)據(jù)可視化功能模塊的功能結(jié)構(gòu)做出了明確的劃分,為系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)階段的工作備好條件。深度優(yōu)先在很多時(shí)候會(huì)導(dǎo)致爬蟲(chóng)的陷入問(wèn)題,目前常見(jiàn)的是廣度優(yōu)先和最佳優(yōu)先方法。因?yàn)樽罴褍?yōu)先策略是一種局部最優(yōu)搜索算法。J2EE使用多層的分布式應(yīng)用模型,應(yīng)用邏輯按功能劃分為組件,各個(gè)應(yīng)用組件根據(jù)他們所在的層分布在不同的機(jī)器上。1992年Sybase和Microsoft這兩家公司將SQL Server移植到了Windows NT操作系統(tǒng)上,后來(lái)Microsoft致力于Windows NT平臺(tái)的SQL Server的開(kāi)發(fā),而Sybase則專注于SQL Server在UNIX上的應(yīng)用[6]。ExtJS的組件結(jié)構(gòu)如圖23所示:圖23 ExtJS組件結(jié)構(gòu)圖ExtJS初期僅是對(duì)Yahoo! UI的對(duì)話框擴(kuò)展,后來(lái)逐漸有了自己的特色,深受技術(shù)研發(fā)人員的喜愛(ài)。 HTMLParserHTMLParser是一個(gè)利用純Java語(yǔ)言編寫的進(jìn)行HTML解析的庫(kù),它不依賴于其它的Java庫(kù)文件,主要用于改造或提取HTML,其特點(diǎn)是能夠超高速解析HTML文件,而且不會(huì)出錯(cuò)。新聞信息的可視化模塊可以通過(guò)借助Google Visualization API動(dòng)態(tài)地將新聞顯示在交互方式非常豐富的圖表上,再結(jié)合ExtJS構(gòu)建一個(gè)富互聯(lián)網(wǎng)應(yīng)用,整個(gè)系統(tǒng)能夠提供良好的用戶體驗(yàn)。例如:為政府機(jī)關(guān)、公安、廣電、教育機(jī)構(gòu)提供輿情監(jiān)測(cè)服務(wù),為上市公司、投資機(jī)構(gòu)、金融監(jiān)管機(jī)構(gòu)提供口碑管理服務(wù),為各類商業(yè)公司提供競(jìng)爭(zhēng)情報(bào)管理、招投標(biāo)監(jiān)測(cè)、危機(jī)公關(guān)處理、市場(chǎng)調(diào)研、趨勢(shì)分析以及營(yíng)銷效果評(píng)估等服務(wù)。 對(duì)于行政機(jī)構(gòu)類用戶,他們需要對(duì)國(guó)內(nèi)重點(diǎn)論壇和新聞門戶網(wǎng)站,也包含國(guó)外部分敏感網(wǎng)站,特別是國(guó)外的Twitter,F(xiàn)acebook等網(wǎng)站進(jìn)行一些監(jiān)控,以對(duì)一些敏感事件進(jìn)行及時(shí)的發(fā)現(xiàn)、后續(xù)跟蹤,同時(shí)對(duì)于民意的聽(tīng)取也很感興趣,從而做到對(duì)特殊事件的早發(fā)現(xiàn)、早預(yù)警,為及時(shí)處置奠定基礎(chǔ)。5) 將爬取的新聞信息以及分析的結(jié)果展示給用戶。系統(tǒng)設(shè)計(jì)階段的主要參考依據(jù)是需求分析階段得出的相關(guān)結(jié)果,據(jù)此進(jìn)行系統(tǒng)的數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)和功能模塊設(shè)計(jì),本階段的工作是對(duì)上一階段分析結(jié)果的進(jìn)一步具體化。爬蟲(chóng)程序在針對(duì)系統(tǒng)指定的網(wǎng)站進(jìn)行爬行時(shí),會(huì)對(duì)網(wǎng)頁(yè)中的相關(guān)元數(shù)據(jù)進(jìn)行抽取并保存在本地?cái)?shù)據(jù)庫(kù)中。爬行控制子模塊的工作流程如圖46所示:圖46 爬行控制子模塊4) 數(shù)據(jù)存儲(chǔ)子模塊在每次進(jìn)行完HTML頁(yè)面的信息抽取之后,都要將所有獲取到的元數(shù)據(jù)寫入到數(shù)據(jù)庫(kù)中去,另外還需要將本次抓取的URL也寫入數(shù)據(jù)庫(kù)中。界面底部使用JProgressBar實(shí)現(xiàn)了一個(gè)爬行進(jìn)度指示條,用于指示當(dāng)前爬行操作的執(zhí)行進(jìn)度。例如日期設(shè)定為“20140608”,進(jìn)行分析,則顯示出的統(tǒng)計(jì)圖如圖510所示:圖510 按時(shí)辰分析折線圖根據(jù)分析結(jié)果可以看到新聞發(fā)布的高峰期以及新聞發(fā)布數(shù)量隨時(shí)間變化的趨勢(shì)。本章節(jié)按照系統(tǒng)測(cè)試的原則設(shè)計(jì)出多個(gè)測(cè)試用例,根據(jù)系統(tǒng)測(cè)試的常用方法對(duì)新聞爬蟲(chóng)系統(tǒng)進(jìn)行測(cè)試。 軟件測(cè)試的方法軟件測(cè)試用例的設(shè)計(jì)方法大體可分為兩類:黑盒測(cè)試和白盒測(cè)試。通過(guò)使用測(cè)試用例對(duì)整個(gè)系統(tǒng)進(jìn)行了詳細(xì)測(cè)試,系統(tǒng)能夠達(dá)到大部分測(cè)試用例的預(yù)期結(jié)果,偶而出現(xiàn)個(gè)別測(cè)試不通過(guò)的情況,經(jīng)過(guò)仔細(xì)的分析和調(diào)試發(fā)現(xiàn)了系統(tǒng)的漏洞并對(duì)其進(jìn)行調(diào)整和修改,之后所有測(cè)試用例全部通過(guò),均達(dá)到了預(yù)期的測(cè)試結(jié)果。在本次畢業(yè)設(shè)計(jì)的過(guò)程中,通過(guò)對(duì)網(wǎng)絡(luò)爬蟲(chóng)模塊以及新聞信息可視化模塊的設(shè)計(jì)和實(shí)現(xiàn),我的編程思想有了較大轉(zhuǎn)變,對(duì)于一些編程語(yǔ)言和開(kāi)發(fā)工具的運(yùn)用能力有了較大提升,對(duì)于一個(gè)整體的項(xiàng)目開(kāi)發(fā)流程也有了整體的把握,主要心得體會(huì)如下:首先,對(duì)于一個(gè)我們不太熟悉的項(xiàng)目,我們首先要做的就是學(xué)習(xí)做這個(gè)項(xiàng)目所必需的知識(shí)技術(shù)。 參考文獻(xiàn)[1]TianjunFu,AhmedAbbasi,HsinchunChen. A focused crawler for Dark Web forums[J]. J. Am. Soc. Inf. Sci.,2010,6,16.[2]Punam Bedi,Anjali Thukral,Hema Banati,Abhishek Behl,Varun Mendiratta. A MultiThreaded Semantic Focused Crawler[J]. Jo
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1