freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲系統(tǒng)的結(jié)構(gòu)設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文-文庫吧

2025-06-08 08:58 本頁面


【正文】 為大型Web站點、企業(yè)OLTP(聯(lián)機事務(wù)處理)以及數(shù)據(jù)倉庫系統(tǒng)等的產(chǎn)品數(shù)據(jù)庫服務(wù)器;4)開發(fā)者版(Developer Edition):用于程序員開發(fā)應(yīng)用程序,這些程序需要SQL Server 2005作為數(shù)據(jù)庫存儲設(shè)備[7]。 ExtJS簡介 ExtJS是一個JavaScript庫,功能強大,界面美觀,可以使用AJAX, DHTML,DOM等技術(shù)來開發(fā)網(wǎng)絡(luò)應(yīng)用程序。ExtJS可以用來開發(fā)富互聯(lián)網(wǎng)應(yīng)用(RIA:Rich Internet Applications),主要用于創(chuàng)建前端用戶界面,是一個與后臺技術(shù)無關(guān)的前端AJAX框架。因此,、Java以及PHP等多種開發(fā)語言中。ExtJS最開始基于YUI技術(shù),由開發(fā)人員Jack Slocum開發(fā),通過參考Java SWING等機制來組織可視化組件,從UI界面上CSS樣式的應(yīng)用,到數(shù)據(jù)解析過程中的異常處理,都可算是一款不可多得的JavaScript客戶端技術(shù)的精品。ExtJS的組件結(jié)構(gòu)如圖23所示:圖23 ExtJS組件結(jié)構(gòu)圖ExtJS初期僅是對Yahoo! UI的對話框擴展,后來逐漸有了自己的特色,深受技術(shù)研發(fā)人員的喜愛。發(fā)展至今,ExtJS除YUI外還支持包括jQuery、Prototype等多種JS底層庫,可以讓開發(fā)人員自由進行選擇[8]。該框架完全基于純HTML/CSS+JS技術(shù),提供豐富的跨瀏覽器UI組件,靈活采用JSON/XML數(shù)據(jù)源開發(fā),使得服務(wù)端表示層的負荷真正得以減輕。 HTTPClientHTTPClient是Apache Jakarta Common下的子項目,可以用來提供高效的、最新的、功能豐富的支持HTTP協(xié)議的客戶端編程工具包。 HTTP協(xié)議可能是現(xiàn)在Internet上使用得最多、最重要的協(xié)議了,越來越多的Java應(yīng)用程序需要直接通過HTTP協(xié)議來訪問網(wǎng)絡(luò)資源。雖然在 ,但是對于大部分應(yīng)用程序來說,JDK庫本身提供的功能還不夠豐富和靈活。HTTPClient已經(jīng)應(yīng)用在很多大型的項目中,比如Apache Jakarta上很著名的另外兩個開源項目Cactus和HTMLUnit都使用了HTTPClient。HTTPClient所提供的主要功能包括:1) 實現(xiàn)了所有HTTP的方法(GET,POST,PUT,HEAD 等);2) 支持自動轉(zhuǎn)向;3) 支持 HTTPS 協(xié)議;4) 支持代理服務(wù)器。 HTMLParserHTMLParser是一個利用純Java語言編寫的進行HTML解析的庫,它不依賴于其它的Java庫文件,主要用于改造或提取HTML,其特點是能夠超高速解析HTML文件,而且不會出錯。作為目前最為方便易用的進行HTML解析和信息提取的工具,HTMLParser已經(jīng)成為了抓取網(wǎng)頁數(shù)據(jù)和改造HTML的內(nèi)容的首選工具。HTMLParser主要包含以下兩個方面的功能:1)信息提取功能:1  文本信息抽取,例如對HTML進行有效信息搜索;2  鏈接提取,用于自動給頁面的鏈接文本加上鏈接的標(biāo)簽;3  資源提取,例如對一些圖片、聲音的資源的處理;4  鏈接檢查,用于檢查HTML中的鏈接是否有效;5  頁面內(nèi)容的監(jiān)控。2)信息轉(zhuǎn)換功能:1  鏈接重寫,用于修改頁面中的所有超鏈接;2  網(wǎng)頁內(nèi)容拷貝,用于將網(wǎng)頁內(nèi)容保存到本地;3  內(nèi)容檢驗,可以用來過濾網(wǎng)頁上一些令人不愉快的字詞;4  HTML信息清洗,把本來亂七八糟的HTML信息格式化;5  轉(zhuǎn)成XML格式數(shù)據(jù)。 本章簡要介紹了進行本次新聞爬蟲系統(tǒng)開發(fā)所需要的相關(guān)理論和技術(shù),主要包括網(wǎng)絡(luò)爬蟲的定義,爬取策略等理論知識,J2EE技術(shù)、SQL Server 2005數(shù)據(jù)庫管理系統(tǒng)以及ExtJS框架相關(guān)知識,并對系統(tǒng)開發(fā)過程中用到的一些關(guān)鍵開源工具做出了簡要說明,這些關(guān)鍵技術(shù)的學(xué)習(xí)和掌握為接下來的系統(tǒng)分析及設(shè)計實現(xiàn)提供了堅實的理論基礎(chǔ)。 3 系統(tǒng)需求分析需求分析階段的主要工作就是分析用戶的需求是什么,是指針對軟件所要解決的問題進行詳細的分析,明確對軟件系統(tǒng)的輸入輸出要求。本章主要從系統(tǒng)可行性、用戶對象、用戶用例、功能需求以及性能需求五個方面進行詳細的系統(tǒng)需求分析。 系統(tǒng)可行性研究 技術(shù)可行性1)軟件可行性新聞爬蟲系統(tǒng)所需要的數(shù)據(jù)源可以通過編寫網(wǎng)絡(luò)爬蟲程序來實現(xiàn)定向抓取,通過定制爬行過程中的過濾條件和爬行策略,爬蟲程序所獲取的數(shù)據(jù)量和抓取的效率都能得到很好的保證。新聞信息的可視化模塊可以通過借助Google Visualization API動態(tài)地將新聞顯示在交互方式非常豐富的圖表上,再結(jié)合ExtJS構(gòu)建一個富互聯(lián)網(wǎng)應(yīng)用,整個系統(tǒng)能夠提供良好的用戶體驗。2) 硬件可行性新聞爬蟲系統(tǒng)需要進行抓取和分析的數(shù)據(jù)量非常大,這對于服務(wù)器端數(shù)據(jù)庫的承載能力要求較高,通過較長時間的測試,目前主流的服務(wù)器完全可以勝任作為輿情分析系統(tǒng)服務(wù)器的要求。由于該新聞爬蟲系統(tǒng)采用B/S架構(gòu)方式,用戶僅需在瀏覽器端利用瀏覽器進入系統(tǒng)使用相關(guān)功能即可,當(dāng)前主流的個人電腦硬件配置完全滿足使用條件。 操作可行性本系統(tǒng)在用戶界面層利用ExtJS框架結(jié)合Google Visualization API進行構(gòu)建。ExtJS作為開源JavaScript框架,功能強大,界面美觀,使用AJAX技術(shù)開發(fā)RIA應(yīng)用。Google Visualization API所提供的圖表工具作為Flex程序,具有極為豐富的交互效果。兩者相結(jié)合開發(fā)出的前臺網(wǎng)頁,保證了良好的用戶體驗,能夠滿足用戶實際操作的需要。 經(jīng)濟可行性經(jīng)過不斷的系統(tǒng)完善和功能增強過程,成型之后的新聞爬蟲系統(tǒng)能夠為各個行業(yè)按需提供不同的服務(wù)。例如:為政府機關(guān)、公安、廣電、教育機構(gòu)提供輿情監(jiān)測服務(wù),為上市公司、投資機構(gòu)、金融監(jiān)管機構(gòu)提供口碑管理服務(wù),為各類商業(yè)公司提供競爭情報管理、招投標(biāo)監(jiān)測、危機公關(guān)處理、市場調(diào)研、趨勢分析以及營銷效果評估等服務(wù)。綜上所述,新聞爬蟲分析系統(tǒng)具有非常強的經(jīng)濟可行性。 用戶對象分析互聯(lián)網(wǎng)定向信息采集系統(tǒng)面對的客戶是特定的專業(yè)人群和企業(yè)機構(gòu),他們關(guān)心的信息一般限于特定的主題。出于性能和成本上的考量,本系統(tǒng)不需要也不可能對整個互聯(lián)網(wǎng)來做遍歷抓取。本系統(tǒng)的用戶一般是新聞熱點分析部門或是各公安部門的觀察員。一般來說,他們無法將精力全部花在瀏覽各大網(wǎng)站新聞和BBS上,但是他們的職責(zé)需要他們對網(wǎng)絡(luò)上的信息有一個把握,尤其是和其興趣點、切身利益相關(guān)的帖子和新聞。對于企業(yè)公關(guān)來說,信息時代的到來導(dǎo)致危機的信息傳播比危機本身發(fā)展要快得多,媒體的報道也很難避免。他們需要不斷的知道外屆對企業(yè)的評價,是否有競爭對手惡意中傷等,從而在第一時間作出應(yīng)對措施,減少破壞性和蔓延速度,以維護形象和贏得消費者的同情和理解。 對于行政機構(gòu)類用戶,他們需要對國內(nèi)重點論壇和新聞門戶網(wǎng)站,也包含國外部分敏感網(wǎng)站,特別是國外的Twitter,F(xiàn)acebook等網(wǎng)站進行一些監(jiān)控,以對一些敏感事件進行及時的發(fā)現(xiàn)、后續(xù)跟蹤,同時對于民意的聽取也很感興趣,從而做到對特殊事件的早發(fā)現(xiàn)、早預(yù)警,為及時處置奠定基礎(chǔ)。此外,還有很重要的一個方面的用戶就是系統(tǒng)管理員,他們并不是新聞爬蟲系統(tǒng)的用戶,但是該管理員需要控制數(shù)據(jù)源的獲取邏輯,進行數(shù)據(jù)的分析,并將分析結(jié)果進行展示。 用戶用例分析 管理員用戶用例分析管理員用戶用例圖如圖31所示:圖31 管理員用戶用例圖對于管理員用戶,其使用場景分為五大類:1) 對爬蟲數(shù)據(jù)源進行控制:包括對爬蟲爬取的數(shù)據(jù)源的增加和刪除,以及對被爬行網(wǎng)站的配置(例如改動HTML代碼關(guān)鍵字匹配特征以通過HTMLParser抓取到相應(yīng)類型的新聞)。數(shù)據(jù)源的配置需要定期進行更新和維護,系統(tǒng)需要提供有良好的接口,盡量降低配置的難度和維護的工作量。2) 開始一次數(shù)據(jù)采集過程:手動采集和增量采集(添加定時任務(wù))。兩者的本質(zhì)都是開啟網(wǎng)絡(luò)爬蟲對數(shù)據(jù)源網(wǎng)站根據(jù)抓取配置來執(zhí)行數(shù)據(jù)獲取的任務(wù),不同的是手動采集由管理員觸發(fā)后執(zhí)行一次特定任務(wù),增量采集會對部分更新頻率較高的網(wǎng)頁進行周期性的抓取以達到服務(wù)器端數(shù)據(jù)庫實時更新的效果。3) 對于數(shù)據(jù)庫中的新聞信息進行分析。4) 進入WEB頁測試本地服務(wù)器和系統(tǒng)是否運行正常。5) 將爬取的新聞信息以及分析的結(jié)果展示給用戶。 普通用戶用例分析普通用戶用例圖如圖32所示:圖32 普通用戶用例圖對于普通用戶,其使用場景分為五種:1) 查看各類新聞;2) 按關(guān)鍵字,時間等多條件搜索新聞;3) 查看新聞類別分析柱狀圖;4) 查看新聞小類別分析柱狀圖;5) 查看新聞數(shù)量隨月份的變化折線圖;6) 查看在某一天新聞數(shù)量在一天中的變化折線圖。 綜合用例分析圖33 系統(tǒng)綜合用例圖該新聞爬蟲系統(tǒng)的綜合用例圖如圖33所示,普通用戶可以進入該系統(tǒng)進行查看各類新聞、按關(guān)鍵字,時間等多條件搜索新聞、查看新聞類別分析柱狀圖、查看新聞小類別分析柱狀圖、查看新聞數(shù)量隨月份的變化折線圖、查看在某一天新聞數(shù)量在一天中的變化折線圖以及進行綜合分析統(tǒng)計操作;管理員用戶具有最高權(quán)限,除了可以正常使用本系統(tǒng)進行系統(tǒng)功能測試之外,還可以進行控制系統(tǒng)數(shù)據(jù)源、觸發(fā)一次數(shù)據(jù)采集等操作。 功能需求分析根據(jù)上文對于用戶用例的分析,可以總結(jié)出本系統(tǒng)的功能需求:1) 針對管理員用戶:a) 對爬蟲爬取的數(shù)據(jù)源進行便捷的管理操作,包括對數(shù)據(jù)源的增 加和刪除以及對于數(shù)據(jù)抓取策略的修改;b) 觸發(fā)一次數(shù)據(jù)采集的過程,包括指定一次手動采集的過程和觸 發(fā)一次定時采集的過程以實現(xiàn)數(shù)據(jù)的實時獲取和增量獲??;c) 對于數(shù)據(jù)庫中的數(shù)據(jù)進行分析;d) 具備普通用戶能夠使用的所有功能,可進入WEB頁測試本地 服務(wù)器和系統(tǒng)是否運行正常。2) 針對普通用戶:a) 查看各類新聞:輸入關(guān)鍵字和日期進行檢索,查看當(dāng)前 類型的符合條件的新聞;b) 查看新聞類別分析柱狀圖:輸入日期進行檢索,查看 當(dāng)前時間下的新聞類別分析柱狀圖;c) 查看新聞小類別分析柱狀圖:輸入日期進行檢索,可查看當(dāng)前時間下的小的新聞類別的數(shù)量分析柱狀圖; d) 查看新聞數(shù)量隨月份的變化折線圖:根據(jù)輸入的年份可查看當(dāng)前年份中新聞發(fā)布數(shù)量隨月份變化的折線圖;e) 查看在某一天新聞數(shù)量在一天中的變化折線圖:根據(jù)輸入的時間可查看當(dāng)前日期下新聞發(fā)布數(shù)量隨時間變化的折線圖。 性能需求分析本系統(tǒng)運行在Windows 7 Ultimate操作系統(tǒng)上,Web服務(wù)器選用Apache Tomcat ,整個系統(tǒng)的性能指標(biāo)如下:1) 運行環(huán)境:a) CPU:Intel Core (TM) 2 Duo E7200 @ b) 內(nèi)存:3 GB ( DDR2 667MHz / DDR2 800MHz )c) 帶寬:,100M網(wǎng)卡2) 運行參數(shù):a) 最大網(wǎng)絡(luò)連接數(shù):65b) 單一主機連接數(shù):203) 下載速度:(按照平均每個頁面包含10條數(shù)據(jù)來計算)a) 最高速度:200Pages/Min,平均每分鐘抓取2000條記錄b) 最低速度:50Pages/Min,平均每分鐘抓取500條記錄4) 頁面解析速度:a) 平均速度:1000Pages/Minb) 并發(fā)解析線程數(shù):205) 資源使用率:a) 下載服務(wù):CPU占用率50%,內(nèi)存占用率500MBb) 解析服務(wù):CPU占用率70%,內(nèi)存占用率800MB 本章小結(jié) 本章主要對需求分析階段所做的相關(guān)工作進行了描述,為后期系統(tǒng)設(shè)計和開發(fā)工作做準(zhǔn)備。首先從技術(shù)可行性、操作可行性和經(jīng)濟可行性三個方面對系統(tǒng)可行性進行了評估,隨后對系統(tǒng)的用戶對象和用戶用況從管理員用戶和普通用戶兩個角度進行了詳細的分析,并分別總結(jié)出了相應(yīng)的功能需求,最后對系統(tǒng)的性能需求進行了簡要分析。 4 系統(tǒng)總體設(shè)計系統(tǒng)需求分析階段主要提出了系統(tǒng)需要做什么,系統(tǒng)設(shè)計階段需要解決的問題就是系統(tǒng)需要怎么做。系統(tǒng)設(shè)計階段的主要參考依據(jù)是需求分析階段得出的相關(guān)結(jié)果,據(jù)此進行系統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計和功能模塊設(shè)計,本階段的工作是對上一階段分析結(jié)果的進一步具體化。 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計良好的數(shù)據(jù)庫結(jié)構(gòu)對于保障一個應(yīng)用程序始終運行在高性能狀態(tài)具有非常重要的意義。數(shù)據(jù)庫結(jié)構(gòu)如果沒有設(shè)計好將會給以后的工作帶來很多麻煩,一方面是性能問題,另一方面是維護問題。過多的重復(fù)性數(shù)據(jù)會嚴(yán)重影響系統(tǒng)的執(zhí)行性能,當(dāng)這些數(shù)據(jù)的一個實例發(fā)生改變時,其他數(shù)據(jù)也都要進行相應(yīng)的改變。本系統(tǒng)使用SQL Server 2005作為數(shù)據(jù)庫管理工具,SQL Server 2005是一個具備完整的Web支持的數(shù)據(jù)庫產(chǎn)品,提供了以Web標(biāo)準(zhǔn)為基礎(chǔ)的擴展數(shù)據(jù)庫編程功能。在數(shù)據(jù)訪問層,采用JDBC直接訪問數(shù)據(jù)庫的方式,通過SQL語句操作數(shù)據(jù)庫,簡單易用。根據(jù)本系統(tǒng)的實際需求,數(shù)據(jù)庫中需要具備的基本表有三個:1) (如表41所示)表41 帖子信息列表字段名字段類型字段限制注釋news_idINT主鍵新聞編號News_urlNVARCHARnot null數(shù)據(jù)來源news_titleNVARCHARnot null新聞標(biāo)題news_pudbateNVARCHARnot null新聞發(fā)布時間news_mediaNVARCHARnot null新聞發(fā)布方news_contentNVARCHARnot null新聞內(nèi)容news_typeINTnot null新聞類型編號news_typenameNVARCHARnot null新聞類型news_typecodeINTnot null新聞類型編碼news_smalltypeNVARCHARnot null新聞詳細類別news_pictureNVARCHAR無新聞圖片2) (如表42所示)表42 數(shù)據(jù)源信息列表字段名字段類型字段限制注釋url_idINT主鍵數(shù)據(jù)源編號url
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1