freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)論文-文庫(kù)吧

2025-06-08 08:58 本頁(yè)面


【正文】 為大型Web站點(diǎn)、企業(yè)OLTP(聯(lián)機(jī)事務(wù)處理)以及數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)等的產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器;4)開(kāi)發(fā)者版(Developer Edition):用于程序員開(kāi)發(fā)應(yīng)用程序,這些程序需要SQL Server 2005作為數(shù)據(jù)庫(kù)存儲(chǔ)設(shè)備[7]。 ExtJS簡(jiǎn)介 ExtJS是一個(gè)JavaScript庫(kù),功能強(qiáng)大,界面美觀,可以使用AJAX, DHTML,DOM等技術(shù)來(lái)開(kāi)發(fā)網(wǎng)絡(luò)應(yīng)用程序。ExtJS可以用來(lái)開(kāi)發(fā)富互聯(lián)網(wǎng)應(yīng)用(RIA:Rich Internet Applications),主要用于創(chuàng)建前端用戶界面,是一個(gè)與后臺(tái)技術(shù)無(wú)關(guān)的前端AJAX框架。因此,、Java以及PHP等多種開(kāi)發(fā)語(yǔ)言中。ExtJS最開(kāi)始基于YUI技術(shù),由開(kāi)發(fā)人員Jack Slocum開(kāi)發(fā),通過(guò)參考Java SWING等機(jī)制來(lái)組織可視化組件,從UI界面上CSS樣式的應(yīng)用,到數(shù)據(jù)解析過(guò)程中的異常處理,都可算是一款不可多得的JavaScript客戶端技術(shù)的精品。ExtJS的組件結(jié)構(gòu)如圖23所示:圖23 ExtJS組件結(jié)構(gòu)圖ExtJS初期僅是對(duì)Yahoo! UI的對(duì)話框擴(kuò)展,后來(lái)逐漸有了自己的特色,深受技術(shù)研發(fā)人員的喜愛(ài)。發(fā)展至今,ExtJS除YUI外還支持包括jQuery、Prototype等多種JS底層庫(kù),可以讓開(kāi)發(fā)人員自由進(jìn)行選擇[8]。該框架完全基于純HTML/CSS+JS技術(shù),提供豐富的跨瀏覽器UI組件,靈活采用JSON/XML數(shù)據(jù)源開(kāi)發(fā),使得服務(wù)端表示層的負(fù)荷真正得以減輕。 HTTPClientHTTPClient是Apache Jakarta Common下的子項(xiàng)目,可以用來(lái)提供高效的、最新的、功能豐富的支持HTTP協(xié)議的客戶端編程工具包。 HTTP協(xié)議可能是現(xiàn)在Internet上使用得最多、最重要的協(xié)議了,越來(lái)越多的Java應(yīng)用程序需要直接通過(guò)HTTP協(xié)議來(lái)訪問(wèn)網(wǎng)絡(luò)資源。雖然在 ,但是對(duì)于大部分應(yīng)用程序來(lái)說(shuō),JDK庫(kù)本身提供的功能還不夠豐富和靈活。HTTPClient已經(jīng)應(yīng)用在很多大型的項(xiàng)目中,比如Apache Jakarta上很著名的另外兩個(gè)開(kāi)源項(xiàng)目Cactus和HTMLUnit都使用了HTTPClient。HTTPClient所提供的主要功能包括:1) 實(shí)現(xiàn)了所有HTTP的方法(GET,POST,PUT,HEAD 等);2) 支持自動(dòng)轉(zhuǎn)向;3) 支持 HTTPS 協(xié)議;4) 支持代理服務(wù)器。 HTMLParserHTMLParser是一個(gè)利用純Java語(yǔ)言編寫的進(jìn)行HTML解析的庫(kù),它不依賴于其它的Java庫(kù)文件,主要用于改造或提取HTML,其特點(diǎn)是能夠超高速解析HTML文件,而且不會(huì)出錯(cuò)。作為目前最為方便易用的進(jìn)行HTML解析和信息提取的工具,HTMLParser已經(jīng)成為了抓取網(wǎng)頁(yè)數(shù)據(jù)和改造HTML的內(nèi)容的首選工具。HTMLParser主要包含以下兩個(gè)方面的功能:1)信息提取功能:1  文本信息抽取,例如對(duì)HTML進(jìn)行有效信息搜索;2  鏈接提取,用于自動(dòng)給頁(yè)面的鏈接文本加上鏈接的標(biāo)簽;3  資源提取,例如對(duì)一些圖片、聲音的資源的處理;4  鏈接檢查,用于檢查HTML中的鏈接是否有效;5  頁(yè)面內(nèi)容的監(jiān)控。2)信息轉(zhuǎn)換功能:1  鏈接重寫,用于修改頁(yè)面中的所有超鏈接;2  網(wǎng)頁(yè)內(nèi)容拷貝,用于將網(wǎng)頁(yè)內(nèi)容保存到本地;3  內(nèi)容檢驗(yàn),可以用來(lái)過(guò)濾網(wǎng)頁(yè)上一些令人不愉快的字詞;4  HTML信息清洗,把本來(lái)亂七八糟的HTML信息格式化;5  轉(zhuǎn)成XML格式數(shù)據(jù)。 本章簡(jiǎn)要介紹了進(jìn)行本次新聞爬蟲系統(tǒng)開(kāi)發(fā)所需要的相關(guān)理論和技術(shù),主要包括網(wǎng)絡(luò)爬蟲的定義,爬取策略等理論知識(shí),J2EE技術(shù)、SQL Server 2005數(shù)據(jù)庫(kù)管理系統(tǒng)以及ExtJS框架相關(guān)知識(shí),并對(duì)系統(tǒng)開(kāi)發(fā)過(guò)程中用到的一些關(guān)鍵開(kāi)源工具做出了簡(jiǎn)要說(shuō)明,這些關(guān)鍵技術(shù)的學(xué)習(xí)和掌握為接下來(lái)的系統(tǒng)分析及設(shè)計(jì)實(shí)現(xiàn)提供了堅(jiān)實(shí)的理論基礎(chǔ)。 3 系統(tǒng)需求分析需求分析階段的主要工作就是分析用戶的需求是什么,是指針對(duì)軟件所要解決的問(wèn)題進(jìn)行詳細(xì)的分析,明確對(duì)軟件系統(tǒng)的輸入輸出要求。本章主要從系統(tǒng)可行性、用戶對(duì)象、用戶用例、功能需求以及性能需求五個(gè)方面進(jìn)行詳細(xì)的系統(tǒng)需求分析。 系統(tǒng)可行性研究 技術(shù)可行性1)軟件可行性新聞爬蟲系統(tǒng)所需要的數(shù)據(jù)源可以通過(guò)編寫網(wǎng)絡(luò)爬蟲程序來(lái)實(shí)現(xiàn)定向抓取,通過(guò)定制爬行過(guò)程中的過(guò)濾條件和爬行策略,爬蟲程序所獲取的數(shù)據(jù)量和抓取的效率都能得到很好的保證。新聞信息的可視化模塊可以通過(guò)借助Google Visualization API動(dòng)態(tài)地將新聞顯示在交互方式非常豐富的圖表上,再結(jié)合ExtJS構(gòu)建一個(gè)富互聯(lián)網(wǎng)應(yīng)用,整個(gè)系統(tǒng)能夠提供良好的用戶體驗(yàn)。2) 硬件可行性新聞爬蟲系統(tǒng)需要進(jìn)行抓取和分析的數(shù)據(jù)量非常大,這對(duì)于服務(wù)器端數(shù)據(jù)庫(kù)的承載能力要求較高,通過(guò)較長(zhǎng)時(shí)間的測(cè)試,目前主流的服務(wù)器完全可以勝任作為輿情分析系統(tǒng)服務(wù)器的要求。由于該新聞爬蟲系統(tǒng)采用B/S架構(gòu)方式,用戶僅需在瀏覽器端利用瀏覽器進(jìn)入系統(tǒng)使用相關(guān)功能即可,當(dāng)前主流的個(gè)人電腦硬件配置完全滿足使用條件。 操作可行性本系統(tǒng)在用戶界面層利用ExtJS框架結(jié)合Google Visualization API進(jìn)行構(gòu)建。ExtJS作為開(kāi)源JavaScript框架,功能強(qiáng)大,界面美觀,使用AJAX技術(shù)開(kāi)發(fā)RIA應(yīng)用。Google Visualization API所提供的圖表工具作為Flex程序,具有極為豐富的交互效果。兩者相結(jié)合開(kāi)發(fā)出的前臺(tái)網(wǎng)頁(yè),保證了良好的用戶體驗(yàn),能夠滿足用戶實(shí)際操作的需要。 經(jīng)濟(jì)可行性經(jīng)過(guò)不斷的系統(tǒng)完善和功能增強(qiáng)過(guò)程,成型之后的新聞爬蟲系統(tǒng)能夠?yàn)楦鱾€(gè)行業(yè)按需提供不同的服務(wù)。例如:為政府機(jī)關(guān)、公安、廣電、教育機(jī)構(gòu)提供輿情監(jiān)測(cè)服務(wù),為上市公司、投資機(jī)構(gòu)、金融監(jiān)管機(jī)構(gòu)提供口碑管理服務(wù),為各類商業(yè)公司提供競(jìng)爭(zhēng)情報(bào)管理、招投標(biāo)監(jiān)測(cè)、危機(jī)公關(guān)處理、市場(chǎng)調(diào)研、趨勢(shì)分析以及營(yíng)銷效果評(píng)估等服務(wù)。綜上所述,新聞爬蟲分析系統(tǒng)具有非常強(qiáng)的經(jīng)濟(jì)可行性。 用戶對(duì)象分析互聯(lián)網(wǎng)定向信息采集系統(tǒng)面對(duì)的客戶是特定的專業(yè)人群和企業(yè)機(jī)構(gòu),他們關(guān)心的信息一般限于特定的主題。出于性能和成本上的考量,本系統(tǒng)不需要也不可能對(duì)整個(gè)互聯(lián)網(wǎng)來(lái)做遍歷抓取。本系統(tǒng)的用戶一般是新聞熱點(diǎn)分析部門或是各公安部門的觀察員。一般來(lái)說(shuō),他們無(wú)法將精力全部花在瀏覽各大網(wǎng)站新聞和BBS上,但是他們的職責(zé)需要他們對(duì)網(wǎng)絡(luò)上的信息有一個(gè)把握,尤其是和其興趣點(diǎn)、切身利益相關(guān)的帖子和新聞。對(duì)于企業(yè)公關(guān)來(lái)說(shuō),信息時(shí)代的到來(lái)導(dǎo)致危機(jī)的信息傳播比危機(jī)本身發(fā)展要快得多,媒體的報(bào)道也很難避免。他們需要不斷的知道外屆對(duì)企業(yè)的評(píng)價(jià),是否有競(jìng)爭(zhēng)對(duì)手惡意中傷等,從而在第一時(shí)間作出應(yīng)對(duì)措施,減少破壞性和蔓延速度,以維護(hù)形象和贏得消費(fèi)者的同情和理解。 對(duì)于行政機(jī)構(gòu)類用戶,他們需要對(duì)國(guó)內(nèi)重點(diǎn)論壇和新聞門戶網(wǎng)站,也包含國(guó)外部分敏感網(wǎng)站,特別是國(guó)外的Twitter,F(xiàn)acebook等網(wǎng)站進(jìn)行一些監(jiān)控,以對(duì)一些敏感事件進(jìn)行及時(shí)的發(fā)現(xiàn)、后續(xù)跟蹤,同時(shí)對(duì)于民意的聽(tīng)取也很感興趣,從而做到對(duì)特殊事件的早發(fā)現(xiàn)、早預(yù)警,為及時(shí)處置奠定基礎(chǔ)。此外,還有很重要的一個(gè)方面的用戶就是系統(tǒng)管理員,他們并不是新聞爬蟲系統(tǒng)的用戶,但是該管理員需要控制數(shù)據(jù)源的獲取邏輯,進(jìn)行數(shù)據(jù)的分析,并將分析結(jié)果進(jìn)行展示。 用戶用例分析 管理員用戶用例分析管理員用戶用例圖如圖31所示:圖31 管理員用戶用例圖對(duì)于管理員用戶,其使用場(chǎng)景分為五大類:1) 對(duì)爬蟲數(shù)據(jù)源進(jìn)行控制:包括對(duì)爬蟲爬取的數(shù)據(jù)源的增加和刪除,以及對(duì)被爬行網(wǎng)站的配置(例如改動(dòng)HTML代碼關(guān)鍵字匹配特征以通過(guò)HTMLParser抓取到相應(yīng)類型的新聞)。數(shù)據(jù)源的配置需要定期進(jìn)行更新和維護(hù),系統(tǒng)需要提供有良好的接口,盡量降低配置的難度和維護(hù)的工作量。2) 開(kāi)始一次數(shù)據(jù)采集過(guò)程:手動(dòng)采集和增量采集(添加定時(shí)任務(wù))。兩者的本質(zhì)都是開(kāi)啟網(wǎng)絡(luò)爬蟲對(duì)數(shù)據(jù)源網(wǎng)站根據(jù)抓取配置來(lái)執(zhí)行數(shù)據(jù)獲取的任務(wù),不同的是手動(dòng)采集由管理員觸發(fā)后執(zhí)行一次特定任務(wù),增量采集會(huì)對(duì)部分更新頻率較高的網(wǎng)頁(yè)進(jìn)行周期性的抓取以達(dá)到服務(wù)器端數(shù)據(jù)庫(kù)實(shí)時(shí)更新的效果。3) 對(duì)于數(shù)據(jù)庫(kù)中的新聞信息進(jìn)行分析。4) 進(jìn)入WEB頁(yè)測(cè)試本地服務(wù)器和系統(tǒng)是否運(yùn)行正常。5) 將爬取的新聞信息以及分析的結(jié)果展示給用戶。 普通用戶用例分析普通用戶用例圖如圖32所示:圖32 普通用戶用例圖對(duì)于普通用戶,其使用場(chǎng)景分為五種:1) 查看各類新聞;2) 按關(guān)鍵字,時(shí)間等多條件搜索新聞;3) 查看新聞?lì)悇e分析柱狀圖;4) 查看新聞小類別分析柱狀圖;5) 查看新聞數(shù)量隨月份的變化折線圖;6) 查看在某一天新聞數(shù)量在一天中的變化折線圖。 綜合用例分析圖33 系統(tǒng)綜合用例圖該新聞爬蟲系統(tǒng)的綜合用例圖如圖33所示,普通用戶可以進(jìn)入該系統(tǒng)進(jìn)行查看各類新聞、按關(guān)鍵字,時(shí)間等多條件搜索新聞、查看新聞?lì)悇e分析柱狀圖、查看新聞小類別分析柱狀圖、查看新聞數(shù)量隨月份的變化折線圖、查看在某一天新聞數(shù)量在一天中的變化折線圖以及進(jìn)行綜合分析統(tǒng)計(jì)操作;管理員用戶具有最高權(quán)限,除了可以正常使用本系統(tǒng)進(jìn)行系統(tǒng)功能測(cè)試之外,還可以進(jìn)行控制系統(tǒng)數(shù)據(jù)源、觸發(fā)一次數(shù)據(jù)采集等操作。 功能需求分析根據(jù)上文對(duì)于用戶用例的分析,可以總結(jié)出本系統(tǒng)的功能需求:1) 針對(duì)管理員用戶:a) 對(duì)爬蟲爬取的數(shù)據(jù)源進(jìn)行便捷的管理操作,包括對(duì)數(shù)據(jù)源的增 加和刪除以及對(duì)于數(shù)據(jù)抓取策略的修改;b) 觸發(fā)一次數(shù)據(jù)采集的過(guò)程,包括指定一次手動(dòng)采集的過(guò)程和觸 發(fā)一次定時(shí)采集的過(guò)程以實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)獲取和增量獲?。籧) 對(duì)于數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析;d) 具備普通用戶能夠使用的所有功能,可進(jìn)入WEB頁(yè)測(cè)試本地 服務(wù)器和系統(tǒng)是否運(yùn)行正常。2) 針對(duì)普通用戶:a) 查看各類新聞:輸入關(guān)鍵字和日期進(jìn)行檢索,查看當(dāng)前 類型的符合條件的新聞;b) 查看新聞?lì)悇e分析柱狀圖:輸入日期進(jìn)行檢索,查看 當(dāng)前時(shí)間下的新聞?lì)悇e分析柱狀圖;c) 查看新聞小類別分析柱狀圖:輸入日期進(jìn)行檢索,可查看當(dāng)前時(shí)間下的小的新聞?lì)悇e的數(shù)量分析柱狀圖; d) 查看新聞數(shù)量隨月份的變化折線圖:根據(jù)輸入的年份可查看當(dāng)前年份中新聞發(fā)布數(shù)量隨月份變化的折線圖;e) 查看在某一天新聞數(shù)量在一天中的變化折線圖:根據(jù)輸入的時(shí)間可查看當(dāng)前日期下新聞發(fā)布數(shù)量隨時(shí)間變化的折線圖。 性能需求分析本系統(tǒng)運(yùn)行在Windows 7 Ultimate操作系統(tǒng)上,Web服務(wù)器選用Apache Tomcat ,整個(gè)系統(tǒng)的性能指標(biāo)如下:1) 運(yùn)行環(huán)境:a) CPU:Intel Core (TM) 2 Duo E7200 @ b) 內(nèi)存:3 GB ( DDR2 667MHz / DDR2 800MHz )c) 帶寬:,100M網(wǎng)卡2) 運(yùn)行參數(shù):a) 最大網(wǎng)絡(luò)連接數(shù):65b) 單一主機(jī)連接數(shù):203) 下載速度:(按照平均每個(gè)頁(yè)面包含10條數(shù)據(jù)來(lái)計(jì)算)a) 最高速度:200Pages/Min,平均每分鐘抓取2000條記錄b) 最低速度:50Pages/Min,平均每分鐘抓取500條記錄4) 頁(yè)面解析速度:a) 平均速度:1000Pages/Minb) 并發(fā)解析線程數(shù):205) 資源使用率:a) 下載服務(wù):CPU占用率50%,內(nèi)存占用率500MBb) 解析服務(wù):CPU占用率70%,內(nèi)存占用率800MB 本章小結(jié) 本章主要對(duì)需求分析階段所做的相關(guān)工作進(jìn)行了描述,為后期系統(tǒng)設(shè)計(jì)和開(kāi)發(fā)工作做準(zhǔn)備。首先從技術(shù)可行性、操作可行性和經(jīng)濟(jì)可行性三個(gè)方面對(duì)系統(tǒng)可行性進(jìn)行了評(píng)估,隨后對(duì)系統(tǒng)的用戶對(duì)象和用戶用況從管理員用戶和普通用戶兩個(gè)角度進(jìn)行了詳細(xì)的分析,并分別總結(jié)出了相應(yīng)的功能需求,最后對(duì)系統(tǒng)的性能需求進(jìn)行了簡(jiǎn)要分析。 4 系統(tǒng)總體設(shè)計(jì)系統(tǒng)需求分析階段主要提出了系統(tǒng)需要做什么,系統(tǒng)設(shè)計(jì)階段需要解決的問(wèn)題就是系統(tǒng)需要怎么做。系統(tǒng)設(shè)計(jì)階段的主要參考依據(jù)是需求分析階段得出的相關(guān)結(jié)果,據(jù)此進(jìn)行系統(tǒng)的數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)和功能模塊設(shè)計(jì),本階段的工作是對(duì)上一階段分析結(jié)果的進(jìn)一步具體化。 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)良好的數(shù)據(jù)庫(kù)結(jié)構(gòu)對(duì)于保障一個(gè)應(yīng)用程序始終運(yùn)行在高性能狀態(tài)具有非常重要的意義。數(shù)據(jù)庫(kù)結(jié)構(gòu)如果沒(méi)有設(shè)計(jì)好將會(huì)給以后的工作帶來(lái)很多麻煩,一方面是性能問(wèn)題,另一方面是維護(hù)問(wèn)題。過(guò)多的重復(fù)性數(shù)據(jù)會(huì)嚴(yán)重影響系統(tǒng)的執(zhí)行性能,當(dāng)這些數(shù)據(jù)的一個(gè)實(shí)例發(fā)生改變時(shí),其他數(shù)據(jù)也都要進(jìn)行相應(yīng)的改變。本系統(tǒng)使用SQL Server 2005作為數(shù)據(jù)庫(kù)管理工具,SQL Server 2005是一個(gè)具備完整的Web支持的數(shù)據(jù)庫(kù)產(chǎn)品,提供了以Web標(biāo)準(zhǔn)為基礎(chǔ)的擴(kuò)展數(shù)據(jù)庫(kù)編程功能。在數(shù)據(jù)訪問(wèn)層,采用JDBC直接訪問(wèn)數(shù)據(jù)庫(kù)的方式,通過(guò)SQL語(yǔ)句操作數(shù)據(jù)庫(kù),簡(jiǎn)單易用。根據(jù)本系統(tǒng)的實(shí)際需求,數(shù)據(jù)庫(kù)中需要具備的基本表有三個(gè):1) (如表41所示)表41 帖子信息列表字段名字段類型字段限制注釋news_idINT主鍵新聞編號(hào)News_urlNVARCHARnot null數(shù)據(jù)來(lái)源news_titleNVARCHARnot null新聞標(biāo)題news_pudbateNVARCHARnot null新聞發(fā)布時(shí)間news_mediaNVARCHARnot null新聞發(fā)布方news_contentNVARCHARnot null新聞內(nèi)容news_typeINTnot null新聞?lì)愋途幪?hào)news_typenameNVARCHARnot null新聞?lì)愋蚽ews_typecodeINTnot null新聞?lì)愋途幋anews_smalltypeNVARCHARnot null新聞詳細(xì)類別news_pictureNVARCHAR無(wú)新聞圖片2) (如表42所示)表42 數(shù)據(jù)源信息列表字段名字段類型字段限制注釋url_idINT主鍵數(shù)據(jù)源編號(hào)url
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1