freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-文庫吧

2025-07-21 07:56 本頁面


【正文】 技術的知識理論和J2EE技術、SQL Server 2005數(shù)據(jù)庫管理系統(tǒng)以及ExtJS框架等相關知識,并對系統(tǒng)開發(fā)過程中用到的一些關鍵開源工具做出了簡要說明。第3章 對本系統(tǒng)進行了需求分析,首先從技術可行性、操作可行性和經(jīng)濟可行性三個方面對系統(tǒng)可行性進行了評估,隨后對系統(tǒng)的用戶對象和用戶用況從管理員用戶和普通用戶兩個角度進行了詳細的分析,并分別總結(jié)出了相應的功能需求,最后對系統(tǒng)的性能需求進行了簡要分析。第4章 對本系統(tǒng)進行了總體設計,包括數(shù)據(jù)庫結(jié)構(gòu)的總體設計以及系統(tǒng)功能模塊的總體設計,并對數(shù)據(jù)獲取功能模塊的子模塊以及數(shù)據(jù)可視化功能模塊的功能結(jié)構(gòu)做出了明確的劃分,為系統(tǒng)詳細設計與實現(xiàn)階段的工作備好條件。第5章 對本系統(tǒng)的詳細設計和實現(xiàn)過程做出了說明,進行了功能模塊的詳細設計并完成了系統(tǒng)的開發(fā)實現(xiàn)工作,對于數(shù)據(jù)獲取模塊以及數(shù)據(jù)可視化模塊進行了詳細的設計實現(xiàn)和功能說明。第6章 進行了系統(tǒng)測試和發(fā)布工作,首先從理論上對軟件測試的目標和方法進行了簡要介紹,之后設計了多個測試用例對系統(tǒng)的相關功能模塊進行了詳細的測試并對測試結(jié)果進行了分析,最后將本系統(tǒng)通過TOMCAT部署到了PC服務器上,完成了系統(tǒng)發(fā)布的過程。 第7章 對于本次系統(tǒng)設計開發(fā)過程進行了歸納和總結(jié),闡述了本次系統(tǒng)開發(fā)的意義并分析了下一步需要進行的工作,最后對網(wǎng)絡輿情分析系統(tǒng)的發(fā)展方向進行了展望。 2 系統(tǒng)開發(fā)知識準備 本章簡要介紹了進行本次新聞爬蟲系統(tǒng)開發(fā)所需要的相關理論和技術,這些關鍵技術的學習和掌握為接下來的系統(tǒng)分析及設計實現(xiàn)提供了堅實的理論基礎。 網(wǎng)絡爬蟲的相關知識與理論 網(wǎng)絡爬蟲的定義 網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從WEB上下載網(wǎng)頁,是搜索引擎的重要組成部分。通用網(wǎng)絡爬蟲從一個或幾個初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL列表;在抓取網(wǎng)頁的過程中不斷從當前網(wǎng)頁上抽取新的URL放入到待爬行隊列,直到滿足系統(tǒng)的停止條件。 頁面搜索策略介紹 網(wǎng)頁的爬取策略可分為深度優(yōu)先,廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多時候會導致爬蟲的陷入問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。 廣度優(yōu)先策略是指在爬取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索算法。也有很多研究將廣度優(yōu)先算法應用于聚焦爬蟲上。其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關性的概率很大。最佳優(yōu)先策略是按照一定的網(wǎng)頁分析算法,預測候選URL與目標網(wǎng)頁的相似度,或與主題的相關性,并選評價最好的一個或幾個URL進行抓取。它只訪問經(jīng)過網(wǎng)頁任意算法預測為“有用”的網(wǎng)頁。存在的一個問題是,在爬蟲抓取路徑上的很多相關網(wǎng)頁可能被忽略。因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。因此需要在應用中對最佳優(yōu)先策略進行改進,以跳出局部最優(yōu)點。 J2EE技術簡介J2EE指的是Java2平臺企業(yè)版(Java 2 Platform , Enterprise Edition)。J2EE的核心是一組技術規(guī)范與指南,其中所包含的各類組件、服務架構(gòu)及技術層次,均有共同的標準及規(guī)格,讓各種依循J2EE架構(gòu)的不同平臺之間存在良好的兼容性,一方面解決了過去企業(yè)后端使用的信息產(chǎn)品彼此之間無法兼容的問題,另一方面使得企業(yè)擺脫了內(nèi)部和外部難以互通的窘境。J2EE組件和“標準的”Java類的不同點在于:它被裝配在一個J2EE應用中,具有固定的格式并遵守J2EE規(guī)范,由J2EE服務器對其進行管理。J2EE規(guī)范是這樣定義J2EE組件的:客戶端應用程序和Applet是運行在客戶端的組件;Java Servlet和Java Server Pages (JSP) 是運行在服務器端的Web組件;Enterprise Java Bean (EJB )是運行在服務器端的業(yè)務組件。J2EE體系結(jié)構(gòu)提供中間層集成框架用來滿足無需太多費用而又需要高可用性、高可靠性以及可擴展性的應用的需求。通過提供統(tǒng)一的開發(fā)平臺,J2EE降低了開發(fā)多層應用的費用和復雜性,同時提供對現(xiàn)有應用程序集成的強有力支持,極大地提高了系統(tǒng)的運行效率和安全性。J2EE使用多層的分布式應用模型,應用邏輯按功能劃分為組件,各個應用組件根據(jù)他們所在的層分布在不同的機器上。事實上,SUN設計J2EE的初衷正是為了解決兩層模式(Client/Server)的弊端。傳統(tǒng)的客戶端往往承擔了太多的功能,導致客戶端比較臃腫,升級很不方便。而J2EE中使用的多層軟件模型將原來簡單的模型切成幾層解耦的獨立功能層,每一層完成特定的任務,方便升級系統(tǒng)并更改應用的邏輯[5]。典型的J2EE應用體系結(jié)構(gòu)如圖21所示:圖21 J2EE體系結(jié)構(gòu)圖總體來說,使用J2EE技術開發(fā)Web事務系統(tǒng)有以下優(yōu)點:第一,開發(fā)高效,J2EE有完善的開源社區(qū)支持,像Spring,Struts這些框架可以大大縮短開發(fā)周期;第二,支持不同的操作系統(tǒng)環(huán)境,因為Java天生具有“一次編譯,隨處運行”的特點,基于J2EE開發(fā)的應用程序不依賴特定的操作系統(tǒng)、硬件等,也就具有了開發(fā)一次就可以在各個平臺部署的特點;第三,穩(wěn)定的高可用性,得益于從Java繼承而來的跨平臺特性,J2EE系統(tǒng)部署到可靠的操作環(huán)境中,一些對系統(tǒng)魯棒性要求很高的大型商務系統(tǒng)可以選擇比Windows更為健壯的Linux操作系統(tǒng),這是更為理想的選擇。 SQL Server 2005簡介Microsoft SQL Server 2005是一個全面的數(shù)據(jù)庫平臺,使用集成的商業(yè)智能工具提供了企業(yè)級的數(shù)據(jù)管理方式。Microsoft SQL Server 2005數(shù)據(jù)庫引擎為關系型數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)提供了更安全可靠的存儲功能,使得用戶可以構(gòu)建和管理用于業(yè)務的高可用和高性能的數(shù)據(jù)應用程序。SQL Server是由Microsoft開發(fā)和推廣的關系數(shù)據(jù)庫管理系統(tǒng)(DBMS),它最初是由Microsoft、Sybase、AshtonTate三家公司共同開發(fā)的,并于1988年推出了第一個在OS/2版本上運行的SQL Server系統(tǒng)。1992年Sybase和Microsoft這兩家公司將SQL Server移植到了Windows NT操作系統(tǒng)上,后來Microsoft致力于Windows NT平臺的SQL Server的開發(fā),而Sybase則專注于SQL Server在UNIX上的應用[6]。近年來在Microsoft SQL Server的發(fā)展歷程中不斷更新版本:1996年發(fā)布的SQL ,該版本具備了市場所需的速度快、功能強、易使用和價格低等有點;1998年推出了SQL ,該版本再一次對核心數(shù)據(jù)庫引擎進行了重大改寫,在操作上更加簡單、易用,因此獲得了良好的聲譽;2000年,發(fā)布了SQL Server 2000版本,該版本在可擴縮性和可靠性上有了很大的改進,成為企業(yè)級數(shù)據(jù)庫市場中重要的一員;2005年,發(fā)布了SQL Server 2005版本,該版本擴展了SQL Server 2000的性能,如在可靠性、可用性、可編程性和易用性等方面做出了重大改進。SQL Server Framework, SQL Server專有對象,從而使SQL Server數(shù)據(jù)庫具有靈活的功能。SQL Server 2005的常見版本包括如下四種: 1)個人版(Personal Edition):用于單機系統(tǒng)或客戶機;2) 標準版(Standard Edition):用于小型的工作組或部門; 3)企業(yè)版(Enterprise Edition):支持所有的SQL Server 2005特性,可作為大型Web站點、企業(yè)OLTP(聯(lián)機事務處理)以及數(shù)據(jù)倉庫系統(tǒng)等的產(chǎn)品數(shù)據(jù)庫服務器;4)開發(fā)者版(Developer Edition):用于程序員開發(fā)應用程序,這些程序需要SQL Server 2005作為數(shù)據(jù)庫存儲設備[7]。 ExtJS簡介 ExtJS是一個JavaScript庫,功能強大,界面美觀,可以使用AJAX, DHTML,DOM等技術來開發(fā)網(wǎng)絡應用程序。ExtJS可以用來開發(fā)富互聯(lián)網(wǎng)應用(RIA:Rich Internet Applications),主要用于創(chuàng)建前端用戶界面,是一個與后臺技術無關的前端AJAX框架。因此,、Java以及PHP等多種開發(fā)語言中。ExtJS最開始基于YUI技術,由開發(fā)人員Jack Slocum開發(fā),通過參考Java SWING等機制來組織可視化組件,從UI界面上CSS樣式的應用,到數(shù)據(jù)解析過程中的異常處理,都可算是一款不可多得的JavaScript客戶端技術的精品。ExtJS的組件結(jié)構(gòu)如圖23所示:圖23 ExtJS組件結(jié)構(gòu)圖ExtJS初期僅是對Yahoo! UI的對話框擴展,后來逐漸有了自己的特色,深受技術研發(fā)人員的喜愛。發(fā)展至今,ExtJS除YUI外還支持包括jQuery、Prototype等多種JS底層庫,可以讓開發(fā)人員自由進行選擇[8]。該框架完全基于純HTML/CSS+JS技術,提供豐富的跨瀏覽器UI組件,靈活采用JSON/XML數(shù)據(jù)源開發(fā),使得服務端表示層的負荷真正得以減輕。 HTTPClientHTTPClient是Apache Jakarta Common下的子項目,可以用來提供高效的、最新的、功能豐富的支持HTTP協(xié)議的客戶端編程工具包。 HTTP協(xié)議可能是現(xiàn)在Internet上使用得最多、最重要的協(xié)議了,越來越多的Java應用程序需要直接通過HTTP協(xié)議來訪問網(wǎng)絡資源。雖然在 ,但是對于大部分應用程序來說,JDK庫本身提供的功能還不夠豐富和靈活。HTTPClient已經(jīng)應用在很多大型的項目中,比如Apache Jakarta上很著名的另外兩個開源項目Cactus和HTMLUnit都使用了HTTPClient。HTTPClient所提供的主要功能包括:1) 實現(xiàn)了所有HTTP的方法(GET,POST,PUT,HEAD 等);2) 支持自動轉(zhuǎn)向;3) 支持 HTTPS 協(xié)議;4) 支持代理服務器。 HTMLParserHTMLParser是一個利用純Java語言編寫的進行HTML解析的庫,它不依賴于其它的Java庫文件,主要用于改造或提取HTML,其特點是能夠超高速解析HTML文件,而且不會出錯。作為目前最為方便易用的進行HTML解析和信息提取的工具,HTMLParser已經(jīng)成為了抓取網(wǎng)頁數(shù)據(jù)和改造HTML的內(nèi)容的首選工具。HTMLParser主要包含以下兩個方面的功能:1)信息提取功能:1  文本信息抽取,例如對HTML進行有效信息搜索;2  鏈接提取,用于自動給頁面的鏈接文本加上鏈接的標簽;3  資源提取,例如對一些圖片、聲音的資源的處理;4  鏈接檢查,用于檢查HTML中的鏈接是否有效;5  頁面內(nèi)容的監(jiān)控。2)信息轉(zhuǎn)換功能:1  鏈接重寫,用于修改頁面中的所有超鏈接;2  網(wǎng)頁內(nèi)容拷貝,用于將網(wǎng)頁內(nèi)容保存到本地;3  內(nèi)容檢驗,可以用來過濾網(wǎng)頁上一些令人不愉快的字詞;4  HTML信息清洗,把本來亂七八糟的HTML信息格式化;5  轉(zhuǎn)成XML格式數(shù)據(jù)。 本章簡要介紹了進行本次新聞爬蟲系統(tǒng)開發(fā)所需要的相關理論和技術,主要包括網(wǎng)絡爬蟲的定義,爬取策略等理論知識,J2EE技術、SQL Server 2005數(shù)據(jù)庫管理系統(tǒng)以及ExtJS框架相關知識,并對系統(tǒng)開發(fā)過程中用到的一些關鍵開源工具做出了簡要說明,這些關鍵技術的學習和掌握為接下來的系統(tǒng)分析及設計實現(xiàn)提供了堅實的理論基礎。 3 系統(tǒng)需求分析需求分析階段的主要工作就是分析用戶的需求是什么,是指針對軟件所要解決的問題進行詳細的分析,明確對軟件系統(tǒng)的輸入輸出要求。本章主要從系統(tǒng)可行性、用戶對象、用戶用例、功能需求以及性能需求五個方面進行詳細的系統(tǒng)需求分析。 系統(tǒng)可行性研究 技術可行性1)軟件可行性新聞爬蟲系統(tǒng)所需要的數(shù)據(jù)源可以通過編寫網(wǎng)絡爬蟲程序來實現(xiàn)定向抓取,通過定制爬行過程中的過濾條件和爬行策略,爬蟲程序所獲取的數(shù)據(jù)量和抓取的效率都能得到很好的保證。新聞信息的可視化模塊可以通過借助Google Visualization API動態(tài)地將新聞顯示在交互方式非常豐富的圖表上,再結(jié)合ExtJS構(gòu)建一個富互聯(lián)網(wǎng)應用,整個系統(tǒng)能夠提供良好的用戶體驗。2) 硬件可行性新聞爬蟲系統(tǒng)需要進行抓取和分析的數(shù)據(jù)量非常大,這對于服務器端數(shù)據(jù)庫的承載能力要求較高,通過較長時間的測試,目前主流的服務器完全可以勝任作為輿情分析系統(tǒng)服務器的要求。由于該新聞爬蟲系統(tǒng)采用B/S架構(gòu)方式,用戶僅需在瀏覽器端利用瀏覽器進入系統(tǒng)使用相關功能即可,當前主流的個人電腦硬件配置完全滿足使用條件。 操作可行性本系統(tǒng)在用戶界面層利用ExtJS框架結(jié)合Google Visualization API進行構(gòu)建。ExtJS作為開源JavaScript框架,功能強大,界面美觀,使用AJAX技術開發(fā)RIA應用。Google Visualization API所提供的圖表工具作為Flex程序,具有極為豐富的交互效果。兩者相結(jié)合開發(fā)出的前臺網(wǎng)頁,保證了良好的用戶體驗,能夠滿足用戶實際操作的需要。 經(jīng)濟可行性經(jīng)過不斷的系統(tǒng)完善和功能增強過程,成型之后的新聞爬蟲系統(tǒng)能夠為各個行業(yè)按需提供不同的服務。例如:為政府機關、公安、廣電、教育機構(gòu)提供輿情監(jiān)測服務,為上市公司、投資機構(gòu)、金融監(jiān)管機構(gòu)提供口碑管理服務,為各類商業(yè)公司提供競爭情報管理、招投標監(jiān)測、危機公關處理、市場調(diào)研、趨勢分析以及營銷效果評估等服務。綜上所述,新聞爬蟲分析系統(tǒng)具有非常強的經(jīng)濟可行性。 用戶對象分析互聯(lián)網(wǎng)定向信息采集系統(tǒng)面對的客戶是特定的專業(yè)人群和企業(yè)機構(gòu),他們關心的信息一般限于特定的主題。出于性能和成本上的考量,本系統(tǒng)不需要也不可能對整個互聯(lián)網(wǎng)來做遍歷抓取。本系統(tǒng)的用戶一般是新聞熱點分析部門或是各公安部門的觀察員。一般來說,他們無法將精力全部花在瀏覽各大網(wǎng)站新聞和BBS上,但是他們的職責需要他們對網(wǎng)絡上的信息有一個把握,尤其是和其興趣點、切身利益相關的帖子和新聞。對于企
點擊復制文檔內(nèi)容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1