freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-展示頁

2024-08-20 07:56本頁面
  

【正文】 information, parsed and stored the metadata, such as number, title, content, poster, posting time and the corresponding reply in a SQL Server database.3) frontend interface bined with the use of open source AJAX framework ExtJS Servlet be achieved, taking into account the diversity of user interaction and system crossbrowser patibility. By using this news crawling system, users can realtime news and information updated, timely, prehensive and accurate grasp of hot news developments, improve the handling capacity of major emergencies, for more timely and prehensive understanding of an important realtime information across significance.Key Words: Hot news,Web crawler,Metadata extraction,Visualization 目錄1 緒論 1 開發(fā)背景及目的 1 國內(nèi)外相關(guān)研究現(xiàn)狀 3 論文主要內(nèi)容和章節(jié)安排 42 系統(tǒng)開發(fā)知識準備 6 J2EE技術(shù)簡介 7 SQL Server 2005簡介 8 ExtJS簡介 10 12 133 系統(tǒng)需求分析 14 系統(tǒng)可行性研究 14 用戶對象分析 15 用戶用例分析 16 功能需求分析 20 性能需求分析 21 本章小結(jié) 214 系統(tǒng)總體設(shè)計 23 數(shù)據(jù)庫結(jié)構(gòu)設(shè)計 23 系統(tǒng)功能模塊設(shè)計 25 本章小結(jié) 315 系統(tǒng)詳細設(shè)計與實現(xiàn) 32 數(shù)據(jù)獲取模塊 32 數(shù)據(jù)可視化模塊 36 本章小結(jié) 436 系統(tǒng)測試與發(fā)布 44 軟件測試的目標和方法 44 測試用例 45 本章小結(jié) 497 總結(jié) 50參考文獻 528 致謝詞 53附錄1 英文原文 54附錄2 中文譯文 64V1 緒論 本章主要闡明了該課題的研究背景及其研究意義,簡要說明了國內(nèi)外對于爬蟲系統(tǒng)的研究現(xiàn)狀,并介紹了本論文的主要內(nèi)容組成以及論文的組織結(jié)構(gòu)。由于互聯(lián)網(wǎng)是開放的,每個人都可以在網(wǎng)絡(luò)上發(fā)表信息,內(nèi)容涉及各個方面。互聯(lián)網(wǎng)已成為思想文化信息的集散地,并具有傳統(tǒng)媒體無法相比的優(yōu)勢:便捷性,虛擬性,互動性,多元性。網(wǎng)絡(luò)爬蟲是一種按照一定上網(wǎng)規(guī)則,自動的抓取萬維網(wǎng)信息的程序或腳本。搜素引擎不斷發(fā)展,人們的需求也不斷提高,網(wǎng)絡(luò)信息搜索已經(jīng)成為人們每天都有進行的內(nèi)容。本課題來源于新聞爬蟲系統(tǒng)項目的建設(shè),旨在為相關(guān)機構(gòu)提供及時的網(wǎng)絡(luò)信息服務(wù)。 及時性新聞爬蟲系統(tǒng)通過爬蟲技術(shù)自動爬取新聞信息,定期對相應(yīng)類型的新聞的地址進行掃描,如若該新聞并未被爬取過則對其進行自動爬取。 專用性 新聞爬蟲系統(tǒng)的專用性體現(xiàn)在數(shù)據(jù)采集,數(shù)據(jù)分析,數(shù)據(jù)展現(xiàn)等幾個環(huán)節(jié)上。有針對性的采集需要的幾個類別的新聞信息,并對信息進行抽取,去噪,結(jié)構(gòu)化處理,為后續(xù)專用分析創(chuàng)造條件。 人性化 新聞爬蟲系統(tǒng)的人性化主要體現(xiàn)在數(shù)據(jù)結(jié)果的展示上。所以不管實在界面上還是在效率上都非常的人性化。一方面,新聞爬蟲系統(tǒng)提供了大量的分析素材,方便全面的了解大眾網(wǎng)絡(luò)新聞的熱點。 本文完成的是新聞爬蟲系統(tǒng)的設(shè)計與實現(xiàn),該爬蟲系統(tǒng)為新聞分析系統(tǒng)提供數(shù)據(jù)源,完成新聞信息的搜集。 國內(nèi)外相關(guān)研究現(xiàn)狀 網(wǎng)絡(luò)爬蟲從搜索對象上來分類,主流的的爬蟲技術(shù)包括以下兩種:第一種是基于鏈接分析的搜索。專家們通過社會間人與人的關(guān)系網(wǎng),設(shè)計研發(fā)出了頁面間的超鏈接關(guān)系網(wǎng)絡(luò)。這樣通過對照就可以分析得出結(jié)論,從關(guān)系網(wǎng)絡(luò)的角度入手,就能將互聯(lián)網(wǎng)上大量的網(wǎng)頁進行分類。第二種是基于內(nèi)容分析的搜索。當(dāng)用戶在專業(yè)領(lǐng)域進行搜索時,可以將詞庫和爬蟲結(jié)合起來進行檢索。在上世紀九十年代,F(xiàn)ish Search System系統(tǒng)作為首個基于內(nèi)容分析的搜索系統(tǒng)被開發(fā)出來。 時至今日,聚焦爬蟲技術(shù)取得了長足的發(fā)展和進步,國外典型的系統(tǒng)包括CORA、IBM Focused Crawler等。CORA采用機械認知的方式,其主要針對的對象是與計算機主題相關(guān)聯(lián)的內(nèi)容,通過隱性馬爾夫的原理對用戶需要的內(nèi)容進行分類。 Focused Crawler,這是一種全新的爬行系統(tǒng)。分類器主要用于計算相關(guān)度,而選擇器用來確定主要頁面。美國人Diligenti采取建立上下文圖的方式設(shè)計出了聚焦爬蟲,他們將其命名為Context Graphs Focused Crawler。系統(tǒng)會利用反向鏈接服務(wù)找到指向該頁面的網(wǎng)頁,在這兩層網(wǎng)頁之間建立引用關(guān)系,由此建立聚焦爬蟲的爬行路徑。在這個過程中,分類器會確定他們的層級關(guān)系,確定之后,頁面的鏈接便會加入隊列,由此提取到所有需要進行抓取的網(wǎng)頁[3]。張福炎教授設(shè)計出了IDGS(Internet Data Gather System)系統(tǒng),可以對萬維網(wǎng)上的中英文內(nèi)容進行搜索,大大的填補了中文方面的空白。在該系統(tǒng)中由模式匹配模塊計算相關(guān)度,采取漫游模型來進行后期的持續(xù)檢索。 論文主要內(nèi)容和章節(jié)安排 本文對于新聞爬蟲系統(tǒng)的設(shè)計與實現(xiàn)過程作出了詳細介紹,該系統(tǒng)的數(shù)據(jù)來源主要是網(wǎng)絡(luò)網(wǎng)頁新聞。第1章 為緒論,主要闡明了該課題的研究背景及其研究意義,簡要說明了國內(nèi)外對于爬蟲系統(tǒng)的研究現(xiàn)狀,并介紹了本論文的主要內(nèi)容組成以及論文的組織結(jié)構(gòu)。第3章 對本系統(tǒng)進行了需求分析,首先從技術(shù)可行性、操作可行性和經(jīng)濟可行性三個方面對系統(tǒng)可行性進行了評估,隨后對系統(tǒng)的用戶對象和用戶用況從管理員用戶和普通用戶兩個角度進行了詳細的分析,并分別總結(jié)出了相應(yīng)的功能需求,最后對系統(tǒng)的性能需求進行了簡要分析。第5章 對本系統(tǒng)的詳細設(shè)計和實現(xiàn)過程做出了說明,進行了功能模塊的詳細設(shè)計并完成了系統(tǒng)的開發(fā)實現(xiàn)工作,對于數(shù)據(jù)獲取模塊以及數(shù)據(jù)可視化模塊進行了詳細的設(shè)計實現(xiàn)和功能說明。 第7章 對于本次系統(tǒng)設(shè)計開發(fā)過程進行了歸納和總結(jié),闡述了本次系統(tǒng)開發(fā)的意義并分析了下一步需要進行的工作,最后對網(wǎng)絡(luò)輿情分析系統(tǒng)的發(fā)展方向進行了展望。 網(wǎng)絡(luò)爬蟲的相關(guān)知識與理論 網(wǎng)絡(luò)爬蟲的定義 網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從WEB上下載網(wǎng)頁,是搜索引擎的重要組成部分。 頁面搜索策略介紹 網(wǎng)頁的爬取策略可分為深度優(yōu)先,廣度優(yōu)先和最佳優(yōu)先三種。 廣度優(yōu)先策略是指在爬取過程中,在完成當(dāng)前層次的搜索后,才進行下一層次的搜索。也有很多研究將廣度優(yōu)先算法應(yīng)用于聚焦爬蟲上。最佳優(yōu)先策略是按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標網(wǎng)頁的相似度,或與主題的相關(guān)性,并選評價最好的一個或幾個URL進行抓取。存在的一個問題是,在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略。因此需要在應(yīng)用中對最佳優(yōu)先策略進行改進,以跳出局部最優(yōu)點。J2EE的核心是一組技術(shù)規(guī)范與指南,其中所包含的各類組件、服務(wù)架構(gòu)及技術(shù)層次,均有共同的標準及規(guī)格,讓各種依循J2EE架構(gòu)的不同平臺之間存在良好的兼容性,一方面解決了過去企業(yè)后端使用的信息產(chǎn)品彼此之間無法兼容的問題,另一方面使得企業(yè)擺脫了內(nèi)部和外部難以互通的窘境。J2EE規(guī)范是這樣定義J2EE組件的:客戶端應(yīng)用程序和Applet是運行在客戶端的組件;Java Servlet和Java Server Pages (JSP) 是運行在服務(wù)器端的Web組件;Enterprise Java Bean (EJB )是運行在服務(wù)器端的業(yè)務(wù)組件。通過提供統(tǒng)一的開發(fā)平臺,J2EE降低了開發(fā)多層應(yīng)用的費用和復(fù)雜性,同時提供對現(xiàn)有應(yīng)用程序集成的強有力支持,極大地提高了系統(tǒng)的運行效率和安全性。事實上,SUN設(shè)計J2EE的初衷正是為了解決兩層模式(Client/Server)的弊端。而J2EE中使用的多層軟件模型將原來簡單的模型切成幾層解耦的獨立功能層,每一層完成特定的任務(wù),方便升級系統(tǒng)并更改應(yīng)用的邏輯[5]。 SQL Server 2005簡介Microsoft SQL Server 2005是一個全面的數(shù)據(jù)庫平臺,使用集成的商業(yè)智能工具提供了企業(yè)級的數(shù)據(jù)管理方式。SQL Server是由Microsoft開發(fā)和推廣的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(DBMS),它最初是由Microsoft、Sybase、AshtonTate三家公司共同開發(fā)的,并于1988年推出了第一個在OS/2版本上運行的SQL Server系統(tǒng)。近年來在Microsoft SQL Server的發(fā)展歷程中不斷更新版本:1996年發(fā)布的SQL ,該版本具備了市場所需的速度快、功能強、易使用和價格低等有點;1998年推出了SQL ,該版本再一次對核心數(shù)據(jù)庫引擎進行了重大改寫,在操作上更加簡單、易用,因此獲得了良好的聲譽;2000年,發(fā)布了SQL Server 2000版本,該版本在可擴縮性和可靠性上有了很大的改進,成為企業(yè)級數(shù)據(jù)庫市場中重要的一員;2005年,發(fā)布了SQL Server 2005版本,該版本擴展了SQL Server 2000的性能,如在可靠性、可用性、可編程性和易用性等方面做出了重大改進。SQL Server 2005的常見版本包括如下四種: 1)個人版(Personal Edition):用于單機系統(tǒng)或客戶機;2) 標準版(Standard Edition):用于小型的工作組或部門; 3)企業(yè)版(Enterprise Edition):支持所有的SQL Server 2005特性,可作為大型Web站點、企業(yè)OLTP(聯(lián)機事務(wù)處理)以及數(shù)據(jù)倉庫系統(tǒng)等的產(chǎn)品數(shù)據(jù)庫服務(wù)器;4)開發(fā)者版(Developer Edition):用于程序員開發(fā)應(yīng)用程序,這些程序需要SQL Server 2005作為數(shù)據(jù)庫存儲設(shè)備[7]。ExtJS可以用來開發(fā)富互聯(lián)網(wǎng)應(yīng)用(RIA:Rich Internet Applications),主要用于創(chuàng)建前端用戶界面,是一個與后臺技術(shù)無關(guān)的前端AJAX框架。ExtJS最開始基于YUI技術(shù),由開發(fā)人員Jack Slocum開發(fā),通過參考Java SWING等機制來組織可視化組件,從UI界面上CSS樣式的應(yīng)用,到數(shù)據(jù)解析過程中的異常處理,都可算是一款不可多得的JavaScript客戶端技術(shù)的精品。發(fā)展至今,ExtJS除YUI外還支持包括jQuery、Prototype等多種JS底層庫,可以讓開發(fā)人員自由進行選擇[8]。 HTTPClientHTTPClient是Apache Jakarta Common下的子項目,可以用來提供高效的、最新的、功能豐富的支持HTTP協(xié)議的客戶端編程工具包。雖然在 ,但是對于大部分應(yīng)用程序來說,JDK庫本身提供的功能還不夠豐富和靈活。HTTPClient所提供的主要功能包括:1) 實現(xiàn)了所有HTTP的方法(GET,POST,PUT,HEAD 等);2) 支持自動轉(zhuǎn)向;3) 支持 HTTPS 協(xié)議;4) 支持代理服務(wù)器。作為目前最為方便易用的進行HTML解析和信息提取的工具,HTMLParser已經(jīng)成為了抓取網(wǎng)頁數(shù)據(jù)和改造HTML的內(nèi)容的首選工具。2)信息轉(zhuǎn)換功能:1  鏈接重寫,用于修改頁面中的所有超鏈接;2  網(wǎng)頁內(nèi)容拷貝,用于將網(wǎng)頁內(nèi)容保存到本地;3  內(nèi)容檢驗,可以用來過濾網(wǎng)頁上一些令人不愉快的字詞;4  HTML信息清洗,把本來亂七八糟的HTML信息格式化;5  轉(zhuǎn)成XML格式數(shù)據(jù)。 3 系統(tǒng)需求分析需求分析階段的主要工作就是分析用戶的需求是什么,是指針對軟件所要解決的問題進行詳細的分析,明確對軟件系統(tǒng)的輸入輸出要求。 系統(tǒng)可行性研究 技術(shù)可行性1)軟件可行性新聞爬蟲系統(tǒng)所需要的數(shù)據(jù)源可以通過編寫網(wǎng)絡(luò)爬蟲程序來實現(xiàn)定向抓取,通過定制爬行過程中的過濾條件和爬行策略,爬蟲程序所獲取的數(shù)據(jù)量和抓取的效率都能得到很好的保證。2) 硬件可行性新聞爬蟲系統(tǒng)需要進行抓取和分析的數(shù)據(jù)量非常大,這對于服務(wù)器端數(shù)據(jù)庫的承載能力要求較高,通過較長時間的測試,目前主流的服務(wù)器完全可以勝任作為輿情分析系統(tǒng)服務(wù)器的要求。 操作可行性本系統(tǒng)在用戶界面層利用ExtJS框架結(jié)合Google Visualization API進行構(gòu)建。Google Visualization API所提供的圖表工具作為Flex程序,具有極為豐富的交互效果。 經(jīng)濟可行性經(jīng)過不斷的系統(tǒng)完善和功能增強過程,成型之后的新聞爬蟲系統(tǒng)能夠為各個行業(yè)按需提供不同的服務(wù)。綜上所述,新聞爬蟲分析系統(tǒng)具有非常強的經(jīng)濟可行性。出于性能和成本上的考量,本系統(tǒng)不需要也不可能對整個互聯(lián)網(wǎng)來做遍歷抓取。一般來說,他們無法將精力全部花在瀏覽各大網(wǎng)站新聞和BBS上,但是他們的職責(zé)需要他們對網(wǎng)絡(luò)上的信息有一個把握,尤其是和其興趣點、切身利益相關(guān)的帖子和新聞。他們需要不斷的知道外屆對企業(yè)的評價,是否有競爭對手惡意中傷等,從而在第一時間作出應(yīng)對措施,減少破壞性和蔓延速度,以維護形象和贏得消費者的同情和理解。此外,還有很重要的一個方面的用戶就是系統(tǒng)管理員,他們并不是新聞爬蟲系統(tǒng)的用戶,但是該管理員需要控制數(shù)據(jù)源的獲取邏輯,進行數(shù)據(jù)的分析,并將分析結(jié)果進行展示。數(shù)據(jù)源的配置需要定期進行更新和維護,系統(tǒng)需要提供有良好的接口,盡量降低配置的難度和維護的工作量。兩者的本質(zhì)都是開啟網(wǎng)絡(luò)爬蟲對數(shù)據(jù)源網(wǎng)站根據(jù)抓取配置來執(zhí)行數(shù)據(jù)獲取的任務(wù),不同的是手動采集由管理員觸發(fā)后執(zhí)行一次特定任務(wù),增量
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1