freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

新聞爬蟲系統(tǒng)的結(jié)構(gòu)設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文(已修改)

2025-07-05 08:58 本頁面
 

【正文】 新聞爬蟲系統(tǒng)的結(jié)構(gòu)設(shè)計與實現(xiàn)畢業(yè)設(shè)計論文1 緒論 本章主要闡明了該課題的研究背景及其研究意義,簡要說明了國內(nèi)外對于爬蟲系統(tǒng)的研究現(xiàn)狀,并介紹了本論文的主要內(nèi)容組成以及論文的組織結(jié)構(gòu)。 開發(fā)背景及目的隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會大眾參與社會生活的一種重要信息渠道。由于互聯(lián)網(wǎng)是開放的,每個人都可以在網(wǎng)絡(luò)上發(fā)表信息,內(nèi)容涉及各個方面。小到心情日志,大到國家大事?;ヂ?lián)網(wǎng)已成為思想文化信息的集散地,并具有傳統(tǒng)媒體無法相比的優(yōu)勢:便捷性,虛擬性,互動性,多元性。網(wǎng)絡(luò)新聞熱點通常形成迅速,多是人們對于日常生活中的各種問題發(fā)表的各種意見,評論,態(tài)度,情緒等,隨著事件的發(fā)展而變化,是反映社會熱點的重要載體之一。網(wǎng)絡(luò)爬蟲是一種按照一定上網(wǎng)規(guī)則,自動的抓取萬維網(wǎng)信息的程序或腳本。網(wǎng)絡(luò)檢索功能起于互聯(lián)網(wǎng)內(nèi)容爆炸性發(fā)展所帶來的對內(nèi)容檢索的需求。搜素引擎不斷發(fā)展,人們的需求也不斷提高,網(wǎng)絡(luò)信息搜索已經(jīng)成為人們每天都有進行的內(nèi)容。如何使搜索引擎能夠時刻滿足人們的需求?最初的檢索功能通過索引站的方式實現(xiàn),從而有了網(wǎng)絡(luò)機器人。本課題來源于新聞爬蟲系統(tǒng)項目的建設(shè),旨在為相關(guān)機構(gòu)提供及時的網(wǎng)絡(luò)信息服務(wù)。這些服務(wù)與現(xiàn)有的搜索引擎提供的服務(wù)不同,其重要特征主要體現(xiàn)在:及時性,專用性,人性化。 及時性新聞爬蟲系統(tǒng)通過爬蟲技術(shù)自動爬取新聞信息,定期對相應(yīng)類型的新聞的地址進行掃描,如若該新聞并未被爬取過則對其進行自動爬取。讓系統(tǒng)的工作人員可以靜觀事態(tài)的發(fā)展。 專用性 新聞爬蟲系統(tǒng)的專用性體現(xiàn)在數(shù)據(jù)采集,數(shù)據(jù)分析,數(shù)據(jù)展現(xiàn)等幾個環(huán)節(jié)上。在數(shù)據(jù)采集方面系統(tǒng)采用手動爬取與增量爬取相結(jié)合的方式。有針對性的采集需要的幾個類別的新聞信息,并對信息進行抽取,去噪,結(jié)構(gòu)化處理,為后續(xù)專用分析創(chuàng)造條件。在數(shù)據(jù)分析與數(shù)據(jù)展示方面,系統(tǒng)通過對得到的信息進行深入的分析,將分析結(jié)果進行多維度的展現(xiàn)。 人性化 新聞爬蟲系統(tǒng)的人性化主要體現(xiàn)在數(shù)據(jù)結(jié)果的展示上。 用戶可以隨時查看任意一個時間的新聞分析結(jié)果,而且該系統(tǒng)由于是基于多線程的程序完成任務(wù)的效率高。所以不管實在界面上還是在效率上都非常的人性化。 新聞爬蟲系統(tǒng)項目建設(shè)意義重大。一方面,新聞爬蟲系統(tǒng)提供了大量的分析素材,方便全面的了解大眾網(wǎng)絡(luò)新聞的熱點。另一方面,原來的新聞信息收集工作主要依靠人工完成,工作量巨大,覆蓋面小,不僅費時費力而且還不免出現(xiàn)人為疏漏的情況,這種局面亟待通過技術(shù)手段提高工作效率。 本文完成的是新聞爬蟲系統(tǒng)的設(shè)計與實現(xiàn),該爬蟲系統(tǒng)為新聞分析系統(tǒng)提供數(shù)據(jù)源,完成新聞信息的搜集。因此可以說爬蟲系統(tǒng)是整個分析系統(tǒng)的基礎(chǔ),并且爬蟲系統(tǒng)輸出結(jié)果的好壞直接影響著系統(tǒng)結(jié)果的展現(xiàn)。 國內(nèi)外相關(guān)研究現(xiàn)狀 網(wǎng)絡(luò)爬蟲從搜索對象上來分類,主流的的爬蟲技術(shù)包括以下兩種:第一種是基于鏈接分析的搜索。上世紀九十年代,國外的搜索引擎開發(fā)者已經(jīng)開始以社會網(wǎng)絡(luò)工作為模型,對萬維網(wǎng)進行模擬。專家們通過社會間人與人的關(guān)系網(wǎng),設(shè)計研發(fā)出了頁面間的超鏈接關(guān)系網(wǎng)絡(luò)。同時他們還驚奇的發(fā)現(xiàn),相似度最高的在傳統(tǒng)引文方面。這樣通過對照就可以分析得出結(jié)論,從關(guān)系網(wǎng)絡(luò)的角度入手,就能將互聯(lián)網(wǎng)上大量的網(wǎng)頁進行分類。早在2002年,歐美地區(qū)便出現(xiàn)了這種最原始的基于鏈接的搜索系統(tǒng)。第二種是基于內(nèi)容分析的搜索。相對于基于鏈接分析的搜索方式,這是搜索技術(shù)的一個突破性進展,他們采取了一種新的思維方式,建立一個針對主題的詞庫。當(dāng)用戶在專業(yè)領(lǐng)域進行搜索時,可以將詞庫和爬蟲結(jié)合起來進行檢索。由于搜索角度的轉(zhuǎn)變,這種新的技術(shù)逐漸開始被人們所關(guān)注。在上世紀九十年代,F(xiàn)ish Search System系統(tǒng)作為首個基于內(nèi)容分析的搜索系統(tǒng)被開發(fā)出來。后來在1998年和1999年相繼出現(xiàn)了Shark Search System和聚焦爬蟲(Focused Crawler)[1]。 時至今日,聚焦爬蟲技術(shù)取得了長足的發(fā)展和進步,國外典型的系統(tǒng)包括CORA、IBM Focused Crawler等。CORA 。CORA采用機械認知的方式,其主要針對的對象是與計算機主題相關(guān)聯(lián)的內(nèi)容,通過隱性馬爾夫的原理對用戶需要的內(nèi)容進行分類。雖然CORA分析地址和主題的能力還很不足,同時也不具備對網(wǎng)頁進行分析的能力,但是這仍然無法抹殺它在自動搜集資源方面取得的重大成就。 Focused Crawler,這是一種全新的爬行系統(tǒng)。從現(xiàn)在的技術(shù)來看,當(dāng)時的IBM Focused Crawler采取了全新雙模塊系統(tǒng),即分類器和選擇器。分類器主要用于計算相關(guān)度,而選擇器用來確定主要頁面。,使得該系統(tǒng)在準確度和相關(guān)度方面有了大幅度的提升[2]。美國人Diligenti采取建立上下文圖的方式設(shè)計出了聚焦爬蟲,他們將其命名為Context Graphs Focused Crawler。這種通過學(xué)習(xí)網(wǎng)頁引用關(guān)系的方法后來被證明效率并不高,但在當(dāng)時也是重要的創(chuàng)新手段。系統(tǒng)會利用反向鏈接服務(wù)找到指向該頁面的網(wǎng)頁,在這兩層網(wǎng)頁之間建立引用關(guān)系,由此建立聚焦爬蟲的爬行路徑。通過用戶搜索參數(shù)的改變,每一個頁面都會建立一個對應(yīng)的引用關(guān)系,最后將他們進行合并。在這個過程中,分類器會確定他們的層級關(guān)系,確定之后,頁面的鏈接便會加入隊列,由此提取到所有需要進行抓取的網(wǎng)頁[3]。對于基于內(nèi)容分析的搜索,國人也做出了很大貢獻。張福炎教授設(shè)計出了IDGS(Internet Data Gather System)系統(tǒng),可以對萬維網(wǎng)上的中英文內(nèi)容進行搜索,大大的填補了中文方面的空白。IDGS 能夠在萬維網(wǎng)上對信息進行自動查詢,采用向量空間模型技術(shù)對內(nèi)容進行檢索,同時利用權(quán)重評價技術(shù)來進行統(tǒng)計。在該系統(tǒng)中由模式匹配模塊計算相關(guān)度,采取漫游模型來進行后期的持續(xù)檢索。該系統(tǒng)的最大優(yōu)點是準確度高,其代價是犧牲了覆蓋度,搜索的深度非常有限[4]。 論文主要內(nèi)容和章節(jié)安排 本文對于新聞爬蟲系統(tǒng)的設(shè)計與實現(xiàn)過程作出了詳細介紹,該系統(tǒng)的數(shù)據(jù)來源主要是網(wǎng)絡(luò)網(wǎng)頁新聞。本系統(tǒng)的運行流程大致如下:首先利用爬蟲工具將新聞數(shù)據(jù)獲取到本地數(shù)據(jù)庫中,之后對其進行數(shù)據(jù)分析,最后將新聞內(nèi)容信息以及分析結(jié)果在前臺網(wǎng)頁中進行可視化輸出。第1章 為緒論,主要闡明了該課題的研究背景及其研究意義,簡要說明了國內(nèi)外對于爬蟲系統(tǒng)的研究現(xiàn)狀,并介紹了本論文的主要內(nèi)容組成以及論文的組織結(jié)構(gòu)。第2章 為系統(tǒng)開發(fā)知識準備,簡要介紹了進行本次新聞爬蟲系統(tǒng)開發(fā)所需要的相關(guān)理論和技術(shù),主要包括爬蟲技術(shù)的知識理論和J2EE技術(shù)、SQL Server 2005數(shù)據(jù)庫管理系統(tǒng)以及ExtJS框架等相關(guān)知識,并對系統(tǒng)開發(fā)過程中用到的一些關(guān)鍵開源工具做出了簡要說明。第3章 對本系統(tǒng)進行了需求分析,首先從技術(shù)可行性、操作可行性和經(jīng)濟可行性三個方面對系統(tǒng)可行性進行了評估,隨后對系統(tǒng)的用戶對象和用戶用況從管理員用戶和普通用戶兩個角度進行了詳細的分析,并分別總結(jié)出了相應(yīng)的功能需求,最后對系統(tǒng)的性能需求進行了簡要分析。第4章 對本系統(tǒng)進行了總體設(shè)計,包括數(shù)據(jù)庫結(jié)構(gòu)的總體設(shè)計以及系統(tǒng)功能模塊的總體設(shè)計,并對數(shù)據(jù)獲取功能模塊的子模塊以及數(shù)據(jù)可視化功能模塊的功能結(jié)構(gòu)做出了明確的劃分,為系統(tǒng)詳細設(shè)計與實現(xiàn)階段的工作備好條件。第5章 對本系統(tǒng)的詳細設(shè)計和實現(xiàn)過程做出了說明,進行了功能模塊的詳細設(shè)計并完成了系統(tǒng)的開發(fā)實現(xiàn)工作,對于數(shù)據(jù)獲取模塊以及數(shù)據(jù)可視化模塊進行了詳細的設(shè)計實現(xiàn)和功能說明。第6章 進行了系統(tǒng)測試和發(fā)布工作,首先從理論上對軟件測試的目標和方法進行了簡要介紹,之后設(shè)計了多個測試用例對系統(tǒng)的相關(guān)功能模塊進行了詳細的測試并對測試結(jié)果進行了分析,最后將本系統(tǒng)通過TOMCAT部署到了PC服務(wù)器上,完成了系統(tǒng)發(fā)布的過程。 第7章 對于本次系統(tǒng)設(shè)計開發(fā)過程進行了歸納和總結(jié),闡述了本次系統(tǒng)開發(fā)的意義并分析了下一步需要進行的工作,最后對網(wǎng)絡(luò)輿情分析系統(tǒng)的發(fā)展方向進行了展望。 2 系統(tǒng)開發(fā)知識準備 本章簡要介紹了進行本次新聞爬蟲系統(tǒng)開發(fā)所需要的相關(guān)理論和技術(shù),這些關(guān)鍵技術(shù)的學(xué)習(xí)和掌握為接下來的系統(tǒng)分析及設(shè)計實現(xiàn)提供了堅實的理論基礎(chǔ)。 網(wǎng)絡(luò)爬蟲的相關(guān)知識與理論 網(wǎng)絡(luò)爬蟲的定義 網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從WEB上下載網(wǎng)頁,是搜索引擎的重要組成部分。通用網(wǎng)絡(luò)爬蟲從一個或幾個初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL列表;在抓取網(wǎng)頁的過程中不斷從當(dāng)前網(wǎng)頁上抽取新的URL放入到待爬行隊列,直到滿足系統(tǒng)的停止條件。 頁面搜索策略介紹 網(wǎng)頁的爬取策略可分為深度優(yōu)先,廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多時候會導(dǎo)致爬蟲的陷入問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。 廣度優(yōu)先策略是指在爬取過程中,在完成當(dāng)前層次的搜索后,才進行下一層次的搜索。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索算法。也有很多研究將廣度優(yōu)先算法應(yīng)用于聚焦爬蟲上。其基本思想是認為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。最佳優(yōu)先策略是按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標網(wǎng)頁的相似度,或與主題的相關(guān)性,并選評價最好的一個或幾個URL進行抓取。它只訪問經(jīng)過網(wǎng)頁任意算法預(yù)測為“有用”的網(wǎng)頁。存在的一個問題是,在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略。因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。因此需要在應(yīng)用中對最佳優(yōu)先策略進行改進,以跳出局部最優(yōu)點。 J2EE技術(shù)簡介J2EE指的是Java2平臺企業(yè)版(Java 2 Platform , Enterprise Edition)。J2EE的核心是一組技術(shù)規(guī)范與指南,其中所包含的各類組件、服務(wù)架構(gòu)及技術(shù)層次,均有共同的標準及規(guī)格,讓各種依循J2EE架構(gòu)的不同平臺之間存在良好的兼容性,一方面解決了過去企業(yè)后端使用的信息產(chǎn)品彼此之間無法兼容的問題,另一方面使得企業(yè)擺脫了內(nèi)部和外部難以互通的窘境。J2EE組件和“標準的”Java類的不同點在于:它被裝配在一個J2EE應(yīng)用中,具有固定的格式并遵守J2EE規(guī)范,由J2EE服務(wù)器對其進行管理。J2EE規(guī)范是這樣定義J2EE組件的:客戶端應(yīng)用程序和Applet是運行在客戶端的組件;Java Servlet和Java Server Pages (JSP) 是運行在服務(wù)器端的Web組件;Enterprise Java Bean (EJB )是運行在服務(wù)器端的業(yè)務(wù)組件。J2EE體系結(jié)構(gòu)提供中間層集成框架用來滿足無需太多費用而又需要高可用性、高可靠性以及可擴展性的應(yīng)用的需求。通過提供統(tǒng)一的開發(fā)平臺,J2EE降低了開發(fā)多層應(yīng)用的費用和復(fù)雜性,同時提供對現(xiàn)有應(yīng)用程序集成的強有力支持,極大地提高了系統(tǒng)的運行效率和安全性。J2EE使用多層的分布式應(yīng)用模型,應(yīng)用邏輯按功能劃分為組件,各個應(yīng)用組件根據(jù)他們所在的層分布在不同的機器上。事實上,SUN設(shè)計J2EE的初衷正是為了解決兩層模式(Client/Server)的弊端。傳統(tǒng)的客戶端往往承擔(dān)了太多的功能,導(dǎo)致客戶端比較臃腫,升級很不方便。而J2EE中使用的多層軟件模型將原來簡單的模型切成幾層解耦的獨立功能層,每一層完成特定的任務(wù),方便升級系統(tǒng)并更改應(yīng)用的邏輯[5]。典型的J2EE應(yīng)用體系結(jié)構(gòu)如圖21所示:圖21 J2EE體系結(jié)構(gòu)圖總體來說,使用J2EE技術(shù)開發(fā)Web事務(wù)系統(tǒng)有以下優(yōu)點:第一,開發(fā)高效,J2EE有完善的開源社區(qū)支持,像Spring,Struts這些框架可以大大縮短開發(fā)周期;第二,支持不同的操作系統(tǒng)環(huán)境,因為Java天生具有“一次編譯,隨處運行”的特點,基于J2EE開發(fā)的應(yīng)用程序不依賴特定的操作系統(tǒng)、硬件等,也就具有了開發(fā)一次就可以在各個平臺部署的特點;第三,穩(wěn)定的高可用性,得益于從Java繼承而來的跨平臺特性,J2EE系統(tǒng)部署到可靠的操作環(huán)境中,一些對系統(tǒng)魯棒性要求很高的大型商務(wù)系統(tǒng)可以選擇比Windows更為健壯的Linux操作系統(tǒng),這是更為理想的選擇。 SQL Server 2005簡介Microsoft SQL Server 2005是一個全面的數(shù)據(jù)庫平臺,使用集成的商業(yè)智能工具提供了企業(yè)級的數(shù)據(jù)管理方式。Microsoft SQL Server 2005數(shù)據(jù)庫引擎為關(guān)系型數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)提供了更安全可靠的存儲功能,使得用戶可以構(gòu)建和管理用于業(yè)務(wù)的高可用和高性能的數(shù)據(jù)應(yīng)用程序。SQL Server是由Microsoft開發(fā)和推廣的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(DBMS),它最初是由Microsoft、Sybase、AshtonTate三家公司共同開發(fā)的,并于1988年推出了第一個在OS/2版本上運行的SQL Server系統(tǒng)。1992年Sybase和Microsoft這兩家公司將SQL Server移植到了Windows NT操作系統(tǒng)上,后來Microsoft致力于Windows NT平臺的SQL Server的開發(fā),而Sybase則專注于SQL Server在UNIX上的應(yīng)用[6]。近年來在Microsoft SQL Server的發(fā)展歷程中不斷更新版本:1996年發(fā)布的SQL ,該版本具備了市場所需的速度快、功能強、易使用和價格低等有點;1998年推出了SQL ,該版本再一次對核心數(shù)據(jù)庫引擎進行了重大改寫,在操作上更加簡單、易用,因此獲得了良好的聲譽;2000年,發(fā)布了SQL Server 2000版本,該版本在可擴縮性和可靠性上有了很大的改進,成為企業(yè)級數(shù)據(jù)庫市場中重要的一員;2005年,發(fā)布了SQL Server 2005版本,該版本擴展了SQL Server 2000的性能,如在可靠性、可用性、可編程性和易用性等方面做出了重大改進。SQL Server Framework, SQL Server專有對象,從而使SQL Server數(shù)據(jù)庫具有靈活的功能。SQL Server 2005的常見版本包括如下四種: 1)個人版(Personal Edition):用于單機系統(tǒng)或客戶機;2) 標準版(Standard Edition):用于小型的工作組或部門; 3)企業(yè)版(Enterprise Edition):支持所有的SQL Server 2005特性,可作
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1