【正文】
. . . .. .**大學(xué)學(xué)院工學(xué)學(xué)士學(xué)位論文(設(shè)計(jì))題目:基于Web的行業(yè)新聞采集系統(tǒng)學(xué) 號(hào): 姓 名: 院 (系): 信息工程學(xué)院 專 業(yè): 信息管理與系統(tǒng) 完成日期: 指導(dǎo)老師: 學(xué)習(xí)好幫手. . . .. .摘 要隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息時(shí)代的到來,面對(duì)網(wǎng)絡(luò)上泛濫的新聞信息,而采集和過濾一些有用的信息對(duì)于我們來說是十分重要的。行業(yè)新聞采集系統(tǒng)是將非結(jié)構(gòu)化的新聞文章從多個(gè)新聞來源網(wǎng)頁中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中的過程。尤其是對(duì)于大型門戶網(wǎng)站,比如新浪,騰訊他們每天的網(wǎng)站信息都更新,而且范圍很廣,全國(guó)各地,甚至全球發(fā)生的信息都能每天看到更新,而他們正是利用采集系統(tǒng)從各大媒體網(wǎng)站,外國(guó)網(wǎng)站采集過來的。因此,信息的采集至關(guān)重要。一般的網(wǎng)站新聞發(fā)布平臺(tái)都是采用人工輸入信息,對(duì)于中小型網(wǎng)站這樣的工作量很算可以,但是網(wǎng)站大了,信息就很龐大了,像那種分類信息網(wǎng),更新的工作就變得很復(fù)雜,如果有專門的類似搜索引擎能檢索采集到最新的相關(guān)信息然后發(fā)布在自己的網(wǎng)站上,因此建立專門的行業(yè)新聞采集系統(tǒng),從相關(guān)網(wǎng)站采集有效的新聞信息可以減少很多工作量,而且可以有效的進(jìn)行修改和過濾工作。目前比較有名的采集系統(tǒng)有火車頭,視采新聞采集器[2]、萬能新聞采集器、新浪新聞采集器。關(guān)鍵字:信息采集;行業(yè)新聞采集;.net;SQL server 學(xué)習(xí)好幫手. . . .. .AbstractWith the rapid development of the Internet, the advent of the information age, face the flood of news information network, and the collection and filter some useful information for us, it is very important. News gathering system is will unstructured news articles from multiple sources of news page extracted saved to the structural database in process.Especially for large web portal, such as sina, tencent every day they website information updates, and the range is very wide, all over the country, and even the global happened to see update information every day, and they are the use of acquisition system from the major media web site, foreign web site collected.Therefore, the collection of the information is very important. The general web news release platform are using artificial input information, for small and medium website such workload is calculate can, but the site is big, the information is very big, like the classification and information network, update the work is very plex, if have special similar search engine can retrieve collection to the latest information and then released on his website, thus establishing special collection system, from related website collection effective news information can reduce a lot work load, and can effectively modified and filter work. At present more famous collection system has a lootive, depending on the mining news terminal [2]。 Universal news collector。 Sina news collector.Keywords: news collection;Information collection;.net;SQL server. . . .. .目 錄摘 要 IAbstract II摘 要 IAbstract II第一章 引 言 1 課題背景 1 開發(fā)系統(tǒng)的意義 1 課題名稱 2 問題描述 2第二章 可行性研究 3 經(jīng)濟(jì)可行性 3 技術(shù)可行性 3 開發(fā)工具簡(jiǎn)介 4 工廠模式三層架構(gòu)介紹 6第三章 系統(tǒng)分析 10 功能需求 10 性能需求 10 運(yùn)行需求 10 數(shù)據(jù)流圖 11 用例圖 12 數(shù)據(jù)字典 16 概念結(jié)構(gòu)設(shè)計(jì) 18 邏輯結(jié)構(gòu)設(shè)計(jì) 20 數(shù)據(jù)庫(kù)主要表結(jié)構(gòu)說明 22 物理結(jié)構(gòu)設(shè)計(jì) 23第四章 總體設(shè)計(jì) 26 總體功能模塊設(shè)計(jì) 26 模塊功能細(xì)化 26第五章 詳細(xì)設(shè)計(jì) 29 活動(dòng)圖 29 序列圖 34 類圖 39第六章 編碼 46 46 56 61 采集管理功能實(shí)現(xiàn) 62 入庫(kù)管理功能實(shí)現(xiàn) 66 新聞管理實(shí)現(xiàn) 68 新聞?lì)悇e管理 69 用戶管理實(shí)現(xiàn) 71 權(quán)限管理 72第七章 系統(tǒng)測(cè)試 76 測(cè)試目的 76 測(cè)試方案 76總 結(jié) 78參考文獻(xiàn) 79致 謝 80附 錄 81附錄一 系統(tǒng)使用說明書 81附錄二:信息采集 83 學(xué)習(xí)好幫手. . . .. .第一章 引 言 課題背景信息自古就有無限的價(jià)值,隨著時(shí)代的不斷發(fā)展,人類不知不覺已經(jīng)來到了信息時(shí)代,各行各業(yè)都充斥了無數(shù)的信息,而信息的價(jià)值就在于信息的流通,如果信息能夠及時(shí)的流通和傳遞起來,才能發(fā)揮信息真正的不可比擬的價(jià)值。在市場(chǎng)經(jīng)濟(jì)條件下,信息已經(jīng)成為一種極其重要的商品。信息社會(huì)通常被定義為信息生產(chǎn)和消費(fèi)的集中。信息集中度取決于對(duì)信息的需求以及此需求被滿足的程度。因此,一種看待信息社會(huì)是否形成的方法是評(píng)價(jià)信息的交換強(qiáng)度及信息內(nèi)部流動(dòng)的持久性。那么,什么是信息價(jià)值?它的價(jià)值如何確定?這些問題已成為當(dāng)今信息社會(huì)所面臨的最基本問題之一。近年來,行為經(jīng)濟(jì)學(xué)把經(jīng)濟(jì)學(xué)理論和心理學(xué)理論結(jié)合起來研究信息的主觀價(jià)值,取得了一定的成果。這些研究成果對(duì)于我們認(rèn)識(shí)了解信息價(jià)值的確定和市場(chǎng)經(jīng)濟(jì)條件下人們對(duì)信息的需求特性,具有重要的啟示作用。 如何從海量信息中收集有價(jià)值的信息資料,并進(jìn)行分析研究,形成企業(yè)各種決策的依據(jù),是信息人員及市場(chǎng)研究人員所面臨的一個(gè)問題。信息必須經(jīng)過匯總、整合、分析才能產(chǎn)生價(jià)值,零散的信息只能是新聞性的,無法體現(xiàn)真正的商業(yè)價(jià)值。 對(duì)于企業(yè)以及信息分析人員來說,一方面要在大量的信息中過濾出有效的價(jià)值點(diǎn),同時(shí)又要降低獲取相應(yīng)信息的成本,使信息的實(shí)際使用價(jià)值大于收集、分析信息等過程所產(chǎn)生的成本,使信息為企業(yè)的決策帶來增值價(jià)值。21世紀(jì)是信息時(shí)代,掌握了迅速便捷的信息就能在激烈的競(jìng)爭(zhēng)中占取主動(dòng),而正是信息的這種金子般的價(jià)值也注定了信息本身就是一個(gè)行業(yè)一個(gè)產(chǎn)業(yè)。而這種行業(yè)將為社會(huì)做出巨大的貢獻(xiàn),所以我這個(gè)課題就是關(guān)于收集共享信息的。 開發(fā)系統(tǒng)的意義我要完成的設(shè)計(jì)能夠通過各種手段來收集各行業(yè)的一些雜亂龐大的信息,并總結(jié)分析出許多有用的有價(jià)值的信息。例如我們對(duì)一個(gè)行業(yè)的眾多企業(yè)收集他們的企業(yè)的各種信息,小到工人日常支出,大到企業(yè)年產(chǎn)值及企業(yè)競(jìng)爭(zhēng)力。少數(shù)的信息看起來并沒有什么價(jià)值,但是一旦我們能夠獲取到整個(gè)行業(yè)大部分重要企業(yè)的大量信息,并且這種信息是可以實(shí)時(shí)更新的,我們就會(huì)發(fā)現(xiàn),通過各種數(shù)據(jù)的分析排名,我們可以了解到數(shù)據(jù)背后的東西,例如可以根據(jù)工人的平均工資來了解到某個(gè)行業(yè)中工人待遇的企業(yè)排名??梢愿鶕?jù)企業(yè)的總產(chǎn)值的排名來大概了解在這個(gè)行業(yè)中企業(yè)的競(jìng)爭(zhēng)力的排名。像這些經(jīng)過分析處理過的信息才是真正有價(jià)值的信息,當(dāng)然信息的處理可以根據(jù)使用者自身的需求來選擇處理信息的方式,例如一些函數(shù)的組合或者是統(tǒng)計(jì)學(xué)方法??傊ㄟ^這個(gè)網(wǎng)站,對(duì)于行業(yè)的數(shù)據(jù)采集分析并形成有巨大的價(jià)值的過程有著很大的推進(jìn)的意義。這個(gè)課題,其實(shí)原理和方法都是簡(jiǎn)單通俗易懂的,但是改變?nèi)藗兩罘绞?,推?dòng)社會(huì)進(jìn)步的恰恰是那些簡(jiǎn)單的發(fā)明創(chuàng)造,當(dāng)然這個(gè)課題可能達(dá)不到這樣的高度,但這樣的嘗試是非常有價(jià)值的。因?yàn)樗茉O(shè)起來容易,復(fù)雜的使我們具體去操作,例如收集企業(yè)信息,我們可以通過與政府的合作來收集,也可以通過問卷調(diào)查來收集,還可以讓企業(yè)自己登陸我們的網(wǎng)站來添加信息。在日新月異的信息時(shí)代,掌握信息的快速流通手段,在某種程度上我們就走在了時(shí)代行業(yè)的前列,所以我想這個(gè)課題在某種程度上有著劃時(shí)代的意義。像這種課題,在國(guó)外發(fā)展已經(jīng)非常成熟,在國(guó)內(nèi)則剛剛起步,例如國(guó)外的福布斯排名,國(guó)內(nèi)的胡潤(rùn)排名,所以,從商業(yè)上看,這個(gè)行業(yè)還是非常有前途的。 課題名稱課題名稱:基于Web的行業(yè)新聞采集系統(tǒng)。 問題描述本課題所設(shè)計(jì)的目標(biāo)是行業(yè)新聞采集系統(tǒng)(Web News collection System),采用Internet/Intranet方式,是基于瀏覽器/服務(wù)器的管理系統(tǒng),它由客戶在客戶端通過瀏覽器訪問服務(wù)器上的系統(tǒng)的應(yīng)用程序,進(jìn)行網(wǎng)頁信息采集,帥選,審核,入庫(kù)等一系列操作。. . . .. .第二章 可行性研究基于web的行業(yè)新聞采集系統(tǒng)是基于B/S模型的設(shè)計(jì)理念的系統(tǒng),它能提供批量采集指定站點(diǎn),編輯采集項(xiàng)目,帥選和審核入庫(kù)功能,現(xiàn)就其可行性如下: 經(jīng)濟(jì)可行性首先,由于現(xiàn)在的企業(yè)的迅速發(fā)展使得企業(yè)每天的業(yè)務(wù)量、工作量是越來越大。而且應(yīng)對(duì)企業(yè)宣傳、人員招聘、產(chǎn)品宣傳等工作,處理和傳遞信息,企業(yè)往往需要增加宣傳、招聘服務(wù)人員,以提高工作效率,這無疑會(huì)大大增加企業(yè)的成本,而且這個(gè)費(fèi)用開支是持續(xù)、遞增的。而開發(fā)一個(gè)簡(jiǎn)單的通用的采集系統(tǒng)能夠整合到一般的網(wǎng)站項(xiàng)目中,代替人工輸入,大大減少勞動(dòng)力和成本。其次,如果說建設(shè)大型的專業(yè)性的網(wǎng)站平臺(tái),需要企業(yè)斥資聘請(qǐng)專業(yè)的團(tuán)隊(duì)定制和管理,那么對(duì)于功能需求相對(duì)普及化的中小型站點(diǎn),就沒有能力也沒有必要付出這么昂貴的代價(jià)。對(duì)于一般性的中小型網(wǎng)站建設(shè),完全可以花費(fèi)很少的資本,選擇合適的采集系統(tǒng)進(jìn)行搭建,從而以較少的投入獲得較高的效益??偟膩碚f,開發(fā)一個(gè)這樣的系統(tǒng)費(fèi)用不是很高,而系統(tǒng)帶來的方便和效益是原始操作方式所無法比擬。而且是一勞永逸的事情。從經(jīng)濟(jì)上考慮,本采集系統(tǒng)是可行的。 技術(shù)可行性216。 本系統(tǒng)采用微軟的面向?qū)ο笳Z言C,加上B/ 。216。 本系統(tǒng)將很好地和各種類型的信息網(wǎng)站整合,并且可以二次開發(fā),自定義功能配置 。216。 采用本系統(tǒng)只需添置低檔計(jì)算機(jī),如果條件允許,可以使用P4以上配置。216。 采用本系統(tǒng)不會(huì)對(duì)現(xiàn)有軟件會(huì)產(chǎn)生沖突。216。 用戶只需要短時(shí)間來熟悉本系統(tǒng)。216。 利用好現(xiàn)有技術(shù)和人員,完全可以實(shí)現(xiàn)預(yù)期目標(biāo)。 開發(fā)工具簡(jiǎn)介 Studio 2010圖21 vs 架構(gòu)圖Chart21 vs framwork architectureVisual Studio 2010 提供了高級(jí)開發(fā)工具、調(diào)試功能、數(shù)據(jù)庫(kù)功能和創(chuàng)新功能,幫助在各種平臺(tái)上快速創(chuàng)建當(dāng)前最先進(jìn)的應(yīng)用程序。 Visual Studio 2010 包括各種增強(qiáng)功能,例如可視化設(shè)計(jì)器(使用 .NET Framework )、對(duì) Web 開發(fā)工具的大量改進(jìn),以及能夠加速開發(fā)和處理所有類型數(shù)據(jù)的語言增強(qiáng)功能。Visual Studio 2010 為開發(fā)人員提供了所有相關(guān)的工具和框架支持,幫助創(chuàng)建引人注目的、令人印象深刻并支持 AJAX 的 Web 應(yīng)用程序。 開發(fā)人員能夠利用這些豐富的客戶端和服務(wù)器端框架輕松構(gòu)建以客戶為中心的 Web 應(yīng)用程序,這些應(yīng)用程序可以集成任何后端數(shù)據(jù)提供程序、在任何當(dāng)前瀏覽器內(nèi)運(yùn)