【正文】
工具和編程語(yǔ)言在比賽信息集成系統(tǒng)中,運(yùn)用了 java+sql+heritrix+htmlparser 等技術(shù)。第 2 章為系統(tǒng)相關(guān)技術(shù),分為 2 節(jié),主要介紹系統(tǒng)相關(guān)技術(shù):爬蟲(chóng)技術(shù)功能、頁(yè)面解析的功能、以及信息篩選及錄入的功能等的前提下進(jìn)行介紹的,運(yùn)第 1 章 引言3用了 heritrix、htmlparser、java io、java 技術(shù)等實(shí)現(xiàn)。比賽的方式使大學(xué)生接近社會(huì),獲得大量的感性認(rèn)識(shí)和許多有價(jià)值的新知識(shí),同時(shí)使他們能夠把自己所學(xué)的理論知識(shí)與接觸的實(shí)際現(xiàn)象進(jìn)行對(duì)照、比較,把抽象的理論知識(shí)逐漸轉(zhuǎn)化為認(rèn)識(shí)和解決實(shí)際問(wèn)題的能力。 系統(tǒng)開(kāi)發(fā)的目標(biāo)、意義開(kāi)發(fā)目標(biāo):本系統(tǒng)主要為全力打造一個(gè)服務(wù)于在校學(xué)生和在職人員等輕松、便捷、互動(dòng)地參與各類競(jìng)賽活動(dòng)的競(jìng)賽門(mén)戶網(wǎng)站,為參賽者提供最優(yōu)質(zhì)的信息服務(wù),來(lái)自全國(guó)各地的參賽選手可以相互學(xué)習(xí)分享心得,通過(guò)各種有意義的比賽不斷提升自己。缺少一個(gè)可以每天登陸系統(tǒng),了解到當(dāng)下最新的比賽資訊,能夠分門(mén)別類的,整整有序的,及時(shí)全面的網(wǎng)站平臺(tái)。s development, the development and implementation of the development and management as well as members of space. System development using heritrix, Htmlparser and Java bination. Grab and screening, the background using heritrix and Htmlparser technology to realize the game information, Java technology is used to input information, and manage the membership information, forum information and event information, front using Java technology JS effects such as realization of the event show, running, Members Forum event dissemination functions.This paper first describes the development background of the system and the content of the research, and then introduces the system development platform and related technologies, and then designed a whole system planning and interactive data on the system, the design of work crawler module and background information screening himself responsible for the scheduling module and implementation to make the key exposition.Keywords: Web crawler technology。因此,該系統(tǒng)致力于系統(tǒng)地收集和整理各個(gè)領(lǐng)域的各類賽事,為參賽者提供最優(yōu)質(zhì)的信息服務(wù),使得來(lái)自全國(guó)各地的參賽選手可以相互學(xué)習(xí)可以分享心得,并且通過(guò)各種有意義的比賽不斷提升自己。系統(tǒng)使用了 heritrix、htmlparser 和 java 相結(jié)合的技術(shù)開(kāi)發(fā)。 JS effects.目錄III目錄第 1 章 引言 ...............................................1 系統(tǒng)開(kāi)發(fā)的背景 ..............................................1 系統(tǒng)開(kāi)發(fā)的目標(biāo)、意義 ........................................1 本文的組織 ..................................................2第 2 章 相關(guān)技術(shù)簡(jiǎn)介 .......................................4 系統(tǒng)開(kāi)發(fā)平臺(tái)及開(kāi)發(fā)工具 ......................................4 工具和編程語(yǔ)言 ..............................................4 HERITRIX 技術(shù) .....................................................5 HTMLPARSER 技術(shù) ...................................................6 JAVA 語(yǔ)言 ........................................................6 JAVA IO 流技術(shù) ....................................................7 JDBC 技術(shù) .......................................................8第 3 章 系統(tǒng)分析與設(shè)計(jì) .....................................9 功能需求 ....................................................9 系統(tǒng)數(shù)據(jù)流圖 ....................................................9 系統(tǒng)狀態(tài)圖 .....................................................11 功能介紹 ...................................................12 概念結(jié)構(gòu) ...................................................13 概念結(jié)構(gòu)設(shè)計(jì) ...................................................13 邏輯結(jié)構(gòu)設(shè)計(jì) ...................................................14第 4 章 模塊實(shí)現(xiàn) ..........................................17 爬蟲(chóng)模塊 ...................................................17 設(shè)計(jì)事項(xiàng) .......................................................17 操作界面 .......................................................17 核心代碼 .......................................................23 頁(yè)面解析文本信息入庫(kù)模塊(HTMLPARSER) .......................29目錄IV 設(shè)計(jì)思想 .......................................................29 操作界面 .......................................................29 核心代碼 .......................................................31 信息篩選上傳、信息查看刪除的模塊 ...........................34 設(shè)計(jì)思想 .......................................................34 操作界面 .......................................................35 核心代碼 .......................................................37總結(jié) .....................................................40參考文獻(xiàn) .................................................42第 1 章 引言1第 1 章 引言 系統(tǒng)開(kāi)發(fā)的背景信息在現(xiàn)代經(jīng)濟(jì)生活中的作用越來(lái)越大,對(duì)于個(gè)人而言,缺乏信息將導(dǎo)致很多機(jī)會(huì)的喪失。目前,國(guó)內(nèi)同類的賽事信息類系統(tǒng)有“賽才網(wǎng)” 。通過(guò)前后臺(tái)的整合,統(tǒng)一,協(xié)調(diào)地完成此次系統(tǒng)開(kāi)發(fā)出分門(mén)別類的、整整有序的、及時(shí)全面的賽事網(wǎng)站平臺(tái)系統(tǒng)開(kāi)發(fā)能為在校的大學(xué)生提供最為全面、優(yōu)質(zhì)的賽事信息,為提高中國(guó)大學(xué)生的身心素質(zhì)做出貢獻(xiàn)。(4)有利于提高大學(xué)生個(gè)人素養(yǎng),完善個(gè)性品質(zhì)。第 2 章 相關(guān)技術(shù)簡(jiǎn)介4第 2 章 相關(guān)技術(shù)簡(jiǎn)介 系統(tǒng)開(kāi)發(fā)平臺(tái)及開(kāi)發(fā)工具硬件環(huán)境: 個(gè)人 PC、電網(wǎng)、電信網(wǎng)絡(luò)等。它來(lái)自于 。再次,本系統(tǒng)還引入了 文件的讀寫(xiě)工作。第一次正式發(fā)布是在 2022 年 1 月,并不斷的被互聯(lián)網(wǎng)檔案館和其他感興趣的第三方改進(jìn)。當(dāng)?shù)谝淮芜\(yùn)行 Heritrix 時(shí),只需要修改該文件,為其加入 WebUI 的登錄名和密碼。信息轉(zhuǎn)換1)鏈接重寫(xiě),用于修改頁(yè)面中的所有超鏈接;2)網(wǎng)頁(yè)內(nèi)容拷貝,用于將網(wǎng)頁(yè)內(nèi)容保存到本地;3) 內(nèi)容檢驗(yàn),可以用來(lái)過(guò)濾網(wǎng)頁(yè)上一些令人不愉快的字詞;4) HTML 信息清洗,把本來(lái)亂七八糟的 HTML 信息格式化;5) 轉(zhuǎn)成 XML 格式數(shù)據(jù)。 Java 版本中,Java 又引入了泛型編程(Generic Programming)、類型安全的枚舉、不定長(zhǎng)參數(shù)和自動(dòng)裝/拆箱等語(yǔ)言特性。即數(shù)據(jù)在兩設(shè)備間的傳輸稱為流,流的本質(zhì)是數(shù)據(jù)傳輸,根據(jù)數(shù)據(jù)傳輸特性將流抽象為各種類,方便更直觀的進(jìn)行數(shù)據(jù)操作。PipedOutputStream 是向與其它線程共用的管道中寫(xiě)入數(shù)據(jù)。在本系統(tǒng)中,主要分為前臺(tái)和后臺(tái)兩大模塊,從對(duì)象上區(qū)分也 可以分為會(huì)員功能,管理員功能以及游客功能。游客點(diǎn)擊注冊(cè),正確填寫(xiě)信息后核對(duì)成功注冊(cè)完成,反之注冊(cè)失敗。(2)比賽信息管理:實(shí)現(xiàn)對(duì)信息的更新,發(fā)布,刪除。后臺(tái)中,管理員通過(guò)操作屬性發(fā)布賽事信息、更新賽事信息以及刪除賽事信息。信息錄入表中的幾大賽事信息表指定了信息編號(hào)、信息內(nèi)容以及、信息標(biāo)題等名稱。它由核心類(core classes)和插件模塊(pluggable modules)構(gòu)成。 操作界面目前 Heritrix 的最新版本是 ,以下是 的配置安裝過(guò)程: myeclipes 中新建 Java 工程 heritrix 1。該文件是一個(gè)頂級(jí)域名列表,在 Heritrix 啟動(dòng)時(shí)會(huì)被讀取。這里運(yùn)行 Heritrix 所需的源代碼等已經(jīng)準(zhǔn)備完備,下面需要修改配置文件并添加運(yùn)行參數(shù)。在 MyHeritrix 工程上右鍵單擊選擇 “Run As”。在這里我們選擇 ,并單擊右邊的 Change 按鈕保存設(shè)置狀態(tài)。這里我們使用默認(rèn)值。進(jìn)入 modules 即可添加自己需要的 RaceExtractor,和FrontierScheduleForRace,儲(chǔ)存方式為鏡像存儲(chǔ)。private transient ProcessorChainList processorChains。3)ProcessorChainList:處理鏈接4)Frontier:一次抓取任務(wù)需要設(shè)定一個(gè) Frontier,一次來(lái)不斷為其每個(gè)線程提供 url。2.最終啟動(dòng)抓取工作的事 requestCrawlStart()方法,代碼如下:public void requestCrawlStart() { runProcessorInitialTasks()。 (StatLogger)。1)向 heritrix 中添加自己的 Extractor。 private static final String url163=l。private void addLinkFromString(CrawlURI curi,String url,CharSequence context,char hopType) { try { (url, (), hopType)。import 。這樣,此次heritrix在執(zhí)行任務(wù)時(shí),遇到這樣的文件,就會(huì)跳過(guò)抓取,從而達(dá)到對(duì)URL鏈接進(jìn)行篩選的目的。現(xiàn)在 htmlparser 最新版本為 。outputPath表示當(dāng)前正在被處理的文件。private Parser parser。for(String dir:ds){dirs = (\\).concat(dir)。FileOutputStream out1 = new FileOutputStream(file_out)。return (false)。(F:\\work\\htmlParse\\race\\news\\)。 i 。 ().indexOf(_) == 1 )) {count++。同時(shí)需要初始化。String fname