freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺(tái)網(wǎng)絡(luò)爬蟲與信息處理(留存版)

2025-08-08 22:09上一頁面

下一頁面
  

【正文】 mlparser 是一個(gè)純的 java 寫的 html(標(biāo)準(zhǔn)通用標(biāo)記語言下的一個(gè)應(yīng)用)解析的庫,它不依賴于其它的 java 庫文件,主要用于改造或提取html。 本文的組織論文正文包括四章:引言、系統(tǒng)相關(guān)技術(shù)、比賽信息集成系統(tǒng)的分析與設(shè)計(jì)、系統(tǒng)模塊的設(shè)計(jì)與實(shí)現(xiàn)。針對(duì)于此,此次項(xiàng)目致力打造一個(gè)服務(wù)于在校大學(xué)生的輕松、便捷、互動(dòng)地參與各類競(jìng)賽活動(dòng)的競(jìng)賽門戶網(wǎng)站,致力于系統(tǒng)地收集和整理各個(gè)領(lǐng)域的各類賽事,為參賽者提供最優(yōu)質(zhì)的信息服務(wù),使得來自全國(guó)各地的參賽選手可以相互學(xué)習(xí)分享心得,通過各種有意義的比賽不斷提升自己。關(guān)鍵詞:網(wǎng)絡(luò)爬蟲技術(shù);頁面解析技術(shù);數(shù)據(jù)流技術(shù);js 特效。論文首先敘述了系統(tǒng)的開發(fā)背景和研究?jī)?nèi)容,接著簡(jiǎn)單介紹了系統(tǒng)的開發(fā)平臺(tái)及相關(guān)技術(shù),然后對(duì)系統(tǒng)做了一個(gè)整體的系統(tǒng)規(guī)劃和交互數(shù)據(jù)的設(shè)計(jì),最后對(duì)網(wǎng)絡(luò)爬蟲模塊和后臺(tái)信息篩選調(diào)度模塊的設(shè)計(jì)與具體實(shí)現(xiàn)做了重點(diǎn)闡述。兩者側(cè)重點(diǎn)不一。賽事活動(dòng)多了,并且能深入下去,大學(xué)生在積極參與的過程中,就會(huì)逐漸養(yǎng)成堅(jiān)韌、頑強(qiáng)的優(yōu)良品性,養(yǎng)成務(wù)實(shí)的學(xué)習(xí)態(tài)度和生活作風(fēng),不斷提高自己、完善自己。其次,Java [2] [3]語言是一種功能強(qiáng)大的編程語言,負(fù)責(zé) heritrix 應(yīng)用的業(yè)務(wù)邏輯的實(shí)現(xiàn)和對(duì)應(yīng)用程序進(jìn)行控制。它的工作流程是一個(gè)循環(huán),具體流程是:1 在預(yù)定的 URI 中選擇一個(gè)。 java 語言java 語言 Java 是一種可以撰寫跨平臺(tái)應(yīng)用軟件的面向?qū)ο蟮某绦蛟O(shè)計(jì)語言,是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 程序設(shè)計(jì)語言和Java 平臺(tái)(即 JavaSE, JavaEE, JavaME)的總稱。 InputStream1)InputStream 是所有的輸入字節(jié)流的父類,它是一個(gè)抽象類。對(duì)于已經(jīng)注冊(cè)了的會(huì)員,除了享受信息瀏覽,檢索等一般游客的功能,同時(shí),享有個(gè)人空間,個(gè)人空間中實(shí)現(xiàn)已注冊(cè)個(gè)人信息的修改,論壇發(fā)帖,賽事信息郵箱的訂閱,以及相關(guān)賽事的上傳與下載的權(quán)利。(4)郵箱管理:對(duì)已進(jìn)行郵箱訂閱的用戶的郵箱進(jìn)行統(tǒng)一管理,以便信息統(tǒng)一和及時(shí)發(fā)送。信息篩選表除了信息編號(hào)設(shè)置成主鍵,內(nèi)容最大長(zhǎng)度外,還存放了網(wǎng)頁地址名稱,方便存入爬取下來的網(wǎng)頁地址,圖片地址,即可以重復(fù)使用的圖片地址資料,以及更新時(shí)間,方便后臺(tái)及時(shí)更新賽事信息,時(shí)間是數(shù)據(jù)庫在存入資料時(shí)自動(dòng)生成的,類別則是方便爬取不同網(wǎng)站類別而設(shè)定的,類別一般是同種網(wǎng)站使用同一種類別。1)將 下的 lib 文件夾拷貝到 heritrix1 項(xiàng)目根目錄;“Configure Build Path …”,然后選擇 Library 選項(xiàng)卡,單擊“Add JARs …”,加載數(shù)據(jù)圖如圖 所示:圖 加載數(shù)據(jù)圖2)在 heritrix1 工程上右鍵單擊選擇“Build Path”。heritrix .properties 中配置了大量與 Heritrix 運(yùn)行息息相關(guān)的參數(shù),這些參數(shù)的配置決定了 Heritrix 運(yùn)行時(shí)的一些默認(rèn)工具類、Web UI 的啟動(dòng)參數(shù),以及 Heritrix 的日志格式等。同時(shí),它還會(huì)將經(jīng)由處理器鏈解析出來的 URL 加入到等待處理的隊(duì)列中去。修改 heritrix 的版本號(hào)和需要爬取的網(wǎng)址,添加一個(gè)郵箱地址,可以不是真的郵箱地址。6)ServerCache:緩存,保存了所有在當(dāng)前任務(wù)中,抓取過的 Host 名稱和 Server 名稱。 ()。 public RaceExtractor(String name) {this(name,Race links from HTML documents)。import 。無論你是想抓取網(wǎng)頁數(shù)據(jù)還是改造 html 的內(nèi)容,都可以使用htmlparser。public static final String SEPARATOR = ======================。int c。(F:\\work\\htmlParse\\data\\\\)。(())。 i 。 ().endsWith(.html)amp。再獲取正在處理的文件的路徑getInputFilePath()從mirror目錄下拷貝文件至所設(shè)定的圖片目錄,該方法可能需要被改變。}File file_out = new File(new File(imageDir), new_image_file)。private String mirrorDir = 。 } } }第 4 章 模塊實(shí)現(xiàn)29 頁面解析文本信息入庫模塊(htmlparser) 設(shè)計(jì)思想htmlparser 是一個(gè)純的 java 寫的 html(標(biāo)準(zhǔn)通用標(biāo)記語言下一個(gè)應(yīng)用)解析的庫,它不依賴于其它的 java 庫文件,主要用于改造或提取 html。package 。 } else { // simply begin unpause()。 // A proper exit will change this value. = 。 // Used to enable/disable singlethreaded operation after OOM第 4 章 模塊實(shí)現(xiàn)24在 CrawlController 類中,定義了以下幾個(gè)組件:1)CrawlOrder:一個(gè)抓取工作必須要的一個(gè) Order 對(duì)象,他保存了對(duì)該次抓取任務(wù)中的 的屬性配置。7)Select Post Processors:這個(gè)參數(shù)主要用于抓取解析過程結(jié)束后的掃尾工作,比如將 Extractor 解析出來的 URL 有條件地加入到待處理的隊(duì)列中去。1)Select Crawl Scope:Crawl Scope 用于配置當(dāng)前應(yīng)該在什么范圍內(nèi)抓取網(wǎng)頁鏈接?;蛑苯佑? 的 webapps 文件夾替換 \src 中的 webapps 文件夾,缺點(diǎn)是這個(gè)是打包好的 .war 文件,無法修改源代碼。此外,還需要向 heritrix 中添加自己的 extractor。都是通過后臺(tái)進(jìn)行管理的。如在操作發(fā)帖功能時(shí),當(dāng)操作符合后臺(tái)要求時(shí),操作成功,后臺(tái)正常發(fā)布帖子;反之,失敗,后臺(tái)重新返回發(fā)布帖子頁面。第 3 章 系統(tǒng)分析與設(shè)計(jì)9第 3 章 系統(tǒng)分析與設(shè)計(jì) 功能需求 系統(tǒng)數(shù)據(jù)流圖系統(tǒng)流程圖(System Flowchart)是描繪系統(tǒng)物理模型的傳統(tǒng)工具。Java 是本系統(tǒng)前臺(tái)及后臺(tái)以及爬蟲、頁面解析技術(shù)的基礎(chǔ)語言,通過運(yùn)用 java 編寫的程序?qū)崿F(xiàn)前臺(tái)的功能如:登入,注冊(cè),論壇帖子發(fā)布,會(huì)員資源管理等等,而后臺(tái)主要實(shí)現(xiàn)后臺(tái)會(huì)員管理,論壇管理,信息錄入等等功能。再將下載的包添加到項(xiàng)目的引用列表中,從而實(shí)現(xiàn)下個(gè)步驟的開發(fā)。它主要的用戶界面可以通過一個(gè)web 流量器來訪問并通過它來控制檢索器的行為,另外,它還有一個(gè)命令行工具來供用戶選擇調(diào)用。其中后臺(tái)主要運(yùn)用了 heritrix 爬蟲技術(shù)。(3)有利于發(fā)展大學(xué)生的組織協(xié)調(diào)能力和創(chuàng)新意識(shí)。鑒于此想法,本次項(xiàng)目選擇開發(fā)比賽信息集成系統(tǒng)。為了提供最全面的大學(xué)生賽事信息,比賽信息平臺(tái)通過設(shè)計(jì)賽事的爬蟲系統(tǒng),整合所有的賽事信息,并經(jīng)過篩選后呈現(xiàn)在用戶面前。 data stream。其中前臺(tái)中,本組開發(fā)主要集中于網(wǎng)站的開發(fā),方便用戶瀏覽下載信息;賽事論壇開發(fā),用戶可以分享賽事經(jīng)驗(yàn),共享賽事資源;用戶中心開發(fā),方便用戶獲得更多的賽事資源的權(quán)利;而后臺(tái),主要著重爬蟲系統(tǒng)開發(fā),半自動(dòng)傻瓜式的獲取全網(wǎng)更多賽事資源,整合成為本系統(tǒng)的資訊,賽事資源豐富,更受用戶青睞;用戶管理、論壇管理等等,系統(tǒng)地、有條理地管理前臺(tái)信息,讓系統(tǒng)健全運(yùn)行。第 4 章為個(gè)人模塊設(shè)計(jì)與實(shí)現(xiàn),分 4 節(jié),包括比賽信息系統(tǒng)的爬蟲模塊、頁面解析文本信息入庫模塊,以及信息篩選上傳、信息查看刪除的模塊的設(shè)計(jì)。因?yàn)?htmlparser 需要與數(shù)據(jù)庫 sql 連接進(jìn)行頁面的解析存儲(chǔ),因此本系統(tǒng)在這里運(yùn)用了 JAVA 中的資源文件(properties),通過加載 文件解析并保存到指定的文件中。在 中配置了大量與 Heritrix 運(yùn)行息息相關(guān)的參數(shù),這些參數(shù)主要是配置了 Heritrix 運(yùn)行時(shí)的一些默認(rèn)工具類、 WebUI 啟動(dòng)參數(shù),以及 Heritrix 的日志格式等。Java 舍棄了 C 語言中容易引起錯(cuò)誤的指針(以引用取代)、運(yùn)算符重載(operator overloading)、多重繼承(以接口取代)等特性,增加了 垃圾回收器功能用于回收不再被引用的對(duì)象所占據(jù)的內(nèi)存空間,使得程序員不用再為內(nèi)存管理而擔(dān)第 2 章 相關(guān)技術(shù)簡(jiǎn)介7憂。2)ByteArrayOutputStream、FileOutputStream 是兩種基本的介質(zhì)流,它們分別向 Byte 數(shù)組、和本地文件中寫入數(shù)據(jù)。系統(tǒng)數(shù)據(jù)流圖如圖 和 所示:第 3 章 系統(tǒng)分析與設(shè)計(jì)10登錄系統(tǒng)會(huì)員管理員個(gè)人信息修改論壇發(fā)帖郵箱訂閱用戶信息表修改用戶增加用戶刪除用戶修改賽事信息刪除賽事信息發(fā)布賽事信息用戶信息表賽事信息表論壇信息表游客賽事信息檢索賽事分享論壇管理賽事資料上傳及下載論壇信息表準(zhǔn)備資料管理表圖 系統(tǒng)數(shù)據(jù)流圖用戶管理 登錄信息 身份驗(yàn)證 成功失敗權(quán)限識(shí)別意外否是結(jié)束操作 , 推出系統(tǒng)根據(jù)權(quán)限不同進(jìn)入不同子系統(tǒng) , 并執(zhí)行相應(yīng)操作圖 系統(tǒng)數(shù)據(jù)流圖第 3 章 系統(tǒng)分析與設(shè)計(jì)11 系統(tǒng)狀態(tài)圖前臺(tái)游客需要注冊(cè)成為用戶,可以享受更多功能。前臺(tái)中,游客可享受信息瀏覽查看與注冊(cè)等功能,而會(huì)員在此基礎(chǔ)上可以享受更多功能,因此會(huì)員都存在一對(duì)多的關(guān)系,包括通過操作實(shí)現(xiàn)上傳、下載、查看、更新等多個(gè)屬性。 設(shè)計(jì)事項(xiàng)由于 Heritrix 采用了模塊化的設(shè)計(jì),所以用戶在運(yùn)行時(shí)選擇要用的模塊。2)將 \src\resources\\archive\util 下的文件 tlds 拷貝到 heritrix1\src\\archive\util 中。其中的 Name 參數(shù)可以設(shè)置為任何方便識(shí)別的名字。4)Select Fetchers:這個(gè)參數(shù)用于解析網(wǎng)絡(luò)傳輸協(xié)議,比如解析 DNS、HTTP 或 FTP 等。private transient CrawlScope scope。最后,CrawlController 已經(jīng)具備了運(yùn)行條件,就可以開始運(yùn)行了,在此時(shí),只需調(diào)用它的 requestCrawlStart()方法,就可以啟運(yùn)線程池和Frontier 方法,然后就可以開始不斷的抓取網(wǎng)頁了。unpause()方法則是將阻塞的信號(hào)量設(shè)置為 false,即允許線程開始活動(dòng),然后通過 notifyAll()方法喚醒線程池中的被阻線程,開始抓取。打開 文件,在所有 webui 中設(shè)置處理鏈接,頁面上的下拉列表中數(shù)據(jù)都保存在其中,加入我們開發(fā)的 RaceExtractor??梢酝ㄟ^幾成FrontierSchedule,并重寫內(nèi)部的schedule方法達(dá)到我們的需要。Newline表示所有結(jié)果的輸出路徑。String[] ds = (/)。 // if success then return true} catch (Exception e) {()。for (int i = 0。類型category ,更新時(shí)間updatetime ,內(nèi)容content,鏈接line,標(biāo)題fname等等。讀取信息,并寫入數(shù)據(jù)庫中,至此遍歷下的文件即可輸入到數(shù)據(jù)庫中。 i++) {traverse(extractor, new File(path, files[i]))。 // if fail then return false}}…第 4 章 模塊實(shí)現(xiàn)33SEPARATOR表示裝載需要的網(wǎng)頁文件。}dirs = ([\\\\/]{1,}, /)。inputFilePath表示當(dāng)前所有被抓取的網(wǎng)頁的鏡象根目錄在Heritrix用mirror目錄表示。protected void schedule(CandidateURI caUri) { String url=()。 } catch(URIException e) { if(getController()!=null) { getController().logUriError(e,(),url)。很明顯,heritrix 內(nèi)嵌的 Extractor 并不能很好的完成所需要的工作,因?yàn)槲覀兂3S刑囟ǖ男枰?,比如可以抓取某一特定格式的文本片段? sendCrawlStateChangeEvent(STARTED, )。private transient Frontier frontier。第 4 章 模塊實(shí)現(xiàn)225)Select Extractors:主要是用于解析當(dāng)前服務(wù)器返回的內(nèi)容,取出頁面中的 URL,等待下次繼續(xù)抓取。然后在 Classpath 頁選擇 UserEntries 選項(xiàng),此時(shí)右邊的 Advanced 按鈕處于激活狀態(tài),點(diǎn)擊它,在彈出的對(duì)話框中選擇“Add Folders”,然后選擇 MyHeritrix 工程下的 conf 文件夾。3)將 \src 下 conf 文件夾拷貝至 Heri
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1