freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺網絡爬蟲與信息處理(留存版)

2025-08-08 22:09上一頁面

下一頁面
  

【正文】 mlparser 是一個純的 java 寫的 html(標準通用標記語言下的一個應用)解析的庫,它不依賴于其它的 java 庫文件,主要用于改造或提取html。 本文的組織論文正文包括四章:引言、系統(tǒng)相關技術、比賽信息集成系統(tǒng)的分析與設計、系統(tǒng)模塊的設計與實現(xiàn)。針對于此,此次項目致力打造一個服務于在校大學生的輕松、便捷、互動地參與各類競賽活動的競賽門戶網站,致力于系統(tǒng)地收集和整理各個領域的各類賽事,為參賽者提供最優(yōu)質的信息服務,使得來自全國各地的參賽選手可以相互學習分享心得,通過各種有意義的比賽不斷提升自己。關鍵詞:網絡爬蟲技術;頁面解析技術;數(shù)據(jù)流技術;js 特效。論文首先敘述了系統(tǒng)的開發(fā)背景和研究內容,接著簡單介紹了系統(tǒng)的開發(fā)平臺及相關技術,然后對系統(tǒng)做了一個整體的系統(tǒng)規(guī)劃和交互數(shù)據(jù)的設計,最后對網絡爬蟲模塊和后臺信息篩選調度模塊的設計與具體實現(xiàn)做了重點闡述。兩者側重點不一。賽事活動多了,并且能深入下去,大學生在積極參與的過程中,就會逐漸養(yǎng)成堅韌、頑強的優(yōu)良品性,養(yǎng)成務實的學習態(tài)度和生活作風,不斷提高自己、完善自己。其次,Java [2] [3]語言是一種功能強大的編程語言,負責 heritrix 應用的業(yè)務邏輯的實現(xiàn)和對應用程序進行控制。它的工作流程是一個循環(huán),具體流程是:1 在預定的 URI 中選擇一個。 java 語言java 語言 Java 是一種可以撰寫跨平臺應用軟件的面向對象的程序設計語言,是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 程序設計語言和Java 平臺(即 JavaSE, JavaEE, JavaME)的總稱。 InputStream1)InputStream 是所有的輸入字節(jié)流的父類,它是一個抽象類。對于已經注冊了的會員,除了享受信息瀏覽,檢索等一般游客的功能,同時,享有個人空間,個人空間中實現(xiàn)已注冊個人信息的修改,論壇發(fā)帖,賽事信息郵箱的訂閱,以及相關賽事的上傳與下載的權利。(4)郵箱管理:對已進行郵箱訂閱的用戶的郵箱進行統(tǒng)一管理,以便信息統(tǒng)一和及時發(fā)送。信息篩選表除了信息編號設置成主鍵,內容最大長度外,還存放了網頁地址名稱,方便存入爬取下來的網頁地址,圖片地址,即可以重復使用的圖片地址資料,以及更新時間,方便后臺及時更新賽事信息,時間是數(shù)據(jù)庫在存入資料時自動生成的,類別則是方便爬取不同網站類別而設定的,類別一般是同種網站使用同一種類別。1)將 下的 lib 文件夾拷貝到 heritrix1 項目根目錄;“Configure Build Path …”,然后選擇 Library 選項卡,單擊“Add JARs …”,加載數(shù)據(jù)圖如圖 所示:圖 加載數(shù)據(jù)圖2)在 heritrix1 工程上右鍵單擊選擇“Build Path”。heritrix .properties 中配置了大量與 Heritrix 運行息息相關的參數(shù),這些參數(shù)的配置決定了 Heritrix 運行時的一些默認工具類、Web UI 的啟動參數(shù),以及 Heritrix 的日志格式等。同時,它還會將經由處理器鏈解析出來的 URL 加入到等待處理的隊列中去。修改 heritrix 的版本號和需要爬取的網址,添加一個郵箱地址,可以不是真的郵箱地址。6)ServerCache:緩存,保存了所有在當前任務中,抓取過的 Host 名稱和 Server 名稱。 ()。 public RaceExtractor(String name) {this(name,Race links from HTML documents)。import 。無論你是想抓取網頁數(shù)據(jù)還是改造 html 的內容,都可以使用htmlparser。public static final String SEPARATOR = ======================。int c。(F:\\work\\htmlParse\\data\\\\)。(())。 i 。 ().endsWith(.html)amp。再獲取正在處理的文件的路徑getInputFilePath()從mirror目錄下拷貝文件至所設定的圖片目錄,該方法可能需要被改變。}File file_out = new File(new File(imageDir), new_image_file)。private String mirrorDir = 。 } } }第 4 章 模塊實現(xiàn)29 頁面解析文本信息入庫模塊(htmlparser) 設計思想htmlparser 是一個純的 java 寫的 html(標準通用標記語言下一個應用)解析的庫,它不依賴于其它的 java 庫文件,主要用于改造或提取 html。package 。 } else { // simply begin unpause()。 // A proper exit will change this value. = 。 // Used to enable/disable singlethreaded operation after OOM第 4 章 模塊實現(xiàn)24在 CrawlController 類中,定義了以下幾個組件:1)CrawlOrder:一個抓取工作必須要的一個 Order 對象,他保存了對該次抓取任務中的 的屬性配置。7)Select Post Processors:這個參數(shù)主要用于抓取解析過程結束后的掃尾工作,比如將 Extractor 解析出來的 URL 有條件地加入到待處理的隊列中去。1)Select Crawl Scope:Crawl Scope 用于配置當前應該在什么范圍內抓取網頁鏈接?;蛑苯佑? 的 webapps 文件夾替換 \src 中的 webapps 文件夾,缺點是這個是打包好的 .war 文件,無法修改源代碼。此外,還需要向 heritrix 中添加自己的 extractor。都是通過后臺進行管理的。如在操作發(fā)帖功能時,當操作符合后臺要求時,操作成功,后臺正常發(fā)布帖子;反之,失敗,后臺重新返回發(fā)布帖子頁面。第 3 章 系統(tǒng)分析與設計9第 3 章 系統(tǒng)分析與設計 功能需求 系統(tǒng)數(shù)據(jù)流圖系統(tǒng)流程圖(System Flowchart)是描繪系統(tǒng)物理模型的傳統(tǒng)工具。Java 是本系統(tǒng)前臺及后臺以及爬蟲、頁面解析技術的基礎語言,通過運用 java 編寫的程序實現(xiàn)前臺的功能如:登入,注冊,論壇帖子發(fā)布,會員資源管理等等,而后臺主要實現(xiàn)后臺會員管理,論壇管理,信息錄入等等功能。再將下載的包添加到項目的引用列表中,從而實現(xiàn)下個步驟的開發(fā)。它主要的用戶界面可以通過一個web 流量器來訪問并通過它來控制檢索器的行為,另外,它還有一個命令行工具來供用戶選擇調用。其中后臺主要運用了 heritrix 爬蟲技術。(3)有利于發(fā)展大學生的組織協(xié)調能力和創(chuàng)新意識。鑒于此想法,本次項目選擇開發(fā)比賽信息集成系統(tǒng)。為了提供最全面的大學生賽事信息,比賽信息平臺通過設計賽事的爬蟲系統(tǒng),整合所有的賽事信息,并經過篩選后呈現(xiàn)在用戶面前。 data stream。其中前臺中,本組開發(fā)主要集中于網站的開發(fā),方便用戶瀏覽下載信息;賽事論壇開發(fā),用戶可以分享賽事經驗,共享賽事資源;用戶中心開發(fā),方便用戶獲得更多的賽事資源的權利;而后臺,主要著重爬蟲系統(tǒng)開發(fā),半自動傻瓜式的獲取全網更多賽事資源,整合成為本系統(tǒng)的資訊,賽事資源豐富,更受用戶青睞;用戶管理、論壇管理等等,系統(tǒng)地、有條理地管理前臺信息,讓系統(tǒng)健全運行。第 4 章為個人模塊設計與實現(xiàn),分 4 節(jié),包括比賽信息系統(tǒng)的爬蟲模塊、頁面解析文本信息入庫模塊,以及信息篩選上傳、信息查看刪除的模塊的設計。因為 htmlparser 需要與數(shù)據(jù)庫 sql 連接進行頁面的解析存儲,因此本系統(tǒng)在這里運用了 JAVA 中的資源文件(properties),通過加載 文件解析并保存到指定的文件中。在 中配置了大量與 Heritrix 運行息息相關的參數(shù),這些參數(shù)主要是配置了 Heritrix 運行時的一些默認工具類、 WebUI 啟動參數(shù),以及 Heritrix 的日志格式等。Java 舍棄了 C 語言中容易引起錯誤的指針(以引用取代)、運算符重載(operator overloading)、多重繼承(以接口取代)等特性,增加了 垃圾回收器功能用于回收不再被引用的對象所占據(jù)的內存空間,使得程序員不用再為內存管理而擔第 2 章 相關技術簡介7憂。2)ByteArrayOutputStream、FileOutputStream 是兩種基本的介質流,它們分別向 Byte 數(shù)組、和本地文件中寫入數(shù)據(jù)。系統(tǒng)數(shù)據(jù)流圖如圖 和 所示:第 3 章 系統(tǒng)分析與設計10登錄系統(tǒng)會員管理員個人信息修改論壇發(fā)帖郵箱訂閱用戶信息表修改用戶增加用戶刪除用戶修改賽事信息刪除賽事信息發(fā)布賽事信息用戶信息表賽事信息表論壇信息表游客賽事信息檢索賽事分享論壇管理賽事資料上傳及下載論壇信息表準備資料管理表圖 系統(tǒng)數(shù)據(jù)流圖用戶管理 登錄信息 身份驗證 成功失敗權限識別意外否是結束操作 , 推出系統(tǒng)根據(jù)權限不同進入不同子系統(tǒng) , 并執(zhí)行相應操作圖 系統(tǒng)數(shù)據(jù)流圖第 3 章 系統(tǒng)分析與設計11 系統(tǒng)狀態(tài)圖前臺游客需要注冊成為用戶,可以享受更多功能。前臺中,游客可享受信息瀏覽查看與注冊等功能,而會員在此基礎上可以享受更多功能,因此會員都存在一對多的關系,包括通過操作實現(xiàn)上傳、下載、查看、更新等多個屬性。 設計事項由于 Heritrix 采用了模塊化的設計,所以用戶在運行時選擇要用的模塊。2)將 \src\resources\\archive\util 下的文件 tlds 拷貝到 heritrix1\src\\archive\util 中。其中的 Name 參數(shù)可以設置為任何方便識別的名字。4)Select Fetchers:這個參數(shù)用于解析網絡傳輸協(xié)議,比如解析 DNS、HTTP 或 FTP 等。private transient CrawlScope scope。最后,CrawlController 已經具備了運行條件,就可以開始運行了,在此時,只需調用它的 requestCrawlStart()方法,就可以啟運線程池和Frontier 方法,然后就可以開始不斷的抓取網頁了。unpause()方法則是將阻塞的信號量設置為 false,即允許線程開始活動,然后通過 notifyAll()方法喚醒線程池中的被阻線程,開始抓取。打開 文件,在所有 webui 中設置處理鏈接,頁面上的下拉列表中數(shù)據(jù)都保存在其中,加入我們開發(fā)的 RaceExtractor??梢酝ㄟ^幾成FrontierSchedule,并重寫內部的schedule方法達到我們的需要。Newline表示所有結果的輸出路徑。String[] ds = (/)。 // if success then return true} catch (Exception e) {()。for (int i = 0。類型category ,更新時間updatetime ,內容content,鏈接line,標題fname等等。讀取信息,并寫入數(shù)據(jù)庫中,至此遍歷下的文件即可輸入到數(shù)據(jù)庫中。 i++) {traverse(extractor, new File(path, files[i]))。 // if fail then return false}}…第 4 章 模塊實現(xiàn)33SEPARATOR表示裝載需要的網頁文件。}dirs = ([\\\\/]{1,}, /)。inputFilePath表示當前所有被抓取的網頁的鏡象根目錄在Heritrix用mirror目錄表示。protected void schedule(CandidateURI caUri) { String url=()。 } catch(URIException e) { if(getController()!=null) { getController().logUriError(e,(),url)。很明顯,heritrix 內嵌的 Extractor 并不能很好的完成所需要的工作,因為我們常常有特定的需要,比如可以抓取某一特定格式的文本片段。 sendCrawlStateChangeEvent(STARTED, )。private transient Frontier frontier。第 4 章 模塊實現(xiàn)225)Select Extractors:主要是用于解析當前服務器返回的內容,取出頁面中的 URL,等待下次繼續(xù)抓取。然后在 Classpath 頁選擇 UserEntries 選項,此時右邊的 Advanced 按鈕處于激活狀態(tài),點擊它,在彈出的對話框中選擇“Add Folders”,然后選擇 MyHeritrix 工程下的 conf 文件夾。3)將 \src 下 conf 文件夾拷貝至 Heri
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1