freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺網(wǎng)絡(luò)爬蟲與信息處理-預(yù)覽頁

2025-07-18 22:09 上一頁面

下一頁面
 

【正文】 ............................9 功能需求 ....................................................9 系統(tǒng)數(shù)據(jù)流圖 ....................................................9 系統(tǒng)狀態(tài)圖 .....................................................11 功能介紹 ...................................................12 概念結(jié)構(gòu) ...................................................13 概念結(jié)構(gòu)設(shè)計 ...................................................13 邏輯結(jié)構(gòu)設(shè)計 ...................................................14第 4 章 模塊實現(xiàn) ..........................................17 爬蟲模塊 ...................................................17 設(shè)計事項 .......................................................17 操作界面 .......................................................17 核心代碼 .......................................................23 頁面解析文本信息入庫模塊(HTMLPARSER) .......................29目錄IV 設(shè)計思想 .......................................................29 操作界面 .......................................................29 核心代碼 .......................................................31 信息篩選上傳、信息查看刪除的模塊 ...........................34 設(shè)計思想 .......................................................34 操作界面 .......................................................35 核心代碼 .......................................................37總結(jié) .....................................................40參考文獻 .................................................42第 1 章 引言1第 1 章 引言 系統(tǒng)開發(fā)的背景信息在現(xiàn)代經(jīng)濟生活中的作用越來越大,對于個人而言,缺乏信息將導(dǎo)致很多機會的喪失。有一個屬于自己的比賽信息集成系統(tǒng)成為亟待解決的問題。目前,國內(nèi)同類的賽事信息類系統(tǒng)有“賽才網(wǎng)” 。希望通過此次開發(fā)的平臺項目,能為廣大學生及賽事愛好者提供全面、即時的賽事信息,在分享賽事資訊的同時提供一個交流、討論的平臺。通過前后臺的整合,統(tǒng)一,協(xié)調(diào)地完成此次系統(tǒng)開發(fā)出分門別類的、整整有序的、及時全面的賽事網(wǎng)站平臺系統(tǒng)開發(fā)能為在校的大學生提供最為全面、優(yōu)質(zhì)的賽事信息,為提高中國大學生的身心素質(zhì)做出貢獻。大學生以課堂學習為主要接受方式,這對大學生來說非常重要,但這些理論知識并不代表大學生的實際技能,往往難以直接運用于現(xiàn)實生活之中。(4)有利于提高大學生個人素養(yǎng),完善個性品質(zhì)。第 1 章為緒論,分為 3 節(jié),主要介紹系統(tǒng)的開發(fā)背景、系統(tǒng)的開發(fā)目標及研究內(nèi)容及本文的組織。第 2 章 相關(guān)技術(shù)簡介4第 2 章 相關(guān)技術(shù)簡介 系統(tǒng)開發(fā)平臺及開發(fā)工具硬件環(huán)境: 個人 PC、電網(wǎng)、電信網(wǎng)絡(luò)等。相 關(guān) 工 具 : Microsoft SQL Server 202Macromedia dreamweaver My Eclipse 。它來自于 。它能超高速解析 html,而且不會出錯。再次,本系統(tǒng)還引入了 文件的讀寫工作。下面就 heritrix、htmlparser、java 及 java io、JDBC 進行介紹 heritrix 技術(shù)heritrix[6]技術(shù) Heritrix 是一個專門為互聯(lián)網(wǎng)上的網(wǎng)頁進行存檔而開發(fā)的網(wǎng)頁檢索器。第一次正式發(fā)布是在 2022 年 1 月,并不斷的被互聯(lián)網(wǎng)檔案館和其他感興趣的第三方改進。加入預(yù)定隊列。當?shù)谝淮芜\行 Heritrix 時,只需要修改該文件,為其加入 WebUI 的登錄名和密碼。利用一個開源的包htmlparser 分析網(wǎng)頁結(jié)構(gòu),并將結(jié)果存儲起來。信息轉(zhuǎn)換1)鏈接重寫,用于修改頁面中的所有超鏈接;2)網(wǎng)頁內(nèi)容拷貝,用于將網(wǎng)頁內(nèi)容保存到本地;3) 內(nèi)容檢驗,可以用來過濾網(wǎng)頁上一些令人不愉快的字詞;4) HTML 信息清洗,把本來亂七八糟的 HTML 信息格式化;5) 轉(zhuǎn)成 XML 格式數(shù)據(jù)。在全球云計算和移動互聯(lián)網(wǎng)的產(chǎn)業(yè)環(huán)境下,Java 更具備了顯著優(yōu)勢和廣闊前景。 Java 版本中,Java 又引入了泛型編程(Generic Programming)、類型安全的枚舉、不定長參數(shù)和自動裝/拆箱等語言特性。不過,每次的執(zhí)行編譯后的字節(jié)碼需要消耗一定的時間,這同時也在一定程度上降低了 Java 程序的性能。即數(shù)據(jù)在兩設(shè)備間的傳輸稱為流,流的本質(zhì)是數(shù)據(jù)傳輸,根據(jù)數(shù)據(jù)傳輸特性將流抽象為各種類,方便更直觀的進行數(shù)據(jù)操作。PipedInputStream 是從與其它線程共用的管道中讀取數(shù)據(jù),與Piped 相關(guān)的知識后續(xù)單獨介紹。PipedOutputStream 是向與其它線程共用的管道中寫入數(shù)據(jù)。 JDBC 技術(shù)JDBC[10](Java Data Base Connectivity,java 數(shù)據(jù)庫連接 )是一種用于執(zhí)行 SQL 語句的 Java API,可以為多種關(guān)系數(shù)據(jù)庫提供統(tǒng)一訪問,簡單說,JDBC 可做三件事:與數(shù)據(jù)庫建立連接、發(fā)送 操作數(shù)據(jù)庫的語句并處理結(jié)果。在本系統(tǒng)中,主要分為前臺和后臺兩大模塊,從對象上區(qū)分也 可以分為會員功能,管理員功能以及游客功能。最后是會員或是管理員的登入后,依據(jù)正確的用戶名和密碼實現(xiàn)完一系列操作即可安全退出登入,反之如用戶名、密碼出錯即登入敗。游客點擊注冊,正確填寫信息后核對成功注冊完成,反之注冊失敗。前臺系統(tǒng)狀態(tài)圖如圖 所示:圖 前臺系統(tǒng)狀態(tài)圖后臺管理員需要登入后臺,通過登入成功可以享有后臺的用戶管理包括用戶添加以及刪除、論壇帖子管理包括帖子的添加與刪除、信息錄入、爬蟲管理即更新爬蟲信息等。(2)比賽信息管理:實現(xiàn)對信息的更新,發(fā)布,刪除。(6)爬蟲管理:對從網(wǎng)上爬來的的信息進行修改、刪除和分類,對于一些錯誤的信息進行修改,對于一些過期的、多余的和雜亂的信息進行刪除,對于關(guān)于比賽的信息進行統(tǒng)一分類,把錯誤率降到最低,便于用戶查閱。后臺中,管理員通過操作屬性發(fā)布賽事信息、更新賽事信息以及刪除賽事信息。ER 圖如圖中 所示:第 3 章 系統(tǒng)分析與設(shè)計14圖 ER 圖 邏輯結(jié)構(gòu)設(shè)計由上述概念結(jié)構(gòu) ER 圖可知,關(guān)于用戶所對應(yīng)的包括了用戶信息、帖子、賽事信息等等屬性。信息錄入表中的幾大賽事信息表指定了信息編號、信息內(nèi)容以及、信息標題等名稱。此項功能是為了方便后臺管理員的查看與審。它由核心類(core classes)和插件模塊(pluggable modules)構(gòu)成。在該類的 innerProcess(CrawlURI) 函數(shù)中,首先檢查當前鏈接隊列中是否有一些屬于高優(yōu)先級的鏈接。 操作界面目前 Heritrix 的最新版本是 ,以下是 的配置安裝過程: myeclipes 中新建 Java 工程 heritrix 1。如圖 所示。該文件是一個頂級域名列表,在 Heritrix 啟動時會被讀取。該文件夾是用來提供 servlet 引擎的,包含了 Heritrix 的 web UI 文件。這里運行 Heritrix 所需的源代碼等已經(jīng)準備完備,下面需要修改配置文件并添加運行參數(shù)。設(shè)置 = admin:admin,“admin:admin”分別為用戶名和密碼。在 MyHeritrix 工程上右鍵單擊選擇 “Run As”。接下來需要運行文件,本系統(tǒng)在拓展完成 FrontierScheduler 和向heritrix 中添加自己的 extractor。在這里我們選擇 ,并單擊右邊的 Change 按鈕保存設(shè)置狀態(tài)。3)Select Pre Processors:這個隊列的處理器是用來對抓取時的一些先決條件進行判斷。這里我們使用默認值。一種是采用壓縮的方式(Arc),還有一種是鏡像方式(Mirror)。進入 modules 即可添加自己需要的 RaceExtractor,和FrontierScheduleForRace,儲存方式為鏡像存儲。網(wǎng)頁信息圖如圖 所示:圖 網(wǎng)頁信息圖 核心代碼1.中央控制器是一次抓取任務(wù)中的核心組件,他將決定整個仍無的開始和結(jié)束。private transient ProcessorChainList processorChains。private transient ServerCache serverCache。3)ProcessorChainList:處理鏈接4)Frontier:一次抓取任務(wù)需要設(shè)定一個 Frontier,一次來不斷為其每個線程提供 url。通過構(gòu)造一個CrawlController 的實例,來完成并進行抓取任務(wù),還有以下幾個步驟:首先,構(gòu)造一個 XMLSettingsHandler 對象,將 內(nèi)的屬性信息裝入。2.最終啟動抓取工作的事 requestCrawlStart()方法,代碼如下:public void requestCrawlStart() { runProcessorInitialTasks()。 jobState = 。 (StatLogger)。而 BdbFrontier 的父類 AbstractFrontier 中的 start()方法和 unpause()方法。1)向 heritrix 中添加自己的 Extractor。所以我們應(yīng)該建立自己的 Extractor。 private static final String url163=l。}…第 4 章 模塊實現(xiàn)26構(gòu)造函數(shù),第一個正則式,適用于匹配 cdrace 信息的格式第二個正則式,則是用于匹配所有的a href=“xxx”將鏈接對象先轉(zhuǎn)成字符串。private void addLinkFromString(CrawlURI curi,String url,CharSequence context,char hopType) { try { (url, (), hopType)。創(chuàng)建自己的FrontierSchedulerForRace來繼承FrontierScheduler。import 。public class FrontierSchedulerForRace extends FrontierScheduler { //private static final Logger LOGGER=(())。這樣,此次heritrix在執(zhí)行任務(wù)時,遇到這樣的文件,就會跳過抓取,從而達到對URL鏈接進行篩選的目的。 } else { return。現(xiàn)在 htmlparser 最新版本為 。 操作界面以下是網(wǎng)絡(luò)爬蟲(heritrix)爬取下來的比賽信息的html頁面文件。outputPath表示當前正在被處理的文件。private String outputPath = 。private Parser parser。 HASH_ALGORITHM = md5。for(String dir:ds){dirs = (\\).concat(dir)。(系統(tǒng)找不到指定的文件)。FileOutputStream out1 = new FileOutputStream(file_out)。// close()。return (false)。抽象方法,用于供子類實現(xiàn)。(F:\\work\\htmlParse\\race\\news\\)。(count)。 i 。if ( ().endsWith() ||(!().endsWith() amp。 ().indexOf(_) == 1 )) {count++。}}第 4 章 模塊實現(xiàn)34以上是Main函數(shù),指定需要解析的目錄文件,指定需要生成文本文件和圖片文件的地址。同時需要初始化。String [] files = ()。String fname
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1