freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺網(wǎng)絡(luò)爬蟲與信息處理-wenkub

2023-07-09 22:09:37 本頁面
 

【正文】 戲之余還有更大的發(fā)展空間。針對于此,此次項(xiàng)目致力打造一個(gè)服務(wù)于在校大學(xué)生的輕松、便捷、互動地參與各類競賽活動的競賽門戶網(wǎng)站,致力于系統(tǒng)地收集和整理各個(gè)領(lǐng)域的各類賽事,為參賽者提供最優(yōu)質(zhì)的信息服務(wù),使得來自全國各地的參賽選手可以相互學(xué)習(xí)分享心得,通過各種有意義的比賽不斷提升自己。其中前臺中,本組開發(fā)主要集中于網(wǎng)站的開發(fā),方便用戶瀏覽下載信息;賽事論壇開發(fā),用戶可以分享賽事經(jīng)驗(yàn),共享賽事資源;用戶中心開發(fā),方便用戶獲得更多的賽事資源的權(quán)利;而后臺,主要著重爬蟲系統(tǒng)開發(fā),半自動傻瓜式的獲取全網(wǎng)更多賽事資源,整合成為本系統(tǒng)的資訊,賽事資源豐富,更受用戶青睞;用戶管理、論壇管理等等,系統(tǒng)地、有條理地管理前臺信息,讓系統(tǒng)健全運(yùn)行。(2)有利于大學(xué)生對理論知識的轉(zhuǎn)化和拓展,增強(qiáng)運(yùn)用知識解決實(shí)際問題的能力。各種種類繁多的比賽沒有課堂教學(xué)太多的束縛和校園生活的限制,學(xué)生們的積極性被充分調(diào)動起來,興趣高漲,思維也空前的活躍起來,往往會產(chǎn)生一些創(chuàng)造性火花,在實(shí)踐中勇于開拓、敢于創(chuàng)新。 本文的組織論文正文包括四章:引言、系統(tǒng)相關(guān)技術(shù)、比賽信息集成系統(tǒng)的分析與設(shè)計(jì)、系統(tǒng)模塊的設(shè)計(jì)與實(shí)現(xiàn)。第 4 章為個(gè)人模塊設(shè)計(jì)與實(shí)現(xiàn),分 4 節(jié),包括比賽信息系統(tǒng)的爬蟲模塊、頁面解析文本信息入庫模塊,以及信息篩選上傳、信息查看刪除的模塊的設(shè)計(jì)。爬蟲 heritrix;頁面解析技術(shù):htmlparser;數(shù)據(jù)庫 sql;struts2 模式。首先,Heritrix [1]是一個(gè)純由 Java 開發(fā)的、開源的 Web 網(wǎng)絡(luò)爬蟲,用戶可以使用它從網(wǎng)絡(luò)上抓取想要的資源。再次,Htmlparser 是一個(gè)純的 java 寫的 html(標(biāo)準(zhǔn)通用標(biāo)記語言下的一個(gè)應(yīng)用)解析的庫,它不依賴于其它的 java 庫文件,主要用于改造或提取html。因?yàn)?htmlparser 需要與數(shù)據(jù)庫 sql 連接進(jìn)行頁面的解析存儲,因此本系統(tǒng)在這里運(yùn)用了 JAVA 中的資源文件(properties),通過加載 文件解析并保存到指定的文件中。JDBC 提供了一種基準(zhǔn),據(jù)此可以構(gòu)建更高級的工具和接口,使數(shù)據(jù)庫開發(fā)人員能夠編寫數(shù)據(jù)庫應(yīng)用程序。Heritrix 是由互聯(lián)網(wǎng)檔案館和北歐國家圖書館聯(lián)合規(guī)范化編寫于 2022 年初。2 從選擇的URI 的網(wǎng)址下載遠(yuǎn)程文件 3 分析,歸檔下載到的內(nèi)容 4 從分析到的內(nèi)容里面選擇感興趣的 URI。在 中配置了大量與 Heritrix 運(yùn)行息息相關(guān)的參數(shù),這些參數(shù)主要是配置了 Heritrix 運(yùn)行時(shí)的一些默認(rèn)工具類、 WebUI 啟動參數(shù),以及 Heritrix 的日志格式等。其次 擴(kuò)展 MirrorWriterProcessor,有的時(shí)候我們需要在網(wǎng)頁下載之前將網(wǎng)頁進(jìn)行分析并提取有效內(nèi)容存儲起來,這時(shí)我們可以擴(kuò)展 MirrorWriterProcessor 這個(gè)模塊。第 2 章 相關(guān)技術(shù)簡介6 Htmlparser 技術(shù)HTMLParser 主要是常用來解析 html 頁面并獲取自己需要的數(shù)據(jù),經(jīng)常是和網(wǎng)絡(luò)爬蟲(如:Heritrix)一同使用,它的基本功能是:信息提取1)文本信息抽取,例如對 HTML 進(jìn)行有效信息搜索;2)鏈接提取,用于自動給頁面的鏈接文本加上鏈接的標(biāo)簽;3)資源提取,例如對一些圖片、聲音的資源的處理;4)鏈接檢查,用于檢查 HTML 中的鏈接是否有效;5)頁面內(nèi)容的監(jiān)控。Java 技術(shù)具有卓越的通用性、高效性、平臺移植性和安全性,廣泛應(yīng)用于個(gè)人 PC、數(shù)據(jù)中心、游戲控制臺、科學(xué)超級計(jì)算機(jī)、移動電話和互聯(lián)網(wǎng),同時(shí)擁有全球最大的開發(fā)者專業(yè)社群。Java 舍棄了 C 語言中容易引起錯(cuò)誤的指針(以引用取代)、運(yùn)算符重載(operator overloading)、多重繼承(以接口取代)等特性,增加了 垃圾回收器功能用于回收不再被引用的對象所占據(jù)的內(nèi)存空間,使得程序員不用再為內(nèi)存管理而擔(dān)第 2 章 相關(guān)技術(shù)簡介7憂。從而實(shí)現(xiàn)了“一次編譯、到處執(zhí)行”的跨平臺特性。 java io 流技術(shù)流 [8] [9]是一組有順序的,有起點(diǎn)和終點(diǎn)的字節(jié)集合,是對數(shù)據(jù)傳輸?shù)目偡Q或抽象。2)ByteArrayInputStrea、StringBufferInputStream、FileInputStream 是三種基本的介質(zhì)流,它們分別從 Byte 數(shù)組、 StringBuffer、和本地文件中讀取數(shù)據(jù)。2)ByteArrayOutputStream、FileOutputStream 是兩種基本的介質(zhì)流,它們分別向 Byte 數(shù)組、和本地文件中寫入數(shù)據(jù)。File類保存文件或目錄的各種元數(shù)據(jù)信息,包括文件名、文件長度、最后修改時(shí)間、是否可讀、獲取當(dāng)前文件的路徑名,判斷指定文件是否存在、獲得當(dāng)前目錄中的文件列表,創(chuàng)建、刪除文件和目錄等方法。它的基本思想是用圖形符號以黑盒子形式描繪系統(tǒng)里面的每個(gè)部件(程序、文件、數(shù)據(jù)庫、表格、人工過程等) ,表達(dá)信息在各個(gè)部件之間流動的情況。對于管理員,主要是后臺的論壇管理,包括論壇帖子的添刪改查,用戶管理及用戶信息的添刪改查,以及賽事信息的管理,同樣是賽事的添刪改查。系統(tǒng)數(shù)據(jù)流圖如圖 和 所示:第 3 章 系統(tǒng)分析與設(shè)計(jì)10登錄系統(tǒng)會員管理員個(gè)人信息修改論壇發(fā)帖郵箱訂閱用戶信息表修改用戶增加用戶刪除用戶修改賽事信息刪除賽事信息發(fā)布賽事信息用戶信息表賽事信息表論壇信息表游客賽事信息檢索賽事分享論壇管理賽事資料上傳及下載論壇信息表準(zhǔn)備資料管理表圖 系統(tǒng)數(shù)據(jù)流圖用戶管理 登錄信息 身份驗(yàn)證 成功失敗權(quán)限識別意外否是結(jié)束操作 , 推出系統(tǒng)根據(jù)權(quán)限不同進(jìn)入不同子系統(tǒng) , 并執(zhí)行相應(yīng)操作圖 系統(tǒng)數(shù)據(jù)流圖第 3 章 系統(tǒng)分析與設(shè)計(jì)11 系統(tǒng)狀態(tài)圖前臺游客需要注冊成為用戶,可以享受更多功能。而用戶賽事的上傳也需要后臺管理員的審核,通過審核,則可展現(xiàn)在網(wǎng)站前臺頁面上。后臺系統(tǒng)狀態(tài)圖如圖 所示:第 3 章 系統(tǒng)分析與設(shè)計(jì)12登入[ 點(diǎn)擊登入 ] [ 登入失敗 ] 后臺界面[ 登入成功 ] 用戶信息添加[ 信息添加失敗 ] [ 點(diǎn)擊添加 ] 用戶信息刪除[ 添加 ] 用戶添加成功[ 刪除用戶失敗 ] 用戶刪除成功[ 點(diǎn)擊刪除 ] [ 刪除 ] 帖子添加[ 點(diǎn)擊添加 ] [ 添加帖子失敗 ] 帖子添加成功[ 添加 ] 刪除帖子[ 點(diǎn)擊刪除 ] [ 帖子刪除失敗 ] 帖子刪除成功[ 刪除 ] 更新信息[ 點(diǎn)擊更新 ] [ 更新失敗 ] 信息更新成功[ 點(diǎn)擊更新 ] [ 返回更新 ] 爬蟲管理[ 點(diǎn)擊爬取 ] [ 爬取失敗 ] [ 點(diǎn)擊爬取 ] 爬取成功[ 返回 ] 后臺系統(tǒng)狀態(tài)圖 功能介紹前臺操作模塊主要是會員操作功能(1)登入模塊,通過注冊登入,享有個(gè)人空間,會員資料的修改、添加;(2)個(gè)人中心模塊,賽事資料上傳,賽事信息的上傳(需后臺審核) ,論壇帖子的發(fā)布、修改與刪除,郵箱訂閱,獲取最新賽事信息;(3)信息模塊,主要是瀏覽賽事信息,包括賽事信息、資料信息、賽事達(dá)人信息以及論壇帖子的瀏覽與回復(fù);后臺操作模塊包括管理員能夠?qū)崿F(xiàn)的功能(對數(shù)據(jù)庫的操作)(1)用戶管理:實(shí)現(xiàn)對用戶的增加,刪除,修改,查看。(5)上傳下載的管理:對用戶所進(jìn)行的上傳下載進(jìn)行管理,不合法的內(nèi)容進(jìn)行屏蔽或刪除。前臺中,游客可享受信息瀏覽查看與注冊等功能,而會員在此基礎(chǔ)上可以享受更多功能,因此會員都存在一對多的關(guān)系,包括通過操作實(shí)現(xiàn)上傳、下載、查看、更新等多個(gè)屬性。而相對的,一個(gè)屬性只能聯(lián)系一個(gè)實(shí)體實(shí)現(xiàn)其數(shù)據(jù)的聯(lián)系。后臺的數(shù)據(jù)表包括了用戶信息表,信息錄入信息表包括(科技創(chuàng)新)內(nèi)容信息表、 (影視歌舞)內(nèi)容信息表、 (藝術(shù)愛好)內(nèi)容信息表、 (手機(jī)網(wǎng)絡(luò))內(nèi)容信息表、 (體育競技)內(nèi)容信息表、 (自我展示)內(nèi)容信息表、發(fā)布賽事信息表、信息篩選內(nèi)容信息表。最后是發(fā)布賽事的信息表,方便前臺用戶的發(fā)布,因此多了發(fā)布的用戶名。 設(shè)計(jì)事項(xiàng)由于 Heritrix 采用了模塊化的設(shè)計(jì),所以用戶在運(yùn)行時(shí)選擇要用的模塊。同時(shí),需要擴(kuò)展 FrontierScheduler 來抓取特定網(wǎng)站 FrontierScheduler 是 包中的一個(gè)類,它的作用是將在 Extractor 中所分析得出的鏈接加入到 Frontier 中,以待繼續(xù)處理。很明顯,heritrix 內(nèi)嵌的 extractor 并不能夠很好的完成所需要的工作,是因?yàn)樵诮馕鲰撁媸牵3S刑囟ǖ男枰?,比如,可能只想抓取某種格式的鏈接,或是抓取某個(gè)特定格式的文本片斷,heritrix 所提供的大眾化 extractor 只能將所有信息全部抓取下來,所以,系統(tǒng)需要寫一個(gè)類,繼承 extractor 的基類。3)在彈出的“JAR Selection”對話框中選擇 MyHeritrix 工程 lib 文件夾下所有的 jar 文件,然后點(diǎn)擊 OK 按鈕。2)將 \src\resources\\archive\util 下的文件 tlds 拷貝到 heritrix1\src\\archive\util 中。第 4 章 模塊實(shí)現(xiàn)194)將 \src 中的 webapps 文件夾拷貝至 Heritrix 工程根目錄。拷貝完畢后的 MyHeritrix 工程目錄層次如圖 4 . 所示。當(dāng)?shù)谝淮芜\(yùn)行 Heritrix 時(shí),只需要修改該文件,為其加入 Web UI 的用戶名和密碼。其中的 Name 參數(shù)可以設(shè)置為任何方便識別的名字。運(yùn)行圖如圖 所示:圖 運(yùn)行圖至此 heritrix 已經(jīng)成功安裝配置完畢。例如選擇 BroadScope 則表示當(dāng)前的抓取范圍不受限制,選擇 HostScope 則表示抓取的范圍在當(dāng)前的 Host 范圍內(nèi)。這里我們使用默認(rèn)值。4)Select Fetchers:這個(gè)參數(shù)用于解析網(wǎng)絡(luò)傳輸協(xié)議,比如解析 DNS、HTTP 或 FTP 等。6)Select Writers:它主要用于設(shè)定將所抓取到的信息以何種形式寫入磁盤。這里我們使用默認(rèn)值。最后點(diǎn)擊 Submit job,創(chuàng)建項(xiàng)目進(jìn)行爬取即可,以下是爬取下來的網(wǎng)頁信息。private transient CrawlScope scope。private transient ToePool toePool。2)CrawlScope:決定當(dāng)前的抓取范圍的一個(gè)組件。以上組件應(yīng)該是一次正常的抓取過程中所必須的幾項(xiàng)。最后,CrawlController 已經(jīng)具備了運(yùn)行條件,就可以開始運(yùn)行了,在此時(shí),只需調(diào)用它的 requestCrawlStart()方法,就可以啟運(yùn)線程池和Frontier 方法,然后就可以開始不斷的抓取網(wǎng)頁了。 state = RUNNING。 Thread statLogger = new Thread(statistics)。 }…第 4 章 模塊實(shí)現(xiàn)25其中,抓取工作核心就是要啟動 Frontier(通過調(diào)用其 start()方法),一邊能開始想線程池中的工作線程提供 url,供其抓取。unpause()方法則是將阻塞的信號量設(shè)置為 false,即允許線程開始活動,然后通過 notifyAll()方法喚醒線程池中的被阻線程,開始抓取。在這種情況下,就無法控制 heritrix 到底該抓哪些內(nèi)容,不該抓哪些內(nèi)容,今兒造成鏡像信息太復(fù)雜。 }}…public class RaceExtractor extends Extractor {protected boolean ignoreUnexceptionHTML=true。 } public RaceExtractor(String name,String description) {super(name,description)。打開 文件,在所有 webui 中設(shè)置處理鏈接,頁面上的下拉列表中數(shù)據(jù)都保存在其中,加入我們開發(fā)的 RaceExtractor。 } }} }……|TrapSuppressExtractor|SohuNewsExtractor|RaceExtractor…|TrapSuppressExtractor|SohuNewsExtractor|RaceExtractor第 4 章 模塊實(shí)現(xiàn)272)擴(kuò)展 FrontierSchedule 來抓取特定的內(nèi)容。import 。import ??梢酝ㄟ^幾成FrontierSchedule,并重寫內(nèi)部的schedule方法達(dá)到我們的需要。 try { if(()||()!=1 //||( ||(.zip) ||(.rar) ||(.xls) ||()!=1 ||(dns)!=1) { if(()!=1)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1