freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺網(wǎng)絡(luò)爬蟲與信息處理(編輯修改稿)

2025-07-21 22:09 本頁面
 

【文章內(nèi)容簡介】 庫的數(shù)據(jù)連接,從而使得賽事信息的查看等的展現(xiàn)。第 3 章 系統(tǒng)分析與設(shè)計9第 3 章 系統(tǒng)分析與設(shè)計 功能需求 系統(tǒng)數(shù)據(jù)流圖系統(tǒng)流程圖(System Flowchart)是描繪系統(tǒng)物理模型的傳統(tǒng)工具。它的基本思想是用圖形符號以黑盒子形式描繪系統(tǒng)里面的每個部件(程序、文件、數(shù)據(jù)庫、表格、人工過程等) ,表達(dá)信息在各個部件之間流動的情況。在本系統(tǒng)中,主要分為前臺和后臺兩大模塊,從對象上區(qū)分也 可以分為會員功能,管理員功能以及游客功能。對于一般的未注冊的游客,只能享受賽事信息的瀏覽,賽事信息的檢索以及賽事網(wǎng)站的分享功能。對于已經(jīng)注冊了的會員,除了享受信息瀏覽,檢索等一般游客的功能,同時,享有個人空間,個人空間中實現(xiàn)已注冊個人信息的修改,論壇發(fā)帖,賽事信息郵箱的訂閱,以及相關(guān)賽事的上傳與下載的權(quán)利。對于管理員,主要是后臺的論壇管理,包括論壇帖子的添刪改查,用戶管理及用戶信息的添刪改查,以及賽事信息的管理,同樣是賽事的添刪改查。最后是會員或是管理員的登入后,依據(jù)正確的用戶名和密碼實現(xiàn)完一系列操作即可安全退出登入,反之如用戶名、密碼出錯即登入敗。在后臺管理員的賽事信息管理中,還包括了爬蟲管理的功能,其中需要管理員開啟服務(wù)器中的 heritrix 程序,根據(jù)需要爬取的網(wǎng)站,可以一次性或是多次輸入需要爬取的網(wǎng)站,再通過后臺的 htmlparser 遍歷解析出文本文件和.jpg、.gif 等圖片,再通過傳入數(shù)據(jù)庫 java io 流呈現(xiàn)在后臺的信息管理當(dāng)中 ,最后管理員可將已經(jīng)傳入數(shù)據(jù)庫的賽事信息進(jìn)行分類的方式上傳至前臺網(wǎng)站。值得一說的是,賽事過期后管理員可根據(jù)賽事信息上傳的時間分批進(jìn)行賽事信息的刪除,或是根據(jù)賽事上傳的時間,越是晚更新越排前臺網(wǎng)站的前端。系統(tǒng)數(shù)據(jù)流圖如圖 和 所示:第 3 章 系統(tǒng)分析與設(shè)計10登錄系統(tǒng)會員管理員個人信息修改論壇發(fā)帖郵箱訂閱用戶信息表修改用戶增加用戶刪除用戶修改賽事信息刪除賽事信息發(fā)布賽事信息用戶信息表賽事信息表論壇信息表游客賽事信息檢索賽事分享論壇管理賽事資料上傳及下載論壇信息表準(zhǔn)備資料管理表圖 系統(tǒng)數(shù)據(jù)流圖用戶管理 登錄信息 身份驗證 成功失敗權(quán)限識別意外否是結(jié)束操作 , 推出系統(tǒng)根據(jù)權(quán)限不同進(jìn)入不同子系統(tǒng) , 并執(zhí)行相應(yīng)操作圖 系統(tǒng)數(shù)據(jù)流圖第 3 章 系統(tǒng)分析與設(shè)計11 系統(tǒng)狀態(tài)圖前臺游客需要注冊成為用戶,可以享受更多功能。游客點(diǎn)擊注冊,正確填寫信息后核對成功注冊完成,反之注冊失敗。注冊成功則可進(jìn)行前臺登入,成功后可以享受郵箱訂閱、查看信息、發(fā)帖、論壇刪帖、賽事查詢、資料下載等功能。用戶在處理的這些個人功能時,需要結(jié)合數(shù)據(jù)庫查詢,如資料的下載上傳或是賽事的上傳需要通過數(shù)據(jù)庫匹配,以實現(xiàn)用戶積分的增減,為下次的操作提供基礎(chǔ)。而用戶賽事的上傳也需要后臺管理員的審核,通過審核,則可展現(xiàn)在網(wǎng)站前臺頁面上。前臺系統(tǒng)狀態(tài)圖如圖 所示:圖 前臺系統(tǒng)狀態(tài)圖后臺管理員需要登入后臺,通過登入成功可以享有后臺的用戶管理包括用戶添加以及刪除、論壇帖子管理包括帖子的添加與刪除、信息錄入、爬蟲管理即更新爬蟲信息等。管理員執(zhí)行任何一種管理功能時,會出現(xiàn)兩種不同狀態(tài):操作成功和操作失敗。如在操作發(fā)帖功能時,當(dāng)操作符合后臺要求時,操作成功,后臺正常發(fā)布帖子;反之,失敗,后臺重新返回發(fā)布帖子頁面。后臺系統(tǒng)狀態(tài)圖如圖 所示:第 3 章 系統(tǒng)分析與設(shè)計12登入[ 點(diǎn)擊登入 ] [ 登入失敗 ] 后臺界面[ 登入成功 ] 用戶信息添加[ 信息添加失敗 ] [ 點(diǎn)擊添加 ] 用戶信息刪除[ 添加 ] 用戶添加成功[ 刪除用戶失敗 ] 用戶刪除成功[ 點(diǎn)擊刪除 ] [ 刪除 ] 帖子添加[ 點(diǎn)擊添加 ] [ 添加帖子失敗 ] 帖子添加成功[ 添加 ] 刪除帖子[ 點(diǎn)擊刪除 ] [ 帖子刪除失敗 ] 帖子刪除成功[ 刪除 ] 更新信息[ 點(diǎn)擊更新 ] [ 更新失敗 ] 信息更新成功[ 點(diǎn)擊更新 ] [ 返回更新 ] 爬蟲管理[ 點(diǎn)擊爬取 ] [ 爬取失敗 ] [ 點(diǎn)擊爬取 ] 爬取成功[ 返回 ] 后臺系統(tǒng)狀態(tài)圖 功能介紹前臺操作模塊主要是會員操作功能(1)登入模塊,通過注冊登入,享有個人空間,會員資料的修改、添加;(2)個人中心模塊,賽事資料上傳,賽事信息的上傳(需后臺審核) ,論壇帖子的發(fā)布、修改與刪除,郵箱訂閱,獲取最新賽事信息;(3)信息模塊,主要是瀏覽賽事信息,包括賽事信息、資料信息、賽事達(dá)人信息以及論壇帖子的瀏覽與回復(fù);后臺操作模塊包括管理員能夠?qū)崿F(xiàn)的功能(對數(shù)據(jù)庫的操作)(1)用戶管理:實現(xiàn)對用戶的增加,刪除,修改,查看。(2)比賽信息管理:實現(xiàn)對信息的更新,發(fā)布,刪除。(3)論壇管理:實現(xiàn)對帖子的刪除,管理。(4)郵箱管理:對已進(jìn)行郵箱訂閱的用戶的郵箱進(jìn)行統(tǒng)一管理,以便信息統(tǒng)一和及時發(fā)送。(5)上傳下載的管理:對用戶所進(jìn)行的上傳下載進(jìn)行管理,不合法的內(nèi)容進(jìn)行屏蔽或刪除。(6)爬蟲管理:對從網(wǎng)上爬來的的信息進(jìn)行修改、刪除和分類,對于一些錯誤的信息進(jìn)行修改,對于一些過期的、多余的和雜亂的信息進(jìn)行刪除,對于關(guān)于比賽的信息進(jìn)行統(tǒng)一分類,把錯誤率降到最低,便于用戶查閱。系統(tǒng)功能第 3 章 系統(tǒng)分析與設(shè)計13模塊圖如圖 所示:比 賽 信 息 集 成 系 統(tǒng) 前 臺 操 作 后 臺 操 作 登 錄 模 塊 用戶名 修改密碼 密碼 個 人 中 心 信息發(fā)布信息刪除 信息修改 資料上傳 賽事信息 賽事達(dá)人 資料下載 信 息 模 塊 賽事論壇 用 戶 管 理 信 息 管 理 查看用戶信息 添加用戶信息 刪除用戶信息 修改用戶信息 達(dá)人信息管理 資料信息管理賽事信息管理 論壇信息管理 添加信息 查看信息 修改信息 刪除信息 圖 功能模塊圖 概念結(jié)構(gòu) 概念結(jié)構(gòu)設(shè)計在本系統(tǒng)中,實體主要包括管理員、會員和游客三大種類,聯(lián)系框包括操作、管理等,實現(xiàn)對屬性的操作,屬性包括賬號、密碼、上傳下載等。實線則是表示屬性與實體之間的聯(lián)系。前臺中,游客可享受信息瀏覽查看與注冊等功能,而會員在此基礎(chǔ)上可以享受更多功能,因此會員都存在一對多的關(guān)系,包括通過操作實現(xiàn)上傳、下載、查看、更新等多個屬性。后臺中,管理員通過操作屬性發(fā)布賽事信息、更新賽事信息以及刪除賽事信息。同時可以直接管理用戶信息,包括添加用戶,刪除用戶等等。因此可知一個管理員也可以存在一對多的關(guān)系,管理員可以包擴(kuò)賽事、帖子、用戶等等的屬性。而相對的,一個屬性只能聯(lián)系一個實體實現(xiàn)其數(shù)據(jù)的聯(lián)系。ER 圖如圖中 所示:第 3 章 系統(tǒng)分析與設(shè)計14圖 ER 圖 邏輯結(jié)構(gòu)設(shè)計由上述概念結(jié)構(gòu) ER 圖可知,關(guān)于用戶所對應(yīng)的包括了用戶信息、帖子、賽事信息等等屬性。本節(jié)則說明相關(guān)屬性的數(shù)據(jù)聯(lián)系所對應(yīng)的表格。都是通過后臺進(jìn)行管理的。后臺的數(shù)據(jù)表包括了用戶信息表,信息錄入信息表包括(科技創(chuàng)新)內(nèi)容信息表、 (影視歌舞)內(nèi)容信息表、 (藝術(shù)愛好)內(nèi)容信息表、 (手機(jī)網(wǎng)絡(luò))內(nèi)容信息表、 (體育競技)內(nèi)容信息表、 (自我展示)內(nèi)容信息表、發(fā)布賽事信息表、信息篩選內(nèi)容信息表。信息錄入表中的幾大賽事信息表指定了信息編號、信息內(nèi)容以及、信息標(biāo)題等名稱。信息編號是設(shè)置為自動增長主鍵,用的是 int 型,而信息內(nèi)容則是設(shè)置為 Max 最大的長度實現(xiàn)內(nèi)容的完整輸入。信息篩選表除了信息編號設(shè)置成主鍵,內(nèi)容最大長度外,還存放了網(wǎng)頁地址名稱,方便存入爬取下來的網(wǎng)頁地址,圖片地址,即可以重復(fù)使用的圖片地址資料,以及更新時間,方便后臺及時更新賽事信息,時間是數(shù)據(jù)庫在存入資料時自動生成的,類別則是方便爬取不同網(wǎng)站類別而設(shè)定的,類別一般是同種網(wǎng)站使用同一種類別。最后是發(fā)布賽事的信息表,方便前臺用戶的發(fā)布,因此多了發(fā)布的用戶名。此項功能是為了方便后臺管理員的查看與審。后臺數(shù)據(jù)表如表 所示:表 (科技創(chuàng)新)內(nèi)容信息表中文字段名 英文字段名 字段類型 長度 主鍵 字段值約束信息編號 number int p Not null信息標(biāo)題 tag varchar 50 Not null信息內(nèi)容 recontent varchar max Not null第 3 章 系統(tǒng)分析與設(shè)計15表 (影視歌舞)內(nèi)容信息表中文字段名 英文字段名 字段類型 長度 主鍵 字段值約束信息編號 number int p Not null信息標(biāo)題 tag varchar 50 Not null信息內(nèi)容 recontent varchar max Not null表 (藝術(shù)愛好)內(nèi)容信息表中文字段名 英文字段名 字段類型 長度 主鍵 字段值約束信息編號 number int p Not null信息標(biāo)題 tag varchar 50 Not null信息內(nèi)容 recontent varchar max Not null表 (手機(jī)網(wǎng)絡(luò))內(nèi)容信息表中文字段名 英文字段名 字段類型 長度 主鍵 字段值約束信息編號 number int p Not null信息標(biāo)題 tag varchar 50 Not null信息內(nèi)容 recontent varchar max Not null表 (體育競技)內(nèi)容信息表中文字段名 英文字段名 字段類型 長度 主鍵 字段值約束信息編號 number int p Not null信息標(biāo)題 tag varchar 50 Not null信息內(nèi)容 recontent varchar max Not null表 (自我展示)內(nèi)容信息表中文字段名 英文字段名 字段類型 長度 主鍵 字段值約束信息編號 number int p Not null信息標(biāo)題 tag varchar 50 Not null信息內(nèi)容 recontent varchar max Not null表 發(fā)布賽事信息表中文字段名 英文字段名 字段類型 長度 主鍵 字段值約束編號 number int p Not null用戶名 username varchar 50 Not null標(biāo)題 tag varchar 50 Not null內(nèi)容 con varchar max Not null第 3 章 系統(tǒng)分析與設(shè)計16表 信息篩選內(nèi)容信息表中文字段名 英文字段名 字段類型 長度 主鍵 字段值約束編號 id int p Not null標(biāo)題 title varchar 500 null內(nèi)容 content varchar max null網(wǎng)頁地址 url varchar 500 null圖片地址 imageurl varchar 50 null更新時間 update varchar 500 null類別 category varchar 50 null第 4 章 模塊實現(xiàn)17第 4 章 模塊實現(xiàn) 爬蟲模塊爬蟲模塊是本系統(tǒng)的核心技術(shù),它的實現(xiàn)使得系統(tǒng)從一個只能人工復(fù)制粘貼別的網(wǎng)站的系統(tǒng),變成可以按時遍歷,全面、方便、針對性更強(qiáng)搜索信息的半自動化系統(tǒng)。它的最出色之處在于良好的可擴(kuò)展性,方便用戶實現(xiàn)自己的抓取邏輯,開發(fā)出適合的賽事信息系統(tǒng)。 設(shè)計事項由于 Heritrix 采用了模塊化的設(shè)計,所以用戶在運(yùn)行時選擇要用的模塊。它由核心類(core classes)和插件模塊(pluggable modules)構(gòu)成。核心類可以配置,但不能被覆蓋,插件模塊可以由第三方模塊取代。因此可用實現(xiàn)了特定抓取邏輯的第三方模塊來取代默認(rèn)的插件模塊,從而滿足抓取的需要。同時,需要擴(kuò)展 FrontierScheduler 來抓取特定網(wǎng)站 FrontierScheduler 是 包中的一個類,它的作用是將在 Extractor 中所分析得出的鏈接加入到 Frontier 中,以待繼續(xù)處理。在該類的 innerProcess(CrawlURI) 函數(shù)中,首先檢查當(dāng)前鏈接隊列中是否有一些屬于高優(yōu)先級的鏈接。如果有,則立刻轉(zhuǎn)走進(jìn)行處理;如果沒有,則對所有的鏈接進(jìn)行遍歷,然后調(diào)用 Frontier 中的 schedule() 方法加入隊列進(jìn)行理。此外,還需要向 heritrix 中添加自己的 extractor。很明顯,heritrix 內(nèi)嵌的 extractor 并不能夠很好的完成所需要的工作,是因為在解析頁面是,常常有特定的需要,比如,可能只想抓取某種格式的鏈接,或是抓取某個特定格式的文本片斷,heritrix 所提供的大眾化 extractor 只能將所有信息全部抓取下來,所以,系統(tǒng)需要寫一個類,繼承 extractor 的基類。 操作界面目前 Heritrix 的最新版本是 ,以下是 的配置安裝過程: m
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1