freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

通用web信息采集系統(tǒng)論文-wenkub.com

2024-11-01 15:23 本頁面
   

【正文】 本系統(tǒng)因為時間的限制和技術(shù)水平局限的原因,所以導(dǎo)致各個方面的工作不是特別的完善。 是 通過以上的測試分析,通用 web 信息采集系統(tǒng)各部分模塊的功能以及業(yè)務(wù)流程均測試通過,符合要求。 頁面的頂部底部和導(dǎo)航是不變的,主頁面隨著導(dǎo)航選擇不同,做不同的響應(yīng),顯示不同的頁面。 是 39 編號 測試內(nèi)容 預(yù)期結(jié)果 實際結(jié)果 是否符合 9 修改密碼 點擊修改密碼,跳轉(zhuǎn)頁面,輸入新密碼和確認密碼,若倆次輸入相同,則修改成功,并返回首頁面。 是 7 查看采集信息功能 任務(wù)采集后可通過此功能,查看采集的鏈接和提取的信息。 是 5 新建任務(wù)組功能 添加任務(wù)相關(guān)信息,可添加描述信息,提交后要求掉轉(zhuǎn)到顯示信息頁面,并準確存入數(shù)據(jù)庫中。 進入修改頁面后,僅修改想要修改的信息項即可。 是 2 新建用戶功能 添加用戶相關(guān)信息,并且用戶名不能重復(fù),倆次密碼的輸入相同,郵箱格式正確,如不符合規(guī)則提示并要求重新輸入,如符合規(guī)則提交后要求掉轉(zhuǎn)到顯示信息頁面,并準確存入數(shù)據(jù)庫中。在每一功能模塊的實現(xiàn)上都做了充分的測試。 軟件測試的方法 從軟件工程的角度講,測 試軟件的方法可分為兩種:黑盒測試、白盒測試。在測試中,它只檢查程序功能的是否按照需求規(guī)格說明書的規(guī)定正常使用,程序是否能適當(dāng)?shù)亟邮蛰斎霐?shù)據(jù)而產(chǎn)生正確的輸出信息。 37 圖 管理員用戶管理界面 測試實例的研究與選擇 軟件測試就是利用測試工具按照測試方案和流程對產(chǎn)品進行功能和性能測試,甚至根據(jù)需要編寫不同的測試工具,設(shè)計和維護測試系統(tǒng),對測試方案可能出現(xiàn)的問題進行分析和評估。 圖 普通用戶任務(wù)管理界面 點擊任務(wù)組列表時的界面,如圖 。 登錄界面 此頁面為用戶登錄頁面,頁面設(shè)計簡單,包括用戶名密碼的輸入框,登錄和重置按鈕,如圖 。 圖 刪除任務(wù)圖 開始采集任務(wù)。 圖 修改任務(wù)圖 查看信息。 圖 任務(wù)列表圖 新建任務(wù)。任務(wù)管理與任務(wù)組管理相似,管理員可以對所有任務(wù)進行增刪改查的操作,超級用戶和普通用戶只可以管理自己的任務(wù)組,超級用戶還可以瀏覽其他用戶的任務(wù)組。 30 圖 查詢?nèi)蝿?wù)組信息圖 刪除任務(wù)組信息。 29 圖 添加任務(wù)組圖 修改任務(wù)組信息。 任務(wù)組列表。 圖 刪除用戶圖 任務(wù)組管理模塊 任務(wù)組管理模塊分為新建任務(wù)組、查看任務(wù)組、修改任務(wù)組、刪除 任務(wù)組四部 28 分。 圖 修改用戶圖 查看用戶信 息。 html。 用戶列表。系統(tǒng)同時包含退出系統(tǒng)的功能,在成功登錄頁面后即可顯示,點擊退出系統(tǒng),頁面跳轉(zhuǎn)到登錄頁面。 在設(shè)計過程中可以對數(shù) 據(jù)庫添加和回滾操作,方便開發(fā)人員對數(shù)據(jù)庫的操作,本系統(tǒng)在開發(fā)過程中,也有相關(guān)操作如圖 。 創(chuàng)建數(shù)據(jù)庫表 簡單介紹過各文件的功能之后,根據(jù)設(shè)計進行相關(guān)的操作。 Log 文件夾下的development。 Helpers:存放視圖輔助類,一些常用的代碼段。更改成功后, rails 與數(shù)據(jù)庫 webget就連接起來了。 建立工程 進入想建立 web 應(yīng)用的文件目錄,使用命令 rails WebGet –d mysql 進行創(chuàng)建 web應(yīng)用,并指定數(shù)據(jù)庫為 mysql,否則默認使用 sqlite3 數(shù)據(jù)庫,創(chuàng)建成功,控制臺效果如圖 ,創(chuàng)建成功后,在工程目錄下生成多 個子文件夾,文件功能如圖 。 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計 用戶信息表(登錄名稱,密碼,昵稱,郵箱,角色) 任務(wù)表(任務(wù)名稱,起始地址列表,訪問規(guī)則,提取規(guī)則,等待時間,深度,創(chuàng)建者,創(chuàng)建時間,更新時間,所屬組名) 任務(wù)組表(任務(wù)組名稱,描述,創(chuàng)建時間,修改時間,創(chuàng)建用戶) 角色表(角色類型,創(chuàng)建時間,修改時間) 信息表( URL,信息,所屬任務(wù),創(chuàng)建時間,修改時間) 表 用戶信息表 序號 名 稱 編 碼 類 型 寬 度 備 注 1 ID id int 11 主鍵 2 登錄名稱 login Varchar 255 無 17 序號 名 稱 編 碼 類 型 寬 度 備 注 3 密碼 password Varchar 255 無 4 昵稱 name varchar 255 無 5 郵箱 varchar 255 無 6 創(chuàng)建時間 create_at datetime 無 7 更新時間 Update_at datetime 無 8 用戶類型 role_id int 11 無 表 任務(wù)組表 序號 名 稱 編 碼 類 型 寬 度 備 注 1 ID id int 11 主鍵 2 任務(wù)組名稱 title varchar 255 無 3 描述 description text 無 4 創(chuàng)建時間 create_at datetime 無 5 更新時間 update_at datetime 無 6 創(chuàng)建者 user_id int 11 無 表 任務(wù)表 序 號 名 稱 編 碼 類 型 寬 度 備 注 1 ID id int 11 主鍵 2 任務(wù)名稱 title varchar 255 無 3 起始地址列表 seed_urls text 無 4 訪問規(guī)則 accept_pattern varchar 255 無 5 提取規(guī)則 extract_pattern varchar 255 無 6 等待時間 wait_second int 11 無 7 深度 level int 11 無 8 創(chuàng)建者 user_id int 11 無 18 序 號 名 稱 編 碼 類 型 寬 度 備 注 1 ID id int 11 主鍵 9 創(chuàng)建時間 create_at datetime 無 10 更新時間 update_at datetime 無 11 所屬任務(wù)組 taskgroup_id int 11 無 表 信息表 序 號 名 稱 編 碼 類 型 寬 度 備 注 1 ID id int 11 主鍵 2 URL url varchar 255 無 3 信息 content text 無 4 所屬任務(wù) task_id int 11 無 5 創(chuàng)建時間 create_at datetime 無 6 更新時間 update_at datetime 無 表 角色表 序 號 名 稱 編 碼 類 型 寬 度 備 注 1 ID id int 11 主鍵 2 角色類型 title varchar 255 無 3 創(chuàng)建時間 create_at datetime 無 4 更新時間 update_at datetime 無 19 6 系統(tǒng)實現(xiàn)及測試 各模塊具體實現(xiàn)方法 系統(tǒng)開發(fā)的流程如下: (1) 新建一個 rails 工程,新建一個數(shù)據(jù)庫,創(chuàng)建成功后,在創(chuàng)建 rails 工程的目錄下生成許多文件,在 config 文件夾下配置相應(yīng)的數(shù)據(jù)庫信息,此時,數(shù)據(jù)庫與 rails就已經(jīng)連接起來了; (2) 創(chuàng)建數(shù)據(jù)庫表,在 rails 中創(chuàng)建數(shù)據(jù)庫表,分為兩步,第一,創(chuàng)建數(shù)據(jù)模型類,遵循一定命名規(guī)則。 為了增加本系統(tǒng)的可維護性和易擴充性,我為數(shù)據(jù)庫做了如下的約定: (1) 數(shù)據(jù)庫設(shè)計要具有“可讀性”。 任務(wù)組和任務(wù)之間是一對多的關(guān)系,一個任務(wù)組中包含多個任務(wù),而一個任務(wù)只屬于一個任務(wù)組。 B/S 模式的缺點:個性化特點明顯降低,無法實現(xiàn)具有個性化的功能要求;操作是以鼠標為最基本的操作方式,無法滿足快速操作的要求;頁面動態(tài)刷新,響應(yīng)速度明顯降低;無法實現(xiàn)分頁顯示,給數(shù)據(jù)庫訪問造成較大的壓力;功能弱化,難以實現(xiàn)傳統(tǒng)模式下的特殊功能要求。 編程模型 B/S( Browser/Server,瀏覽器 /服務(wù)器)模式又稱 B/S 結(jié)構(gòu)。普通用戶不具有瀏覽其他用戶任務(wù)組的功能; (4) 任務(wù)管理模塊:包括添加任務(wù)、編輯任務(wù)、刪除任務(wù)、開始任務(wù)。如圖 。通過這樣的一個功能模塊圖可以清楚的解釋題目的內(nèi)在含義,并且對具體要完成什么樣的任務(wù)給出一個清晰的思路。 登錄流程圖 管理員輸入用戶名和密碼后,系統(tǒng)將對用戶名和密碼進行驗證是否正確,若不正確,系統(tǒng)將提示管理員用戶名和密碼不存在重新輸入。添加新用戶,管理員創(chuàng)建新用戶時需要對用戶部分信息有限制,例如登錄名稱是唯一的輸入密碼之后需要再次確認密碼只有倆次輸入相同才能創(chuàng)建,對于郵箱 要符合郵箱的規(guī)則。 10 登錄功能:在本系統(tǒng)只有登錄用戶才能訪問,登錄時,系統(tǒng)根據(jù)賬號區(qū)分用戶類型,不同用戶登錄后界面不同,當(dāng)用戶輸入用戶名和密碼經(jīng)過系統(tǒng)驗證成功后,用戶即可進入對應(yīng)的頁面。通常軟件開發(fā)項目是要實現(xiàn)目標系統(tǒng)的物理模型,即確定待開發(fā)軟件系統(tǒng)的系統(tǒng)元素,并將功能和數(shù)據(jù)結(jié)構(gòu)分配到這些系統(tǒng)元素中。在少數(shù)需要使用樣板文件代碼的時候,開發(fā)人員可以通過ruby on rails 內(nèi)建的生成器腳本實時創(chuàng)建,而不再是通過手工編寫。 Rails 是一個 MVC 框架。它可以讓你快速地用代碼自然,清晰表達想法。在很多文本編輯器或其他工具里 , 正則表達式通常被用來檢索和或替換那些符合某個模式的文本內(nèi)容 ,正則表達式 能夠匹配不定長的字符集,這是 7 其它能作用在字符串上的方法所不能做到的。 信息抽取就是把文本里邊包含的某些特定的信息提取出來 , 進行結(jié)構(gòu)化處理 ,變成表格一樣的組織形式 。廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進行下一層次的搜索。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁 URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。 6 關(guān)鍵技術(shù)及復(fù)雜性分析 網(wǎng)絡(luò)爬蟲 網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。 具體實現(xiàn)流程:將起始地址列表按行讀取存入存儲 url 的 pages 表中,在未超過等待 時間限制的控制條件下,循環(huán)從表中取出一組 url 和 depth,判斷一下是否取到鏈接,如果沒有取到鏈接,直接退出,如果取到了鏈接,那么判斷是否超出遞歸深度,如果超出遞歸深度,則停止此次循環(huán),進入下一次循環(huán),如果沒有超出遞歸深度,則下載網(wǎng)頁,提取網(wǎng)頁中的鏈接,判斷鏈接,如果鏈接既符合訪問規(guī)則又不重復(fù),則按規(guī)則提取信息,將鏈接和信息加入 pages 表中,原鏈接深度基礎(chǔ)上加 1 填進表中。所以,在研究設(shè)計初期,要了解 ruby 語言和 Ruby on Rails 技術(shù)。 設(shè)計目標 系統(tǒng)設(shè)計目標是通過該系統(tǒng)能夠根據(jù)用戶需求自動下載網(wǎng)頁、分析網(wǎng)頁,根據(jù)任務(wù)配置提取需要的信息,將信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),存 儲到數(shù)據(jù)庫中,方便用戶直接使用。 網(wǎng)絡(luò)信息采集專家功能及特點 從界面設(shè)計來看,分為四部分,整個頁面頂部 為任務(wù)設(shè)置及任務(wù)管理部分,中間主界面為任務(wù)列表,主界面左半部分是樹形結(jié)構(gòu)的系統(tǒng)導(dǎo)航,右半部分是任務(wù)列表,底部為任務(wù)采集的信息展示區(qū)。 3 2 研究現(xiàn)狀及設(shè)計目標 相近研究課題研究現(xiàn)狀及優(yōu)缺點 在設(shè)計開發(fā)本系統(tǒng)之前,對相關(guān)采集系統(tǒng)做過一系列的調(diào)研。 2 基本要求: :任務(wù)管理、網(wǎng)頁采集、信息抽?。? 、管理; ; ,并轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)。但由于關(guān)鍵信息多以半結(jié)構(gòu)化或自由文本形式存在于復(fù)雜的 HTML 網(wǎng)頁中,很難直接加以利用,網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)的主要目標就是解決較普遍的網(wǎng)絡(luò)信息采集問題,規(guī)范由采集到應(yīng)用的基本流程,實現(xiàn)采集工作的流程化和自動化。 Web 信息的急速膨脹,在給人們提供豐富 信息的同時,也加大了人們采集關(guān)鍵信息的難度,因此,基于 Web的信息采集、發(fā)布和相關(guān)的信息處理日益成為人們關(guān)注的焦點。 Ruby on Rails 畢 業(yè) 設(shè) 計 任 務(wù) 書 III 院(系) 專業(yè) 班級 學(xué)號 學(xué)生姓名 畢業(yè)設(shè)計題目 通用 Web 信息采集系統(tǒng) 畢業(yè)設(shè)計時間 2020 年 1 月 7 日至
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1