freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

通用web信息采集系統(tǒng)論文-預(yù)覽頁(yè)

 

【正文】 ................................................................................ 31 界面設(shè)計(jì) ................................................................................................................... 34 登錄界面 ............................................................................................................ 34 普通用戶管理界面 ............................................................................................ 35 超級(jí)用戶管理界面 ............................................................................................ 35 管理員管理界面 ................................................................................................ 36 測(cè)試實(shí)例的研究與選擇 .......................................................................................... 37 軟件測(cè)試的方法 ................................................................................................ 37 實(shí)例測(cè)試 ............................................................................................................ 38 7 結(jié)論與展望 ..................................................................................................................... 40 參考文獻(xiàn) ............................................................................................................................. 41 致 謝 ...................................................................................................錯(cuò)誤 !未定義書簽。 垂直搜索引擎需要在某個(gè) web 空間收集信息頁(yè)面,并存儲(chǔ)這些頁(yè)面以供用戶查詢, web 信息的動(dòng)態(tài)變化,設(shè)計(jì)良好的蜘蛛程序,快速獲取 web 信息,并及時(shí)發(fā)現(xiàn)因?yàn)楦露^(guò)期的頁(yè)面,信息采集中的一個(gè)重要內(nèi)容。 開發(fā) 環(huán)境:不限。 主要貢獻(xiàn) 通用 Web 信息采集系統(tǒng)通過(guò)分析 html 代碼,分析網(wǎng)頁(yè)中的鏈接和信息,實(shí)現(xiàn)自動(dòng)地分析鏈接,抓取文件,處理和 保存數(shù)據(jù)的過(guò)程, web 信息采集系統(tǒng)還能過(guò)濾已經(jīng)提取的鏈接。下面以 wget 及網(wǎng)絡(luò)信息采集專家為例詳 述調(diào)研結(jié)果。提取信息時(shí),系統(tǒng)為用戶提供輸入正則表達(dá)式文本框,讓用戶提取的數(shù)據(jù)能夠按照用戶的想法結(jié)構(gòu)化輸出。 4 經(jīng)濟(jì)效益分析 隨著互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)不斷的更新增加, 隨之而來(lái)的問(wèn)題是如此多的數(shù)據(jù)讓人難以消化,無(wú)法從表面上看出他們所蘊(yùn)涵的有用信息,更不用說(shuō)有效地指導(dǎo)進(jìn)一步的工作 ,目前, 信息系統(tǒng) 應(yīng)用在 各行各業(yè) , 用原來(lái)手工方式進(jìn)行信息收集早已經(jīng)力不從心 ,通用 web 信息采集系統(tǒng)能夠?qū)崿F(xiàn)自動(dòng)地、有效地下載網(wǎng)頁(yè)采集信息,提高信息采集效率,對(duì)于一個(gè)企業(yè)來(lái)講,提高工作效率就是提高經(jīng)濟(jì)效益。 怎樣實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲網(wǎng)頁(yè)采集 本系統(tǒng)開發(fā)的網(wǎng)絡(luò)爬蟲從一個(gè)或多個(gè) URL 開始,下載網(wǎng)頁(yè),根據(jù)一定的規(guī)則提取鏈接,并將其放入等待抓取的 URL 隊(duì)列。 提取 有效鏈接 從網(wǎng)頁(yè)中提取鏈接時(shí),會(huì)出現(xiàn)不同網(wǎng)頁(yè)中存在相同的鏈接,如果在此處不加判斷,會(huì)降低采集效率,那么在鏈接放入數(shù)據(jù)庫(kù)之前都會(huì)有是否是重復(fù)鏈接的判斷,在提取過(guò)程中發(fā)現(xiàn)一種情況,不同的鏈接指向同一個(gè)網(wǎng)頁(yè),降低采集效率,為避免這個(gè)情況,采集的鏈接在進(jìn)行下載等操作之前做 uri = URI。傳統(tǒng)網(wǎng)絡(luò)爬蟲的工作流程:網(wǎng)絡(luò)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開始,獲得初始網(wǎng)頁(yè)上的 URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的 URL 放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。 網(wǎng)頁(yè)的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。在目前為覆蓋盡可能多的網(wǎng)頁(yè),一般使用廣度優(yōu)先搜索方法,將廣度優(yōu)先搜索與網(wǎng)頁(yè)過(guò)濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁(yè),再將其中無(wú)關(guān)的網(wǎng)頁(yè)過(guò)濾掉。通常 , 被抽取出來(lái)的信息以結(jié)構(gòu)化的形式描述 , 可以直接存入數(shù)據(jù)庫(kù)中 , 供用戶查詢以及進(jìn)一步分析利用 。 Ruby on Rails Rails 程序是使用 Ruby 編寫的,它是一門現(xiàn)代,面向?qū)ο蟮哪_本語(yǔ)言。 Ruby on Rails 是一個(gè) Web 應(yīng)用程序框架,是一個(gè)相對(duì)較新的 Web 應(yīng)用程序框架,構(gòu)建在 Ruby 語(yǔ)言之上。在開始開發(fā)之前,整個(gè)應(yīng)用程序的骨架已經(jīng)搭好。 8 4 需求分析 需求分析是軟件定義時(shí)期的最后 一個(gè)階段,它的基本任務(wù)是準(zhǔn)確地回答“系統(tǒng)必須做什么”這個(gè)問(wèn)題。 系統(tǒng)用例圖 通 用 w e b 信 息 采 集 系 統(tǒng)系 統(tǒng) 管 理 員超 級(jí) 用 戶用 戶 管 理任 務(wù) 組 管 理任 務(wù) 管 理瀏 覽 其 他 用 戶 任 務(wù)普 通 用 戶 圖 系統(tǒng)用例圖 系統(tǒng)主要業(yè)務(wù)流程分析 系統(tǒng)總體流程圖,如圖 所示。 任務(wù)管理功能:與任務(wù)組管理相同,超級(jí)用戶和普通用戶都具有新建任務(wù)的功能,但是超級(jí)用戶不僅可以對(duì)自己的任務(wù)進(jìn)行管理,還能瀏覽其他用戶的的任務(wù),但是普通用戶只能操作自己創(chuàng)建的任務(wù),對(duì)其他用戶創(chuàng)建的任務(wù)無(wú)法管理,也無(wú)法瀏覽。修改用戶信息,同新建用戶的格式相同,可以在之前的用戶信息的基礎(chǔ)上對(duì)自己想要修改的信息進(jìn)行對(duì)應(yīng)的修改即可。如圖 所示。對(duì)于開發(fā)人員,如果對(duì)整個(gè)系統(tǒng)有了一個(gè)詳細(xì)的設(shè)計(jì)和清晰的功能劃分,對(duì)程序的開發(fā)及達(dá)到用戶的最終要求都有很大的幫助。在進(jìn)行用戶管理操作時(shí),有用戶類型的判斷,其 他類型用戶,不能執(zhí)行此項(xiàng)管理; (3) 任務(wù)組管理模塊:包括添加任務(wù)組、編輯任務(wù)組、刪除任務(wù)組、查詢?nèi)蝿?wù)組。普通用戶不具有瀏覽其他用戶任務(wù)的功能; (5) 網(wǎng)頁(yè)采集模塊:此模塊為本系統(tǒng)核心模塊,包括下載網(wǎng)頁(yè)、信息抽取。 B/S 模式最大的好處是運(yùn)行維護(hù)比較簡(jiǎn)便,能實(shí)現(xiàn)不同的人員,從不同的地點(diǎn),以不同的接入方式訪問(wèn)和操作共同的數(shù)據(jù);最大的缺點(diǎn)是對(duì)企業(yè)外網(wǎng)環(huán)境依賴性太強(qiáng),由于各種原因引起企業(yè)外網(wǎng)中斷都會(huì)造成系統(tǒng)癱瘓。 用戶表與任務(wù)表是一對(duì)多的關(guān)系,一個(gè)用戶可以創(chuàng)建多個(gè)任務(wù),一個(gè)任務(wù)只被一個(gè)用戶創(chuàng)建,只對(duì)應(yīng)一個(gè)用戶。 任務(wù)表與信息表之間也是一對(duì)多的關(guān)系,一個(gè)任務(wù)可以采集到多條信息,但是每條信息僅由一個(gè)任務(wù)下載而來(lái)。 所有允許為空的字段必須是基于用戶需求,而不是出于設(shè)計(jì)上方便的考慮。遷移成功后,數(shù)據(jù)庫(kù)中表就創(chuàng)建成功了,在開發(fā)前設(shè)計(jì)的數(shù)據(jù)表很難一次性設(shè)計(jì)完善,因?yàn)閿?shù)據(jù)遷移功能,在 rails 中這個(gè)問(wèn)題很好解決; (3) 數(shù)據(jù)庫(kù)中的表建立好之后,建立手腳架,自動(dòng)生成基本的增刪改查功能,在此基礎(chǔ)上,根據(jù)需求進(jìn)行修改,用戶管理模塊,任務(wù)管理模塊,任務(wù)組管理模塊都是這樣實(shí)現(xiàn)的。執(zhí)行命令 create database webget,此時(shí),數(shù)據(jù)庫(kù)創(chuàng)建成功。在文件夾中,由四個(gè) 子文件夾,即: controllers、 helpers、 models和 views。Views:存放生成 html 的所有模版文件,也可以存放 css、圖片; 21 (2) config 文件夾主要用于存放與服務(wù)器、數(shù)據(jù)庫(kù)或者其他文件夾或其他文件想依賴的配置文件; (3) db 文件夾主要用于存儲(chǔ)開發(fā)人員編寫的數(shù)據(jù)庫(kù)腳本; (4) doc 文件夾主要用于存儲(chǔ) rails 應(yīng)用的各種文檔; (5) lib 文件夾主 要用于存儲(chǔ)應(yīng)用程序運(yùn)行過(guò)程中所需要的類庫(kù)。例如圖片、 Javascript腳本程序和 CSS 樣式等; (8) script 文件夾主要用于存儲(chǔ) rails 的各種腳本。 通過(guò)執(zhí)行 ruby script/generate model User 創(chuàng)建用戶模型,創(chuàng)建之后會(huì)在 db/migrate中生成一個(gè)遷移腳本,在腳本中寫入設(shè)計(jì)好的屬性及其約束條件,如圖 。執(zhí)行語(yǔ)句 ruby script/generate scaffold User login:string password:string name:string string 就會(huì)生成手腳架,執(zhí)行之后,控制臺(tái)效果如圖 ,頁(yè)面效果如圖 。用戶管理模塊只有管理員登錄才能進(jìn)行操作。 圖 用戶列表圖 添加用戶。 26 圖 添加用戶圖 修改用戶信息。 27 圖 查詢用戶信息圖 刪除用戶信息。當(dāng)一個(gè)項(xiàng)目需要?jiǎng)?chuàng)建多個(gè)采集任務(wù)時(shí),為了方便管理可以創(chuàng)建一個(gè)任務(wù)組,任務(wù)組可以根據(jù)項(xiàng)目命名,在此任務(wù)組中創(chuàng)建相關(guān)采集任務(wù),方便管理,以免遺漏。 圖 任務(wù)組列表圖 新建任務(wù)組。 圖 修改任務(wù)組圖 查看用戶信息。 圖 刪除任務(wù)組圖 31 任務(wù)管理模塊 任務(wù)管理模塊分為新建任務(wù)、查看任務(wù)、修改任務(wù)、刪除任務(wù)、開始任務(wù)五部分。 任務(wù)管理列表。 32 圖 添加任務(wù)圖 修改任務(wù)信息。 33 圖 查詢?nèi)蝿?wù)組信息圖 刪除任務(wù)信息。 圖 采集任務(wù)展示圖 界面設(shè)計(jì) 對(duì)于每一個(gè)系統(tǒng)來(lái)說(shuō),后臺(tái)的功能實(shí)現(xiàn)固然是重要的,但如今網(wǎng)站頁(yè)面設(shè)計(jì)的美觀大方也會(huì)吸引很多的用戶,為其帶來(lái)效益。不能瀏覽其他用戶的任務(wù)和采集的數(shù)據(jù)信息。只能瀏覽其 36 他用戶的任務(wù)和采集的數(shù)據(jù)信息,對(duì)于任務(wù)組也有相同的操作,如圖 。 軟件測(cè)試的方法主要有兩種:白盒測(cè)試和黑盒測(cè)試。 黑盒測(cè)試法注重于測(cè)試軟件的功能需求,主要試圖發(fā)現(xiàn)下列幾類錯(cuò)誤。 白盒測(cè)試法的前提是完全了解程序的結(jié)構(gòu)和處理過(guò)程,這種方法按照程序的內(nèi)部邏輯測(cè)試程序,檢驗(yàn)程序中的每條通路是否都能夠按照預(yù)定要求正確工作,所以白盒測(cè)試又稱為結(jié)構(gòu)測(cè)試。 實(shí)例測(cè)試 表 是 測(cè)試內(nèi)容與結(jié)果 編號(hào) 測(cè)試內(nèi)容 預(yù)期結(jié)果 實(shí)際結(jié)果 是否符合 1 用戶登錄功能 輸入正確的用戶名和密碼可以成功登錄到管理員界面,錯(cuò)誤的用戶名和密碼重新輸入。 是 3 修改用戶信息功能 進(jìn)入修改頁(yè)面后,僅修改想要修改的信息項(xiàng)即可。 是 4 刪除用戶信息功能 在刪除某個(gè)用戶,會(huì)提示是否確認(rèn)刪除,如確認(rèn),則用戶列表及數(shù)據(jù)庫(kù)中將刪除此人信息,若不確認(rèn),則不做任何操作,避免誤刪用戶信息。 是 6 任務(wù)采集功能 點(diǎn)擊開始采集后,跳轉(zhuǎn)到采集信息頁(yè)面,頁(yè)面中有采集的鏈接的展示區(qū),采集的信息及鏈接準(zhǔn)確的保存到數(shù)據(jù)庫(kù)中。 是 8 退出系統(tǒng)功能 點(diǎn)擊所有車次按鈕后,即可顯示所有列車信息。 是 10 界面風(fēng)格 頁(yè)面的頂 部底部和導(dǎo)航是不變的,主頁(yè)面隨著導(dǎo)航選擇不同,做不同的響應(yīng),顯示不同的頁(yè)面。 是 11 分頁(yè)顯示 分頁(yè)信息都可以正常顯示。而所要達(dá)到的基本設(shè)計(jì)目標(biāo)也都已經(jīng)實(shí)現(xiàn)了。 41 參考文獻(xiàn) [1] 許勇 .王黎 .張麗莉 .Ruby on Rail 程序設(shè)計(jì)技術(shù)詳解 .清華大學(xué)出版社 [2] 陳松喬 .任勝兵 .王國(guó)軍 .現(xiàn)代軟件工程 .清華大學(xué)出版社 [3] 王珊 .薩師煊 .高等數(shù)據(jù)庫(kù)系統(tǒng)概論 .高等教育出版社 [4] 李保利 .陳玉忠 .俞士汶 .信息抽取研究綜述 , 計(jì)算機(jī)工程與應(yīng)用 [5] 張成洪 .古曉洪 .白延紅 .Web 數(shù)據(jù)抽取技術(shù)研究進(jìn)展 .計(jì)算機(jī)科學(xué)
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1