freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

通用web信息采集系統(tǒng)論文(編輯修改稿)

2024-12-11 15:23 本頁面
 

【文章內(nèi)容簡介】 統(tǒng)的某一條件時停止。 具體實現(xiàn)流程:將起始地址列表按行讀取存入存儲 url 的 pages 表中,在未超過等待 時間限制的控制條件下,循環(huán)從表中取出一組 url 和 depth,判斷一下是否取到鏈接,如果沒有取到鏈接,直接退出,如果取到了鏈接,那么判斷是否超出遞歸深度,如果超出遞歸深度,則停止此次循環(huán),進入下一次循環(huán),如果沒有超出遞歸深度,則下載網(wǎng)頁,提取網(wǎng)頁中的鏈接,判斷鏈接,如果鏈接既符合訪問規(guī)則又不重復,則按規(guī)則提取信息,將鏈接和信息加入 pages 表中,原鏈接深度基礎(chǔ)上加 1 填進表中。用 dirty 標識此鏈接是否已被訪問過,如果被訪問過標識 true,在下次提取鏈接時就會跳過此條鏈接,反之沒被訪問的標識為 false。 提取 有效鏈接 從網(wǎng)頁中提取鏈接時,會出現(xiàn)不同網(wǎng)頁中存在相同的鏈接,如果在此處不加判斷,會降低采集效率,那么在鏈接放入數(shù)據(jù)庫之前都會有是否是重復鏈接的判斷,在提取過程中發(fā)現(xiàn)一種情況,不同的鏈接指向同一個網(wǎng)頁,降低采集效率,為避免這個情況,采集的鏈接在進行下載等操作之前做 uri = URI。 parse(url)這樣的操作,提取 url的有效部分。 6 關(guān)鍵技術(shù)及復雜性分析 網(wǎng)絡(luò)爬蟲 網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)網(wǎng)絡(luò)爬蟲的工作流程:網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的 URL 開始,獲得初始網(wǎng)頁上的 URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的 URL 放入隊列,直到滿足系統(tǒng)的一定停止條件。本系統(tǒng)開發(fā)的網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的 URL 開始,下載網(wǎng)頁,根據(jù)一定的規(guī)則提取鏈接,并將其放入等待抓取的 URL 隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁 URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引 ,以便之后的查詢和檢索。 網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。在系統(tǒng)開發(fā)過程中使用廣度優(yōu)先搜索策略。廣度優(yōu)先搜索策略是指在抓取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法,將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。本系統(tǒng)中采用的就是這種抓取策略。 信息抽取就是把文本里邊包含的某些特定的信息提取出來 , 進行結(jié)構(gòu)化處理 ,變成表格一樣的組織形式 。 信息 抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實信息。通常 , 被抽取出來的信息以結(jié)構(gòu)化的形式描述 , 可以直接存入數(shù)據(jù)庫中 , 供用戶查詢以及進一步分析利用 。 在計算機科學中 , 是指一個用來描述或者匹配一系列符合某個句法規(guī)則的字符串的單個字符串。在很多文本編輯器或其他工具里 , 正則表達式通常被用來檢索和或替換那些符合某個模式的文本內(nèi)容 ,正則表達式 能夠匹配不定長的字符集,這是 7 其它能作用在字符串上的方法所不能做到的。許多程序設(shè)計語言都支持正則表達式 ,這其中也包括 ruby 語言,正是正則表達式的種種優(yōu)點讓它在開發(fā)人員中很 受歡迎,在本系統(tǒng)中訪問規(guī)則、提取規(guī)則就是用正則表達式限制的。 Ruby on Rails Rails 程序是使用 Ruby 編寫的,它是一門現(xiàn)代,面向?qū)ο蟮哪_本語言。 Ruby簡潔,不難理解。它可以讓你快速地用代碼自然,清晰表達想法。讓你的程序能很簡單被編寫并且在幾個月后還能很容易讀懂。 Ruby on Rails 是一個 Web 應用程序框架,是一個相對較新的 Web 應用程序框架,構(gòu)建在 Ruby 語言之上。它被宣傳為現(xiàn)有企業(yè)框架的一個替代,而它的目標,簡而言之,就是讓生活,至少是 Web 開發(fā)方面的生活,變得更輕 松。 Rails 是一個 MVC 框架。當你使用 Rails 進行開發(fā),應用程序的所有代碼以一種標準方式互相作用。在開始開發(fā)之前,整個應用程序的骨架已經(jīng)搭好。 ruby on rails 使用的實時映射技術(shù)和元編程技術(shù),免去了開發(fā)人員在開發(fā)過程中編寫大量樣板文件代碼的煩惱。在少數(shù)需要使用樣板文件代碼的時候,開發(fā)人員可以通過ruby on rails 內(nèi)建的生成器腳本實時創(chuàng)建,而不再是通過手工編寫。 rails 的這個特點可以使開發(fā)人員更專注于系統(tǒng)的邏輯結(jié)構(gòu),而不必為一些瑣碎的細節(jié)所煩擾。 8 4 需求分析 需求分析是軟件定義時期的最后 一個階段,它的基本任務(wù)是準確地回答“系統(tǒng)必須做什么”這個問題。需求分析所要做的工作是深入描述軟件的功能和性能,確定軟件設(shè)計的限制和軟件同其它系統(tǒng)元素的接口細節(jié),定義軟件的其它有效性需求。通常軟件開發(fā)項目是要實現(xiàn)目標系統(tǒng)的物理模型,即確定待開發(fā)軟件系統(tǒng)的系統(tǒng)元素,并將功能和數(shù)據(jù)結(jié)構(gòu)分配到這些系統(tǒng)元素中。它是軟件實現(xiàn)的基礎(chǔ)。 系統(tǒng)用例圖 通 用 w e b 信 息 采 集 系 統(tǒng)系 統(tǒng) 管 理 員超 級 用 戶用 戶 管 理任 務(wù) 組 管 理任 務(wù) 管 理瀏 覽 其 他 用 戶 任 務(wù)普 通 用 戶 圖 系統(tǒng)用例圖 系統(tǒng)主要業(yè)務(wù)流程分析 系統(tǒng)總體流程圖,如圖 所示。 9 開 始進 入 系 統(tǒng) 頁 面用 戶 登錄 驗 證普 通 用 戶Y結(jié) 束YN提 示 錯 誤重 新 登 錄系 統(tǒng) 管 理 員超 級 用 戶進 入 系 統(tǒng) 頁 面用 戶 管 理執(zhí) 行 修 改 個 人 任 務(wù)瀏 覽 其 他 用 戶 任 務(wù)顯 示 普 通 用 戶操 作 界 面顯 示 超 級 用 戶操 作 界 面顯 示 管 理 員操 作 界 面執(zhí) 行 或 修 改負 責 的 任 務(wù)NNYY輸 入 用 戶名 和 密 碼N 圖 系統(tǒng)流程圖 功能需求分析 功能介紹 系統(tǒng)分為登錄功能、任務(wù)組管理功能、任務(wù)管理功能、用戶管理功能。 10 登錄功能:在本系統(tǒng)只有登錄用戶才能訪問,登錄時,系統(tǒng)根據(jù)賬號區(qū)分用戶類型,不同用戶登錄后界面不同,當用戶輸入用戶名和密碼經(jīng)過系統(tǒng)驗證成功后,用戶即可進入對應的頁面。若驗證不成功,則跳回登錄頁面,重新輸入登錄信息 任務(wù)組管理功能:超級用戶和普通用戶都具有新建任務(wù)組的功能,但是超級用戶不僅可以對自己的任務(wù)組進行管理,還能瀏覽其他用戶的的任務(wù)組,但是普通用戶只能操作自己創(chuàng)建的任務(wù)組,對其他用戶創(chuàng)建的任務(wù) 無法管理,也無法瀏覽。 任務(wù)管理功能:與任務(wù)組管理相同,超級用戶和普通用戶都具有新建任務(wù)的功能,但是超級用戶不僅可以對自己的任務(wù)進行管理,還能瀏覽其他用戶的的任務(wù),但是普通用戶只能操作自己創(chuàng)建的任務(wù),對其他用戶創(chuàng)建的任務(wù)無法管理,也無法瀏覽。 用戶管理功能:系統(tǒng)管理員可以對用戶的信息進行管理,包括用戶的添加、修改、刪除,用戶信息包括:登錄名稱、密碼、昵稱、郵箱、用戶類型。添加新用戶,管理員創(chuàng)建新用戶時需要對用戶部分信息有限制,例如登錄名稱是唯一的輸入密碼之后需要再次確認密碼只有倆次輸入相同才能創(chuàng)建,對于郵箱 要符合郵箱的規(guī)則。查詢用戶信息,管理員可通過此功能,查詢用戶的全部信息。修改用戶信息,同新建用戶的格式相同,可以在之前的用戶信息的基礎(chǔ)上對自己想要修改的信息進行對應的修改即可。刪除用戶信息,若要刪除此條用戶的信息記錄,即可使用此功能,再刪除時會有一個確認提醒,避免誤刪。 登錄流程圖 管理員輸入用戶名和密碼后,系統(tǒng)將對用戶名和密碼進行驗證是否正確,若不正確,系統(tǒng)將提示管理員用戶名和密碼不存在重新輸入。若驗證成功將登錄到管理員界面,可進行相關(guān)操作。如圖 所示。 11 開 始輸 入 用 戶名 和 密 碼驗 證 信 息進 入 界 面 操 作顯 示 結(jié) 果結(jié) 束NY 圖 用戶登錄流程圖 12 任務(wù)采集流程圖 開 始按 行 讀 取起 始 地 址 列 表存 入 數(shù) 據(jù) 庫 表 中取 出 一 個 鏈 接是 否 取 到是 否 超 出遞 歸 深 度下 載 網(wǎng) 頁取 出 鏈 接是 否 符合 規(guī) 則是 否 重 復結(jié) 束YNYNYNYN 圖 任務(wù)采集流程圖 13 5 系統(tǒng)設(shè)計 在系統(tǒng)設(shè)計部分會設(shè)計出系統(tǒng)的功能模塊圖,即本次題目所要完成的總體功能目標。通過這樣的一個功能模塊圖可以清楚的解釋題目的內(nèi)在含義,并且對具體要完成什么樣的任務(wù)給出一個清晰的思路。進行系統(tǒng)設(shè)計,將整個系統(tǒng)分成若干模塊,盡量使各個模塊之間獨立,減少冗余。對于開發(fā)人員,如果對整個系統(tǒng)有了一個詳細的設(shè)計和清晰的功能劃分,對程序的開發(fā)及達到用戶的最終要求都有很大的幫助。 設(shè)計實現(xiàn)的策略 通 用 web 信息采集系統(tǒng)采用模塊化程序設(shè)計,主要分為登錄驗證功能、用戶管理功能、任務(wù)組管理功能和任務(wù)管理功能四大功能。如圖 。 通 用 w e b 信 息 采 集 系 統(tǒng)用 戶 登 錄用 戶 管 理任 務(wù) 管 理 任 務(wù) 組 管 理登錄驗證添加用戶修改用戶刪除用戶查詢用戶信息添加任務(wù)修改任務(wù)刪除任務(wù)查詢?nèi)蝿?wù)信息任務(wù)采集刪除任務(wù)組修改任務(wù)組添加任務(wù)組查詢?nèi)蝿?wù)組信息網(wǎng) 頁 采 集網(wǎng)頁下載信息抽取 圖 功能模塊圖 14 (1) 登錄模塊:在進行登錄驗證的過程中,根據(jù)用戶表中的角色外鍵判斷用戶類型,用戶類型包括三個角色系統(tǒng)管理員、超級用戶員和普通用戶,不同用戶登錄調(diào)轉(zhuǎn)不同的管理界面; (2) 用戶管理模塊:系統(tǒng)管理員登錄后,能夠管理用戶的信息,用戶管理功能包括添加用戶、編輯用戶、刪除用戶、查詢用戶信息。在進行用戶管理操作時,有用戶類型的判斷,其 他類型用戶,不能執(zhí)行此項管理; (3) 任務(wù)組管理模塊:包括添加任務(wù)組、編輯任務(wù)組、刪除任務(wù)組、查詢?nèi)蝿?wù)組。不同用戶在此功能模塊的權(quán)限不同,超級用戶不僅能管理自己的任務(wù)組,還能瀏覽其他用戶的任務(wù)。普通用戶不具有瀏覽其他用戶任務(wù)組的功能; (4) 任務(wù)管理模塊:包括添加任務(wù)、編輯任務(wù)、刪除任務(wù)、開始任務(wù)。同任務(wù)管理模塊一樣,超級用戶不僅能管理自己的任務(wù),還能瀏覽其他用戶的任務(wù)。普通用戶不具有瀏覽其他用戶任務(wù)的功能; (5) 網(wǎng)頁采集模塊:此模塊為本系統(tǒng)核心模塊,包括下載網(wǎng)頁、信息抽取。下載網(wǎng)頁提取符合訪問條件且之前沒有提取過的鏈接, 提取符合提取規(guī)則的信息。 編程模型 B/S( Browser/Server,瀏覽器 /服務(wù)器)模式又稱 B/S 結(jié)構(gòu)。它是隨著 Inter技術(shù)的興起,對 C/S 模式應用的擴展,在這種結(jié)構(gòu)下,用戶工作界面是通過 IE 瀏覽器來實現(xiàn)的。 B/S 模式最大的好處是運行維護比較簡便,能實現(xiàn)不同的人員,從不同的地點,以不同的接入方式訪問和操作共同的數(shù)據(jù);最大的缺點是對企業(yè)外網(wǎng)環(huán)境依賴性太強,由于各種原因引起企業(yè)外網(wǎng)中斷都會造成系統(tǒng)癱瘓。 B/S 模式的優(yōu)點和缺點:具有分布性特點,可以隨時隨地進行查詢、瀏覽等業(yè)務(wù)處理;業(yè)務(wù)擴展簡單方便, 通過增加網(wǎng)頁即可增加服務(wù)器功能;維護簡單方便,只需要改變網(wǎng)頁,即可實現(xiàn)所有用戶的同步更新;開發(fā)簡單,共享性強。 B/S 模式的缺點:個性化特點明顯降低,無法實現(xiàn)具有個性化的功能要求;操作是以鼠標為最基本的操作方式,無法滿足快速操作的要求;頁面動態(tài)刷新,響應速度明顯降低;無法實現(xiàn)分頁顯示,給數(shù)據(jù)庫訪問造成較大的壓力;功能弱化,難以實現(xiàn)傳統(tǒng)模式下的特殊功能要求。 15 數(shù)據(jù)模型分析 任 務(wù)描 述更 新 時 間用 戶登 錄 名 稱深 度任 務(wù) 名 稱起 始 地址 列 表訪 問 規(guī) 則 等 待 時 間提 取 規(guī) 則創(chuàng) 建N密 碼 昵 稱 郵 箱 創(chuàng) 建 時 間 更 新 時 間 用 戶 類 型更 新 時 間創(chuàng) 建 時 間所 屬 組1任 務(wù) 組屬 于 1N創(chuàng) 建 者創(chuàng) 建 時 間任 務(wù) 組名 稱創(chuàng) 建 者創(chuàng) 建1N屬 于角 色角 色 類 型 創(chuàng) 建 時 間 修 改 時 間N1采 集1N信 息U R L 信
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1