freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

通用web信息采集系統(tǒng)論文-文庫吧資料

2024-11-13 15:23本頁面
  

【正文】 ER 圖 ER 圖實體間關(guān)系說明:通用 web 信息采集系統(tǒng)主要分為用戶、任 務(wù)、任務(wù)組、角色四大實體。 B/S 模式的優(yōu)點和缺點:具有分布性特點,可以隨時隨地進行查詢、瀏覽等業(yè)務(wù)處理;業(yè)務(wù)擴展簡單方便, 通過增加網(wǎng)頁即可增加服務(wù)器功能;維護簡單方便,只需要改變網(wǎng)頁,即可實現(xiàn)所有用戶的同步更新;開發(fā)簡單,共享性強。它是隨著 Inter技術(shù)的興起,對 C/S 模式應(yīng)用的擴展,在這種結(jié)構(gòu)下,用戶工作界面是通過 IE 瀏覽器來實現(xiàn)的。下載網(wǎng)頁提取符合訪問條件且之前沒有提取過的鏈接, 提取符合提取規(guī)則的信息。同任務(wù)管理模塊一樣,超級用戶不僅能管理自己的任務(wù),還能瀏覽其他用戶的任務(wù)。不同用戶在此功能模塊的權(quán)限不同,超級用戶不僅能管理自己的任務(wù)組,還能瀏覽其他用戶的任務(wù)。 通 用 w e b 信 息 采 集 系 統(tǒng)用 戶 登 錄用 戶 管 理任 務(wù) 管 理 任 務(wù) 組 管 理登錄驗證添加用戶修改用戶刪除用戶查詢用戶信息添加任務(wù)修改任務(wù)刪除任務(wù)查詢?nèi)蝿?wù)信息任務(wù)采集刪除任務(wù)組修改任務(wù)組添加任務(wù)組查詢?nèi)蝿?wù)組信息網(wǎng) 頁 采 集網(wǎng)頁下載信息抽取 圖 功能模塊圖 14 (1) 登錄模塊:在進行登錄驗證的過程中,根據(jù)用戶表中的角色外鍵判斷用戶類型,用戶類型包括三個角色系統(tǒng)管理員、超級用戶員和普通用戶,不同用戶登錄調(diào)轉(zhuǎn)不同的管理界面; (2) 用戶管理模塊:系統(tǒng)管理員登錄后,能夠管理用戶的信息,用戶管理功能包括添加用戶、編輯用戶、刪除用戶、查詢用戶信息。 設(shè)計實現(xiàn)的策略 通 用 web 信息采集系統(tǒng)采用模塊化程序設(shè)計,主要分為登錄驗證功能、用戶管理功能、任務(wù)組管理功能和任務(wù)管理功能四大功能。進行系統(tǒng)設(shè)計,將整個系統(tǒng)分成若干模塊,盡量使各個模塊之間獨立,減少冗余。 11 開 始輸 入 用 戶名 和 密 碼驗 證 信 息進 入 界 面 操 作顯 示 結(jié) 果結(jié) 束NY 圖 用戶登錄流程圖 12 任務(wù)采集流程圖 開 始按 行 讀 取起 始 地 址 列 表存 入 數(shù) 據(jù) 庫 表 中取 出 一 個 鏈 接是 否 取 到是 否 超 出遞 歸 深 度下 載 網(wǎng) 頁取 出 鏈 接是 否 符合 規(guī) 則是 否 重 復(fù)結(jié) 束YNYNYNYN 圖 任務(wù)采集流程圖 13 5 系統(tǒng)設(shè)計 在系統(tǒng)設(shè)計部分會設(shè)計出系統(tǒng)的功能模塊圖,即本次題目所要完成的總體功能目標(biāo)。若驗證成功將登錄到管理員界面,可進行相關(guān)操作。刪除用戶信息,若要刪除此條用戶的信息記錄,即可使用此功能,再刪除時會有一個確認(rèn)提醒,避免誤刪。查詢用戶信息,管理員可通過此功能,查詢用戶的全部信息。 用戶管理功能:系統(tǒng)管理員可以對用戶的信息進行管理,包括用戶的添加、修改、刪除,用戶信息包括:登錄名稱、密碼、昵稱、郵箱、用戶類型。若驗證不成功,則跳回登錄頁面,重新輸入登錄信息 任務(wù)組管理功能:超級用戶和普通用戶都具有新建任務(wù)組的功能,但是超級用戶不僅可以對自己的任務(wù)組進行管理,還能瀏覽其他用戶的的任務(wù)組,但是普通用戶只能操作自己創(chuàng)建的任務(wù)組,對其他用戶創(chuàng)建的任務(wù) 無法管理,也無法瀏覽。 9 開 始進 入 系 統(tǒng) 頁 面用 戶 登錄 驗 證普 通 用 戶Y結(jié) 束YN提 示 錯 誤重 新 登 錄系 統(tǒng) 管 理 員超 級 用 戶進 入 系 統(tǒng) 頁 面用 戶 管 理執(zhí) 行 修 改 個 人 任 務(wù)瀏 覽 其 他 用 戶 任 務(wù)顯 示 普 通 用 戶操 作 界 面顯 示 超 級 用 戶操 作 界 面顯 示 管 理 員操 作 界 面執(zhí) 行 或 修 改負(fù) 責(zé) 的 任 務(wù)NNYY輸 入 用 戶名 和 密 碼N 圖 系統(tǒng)流程圖 功能需求分析 功能介紹 系統(tǒng)分為登錄功能、任務(wù)組管理功能、任務(wù)管理功能、用戶管理功能。它是軟件實現(xiàn)的基礎(chǔ)。需求分析所要做的工作是深入描述軟件的功能和性能,確定軟件設(shè)計的限制和軟件同其它系統(tǒng)元素的接口細(xì)節(jié),定義軟件的其它有效性需求。 rails 的這個特點可以使開發(fā)人員更專注于系統(tǒng)的邏輯結(jié)構(gòu),而不必為一些瑣碎的細(xì)節(jié)所煩擾。 ruby on rails 使用的實時映射技術(shù)和元編程技術(shù),免去了開發(fā)人員在開發(fā)過程中編寫大量樣板文件代碼的煩惱。當(dāng)你使用 Rails 進行開發(fā),應(yīng)用程序的所有代碼以一種標(biāo)準(zhǔn)方式互相作用。它被宣傳為現(xiàn)有企業(yè)框架的一個替代,而它的目標(biāo),簡而言之,就是讓生活,至少是 Web 開發(fā)方面的生活,變得更輕 松。讓你的程序能很簡單被編寫并且在幾個月后還能很容易讀懂。 Ruby簡潔,不難理解。許多程序設(shè)計語言都支持正則表達(dá)式 ,這其中也包括 ruby 語言,正是正則表達(dá)式的種種優(yōu)點讓它在開發(fā)人員中很 受歡迎,在本系統(tǒng)中訪問規(guī)則、提取規(guī)則就是用正則表達(dá)式限制的。 在計算機科學(xué)中 , 是指一個用來描述或者匹配一系列符合某個句法規(guī)則的字符串的單個字符串。 信息 抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實信息。本系統(tǒng)中采用的就是這種抓取策略。該算法的設(shè)計和實現(xiàn)相對簡單。在系統(tǒng)開發(fā)過程中使用廣度優(yōu)先搜索策略。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引 ,以便之后的查詢和檢索。本系統(tǒng)開發(fā)的網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的 URL 開始,下載網(wǎng)頁,根據(jù)一定的規(guī)則提取鏈接,并將其放入等待抓取的 URL 隊列。它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。 parse(url)這樣的操作,提取 url的有效部分。用 dirty 標(biāo)識此鏈接是否已被訪問過,如果被訪問過標(biāo)識 true,在下次提取鏈接時就會跳過此條鏈接,反之沒被訪問的標(biāo)識為 false。然后,它將根據(jù)廣度優(yōu)先的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁 URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時停止。以下是該系統(tǒng)開發(fā)中遇到的關(guān)鍵問題及實現(xiàn)方法。 5 3 關(guān)鍵問題及分析 關(guān)鍵問題 本系統(tǒng)基于 ruby 語言開發(fā),采用 Ruby on Rails 技術(shù)開發(fā)界面。實現(xiàn)自動的從海量數(shù)據(jù)中提取出有效的信息,提高采集效率、降低存儲空間。對于常用結(jié)構(gòu),如時間、日期,系統(tǒng)已為用戶編輯好。 從功能來看,分為任務(wù)配置,任務(wù)采集,信息提取,導(dǎo)入導(dǎo)出任務(wù),定時采集,支持代理服務(wù)器,可控制任務(wù)采集進度。 Wget 功能及特點 支持?jǐn)帱c下傳功能;因為有這個功能,可避免因為網(wǎng)絡(luò)不好而造成的中斷,用戶可放心使用;同時支持 FTP 和 HTTP 下載方式;盡管現(xiàn)在大部分軟件可以使用HTTP 方式下載,但是,有些時候,仍然需要使用 FTP 方式下載軟件;支持代理服務(wù)器;對安全強度很高的系統(tǒng)而言,一般不會將自己的系統(tǒng)直接暴露在互聯(lián)網(wǎng)上,所以,支持代理是下載軟件必須有的功能;程序小,完全免費;配置信息由命令行輸入;慣圖形界面的用戶已經(jīng)不是太習(xí)慣命令行了。其中包括 wget、侵略者 web 信息采集系統(tǒng)、軍犬采集系統(tǒng)及客戶端采集軟件網(wǎng)絡(luò)信息采集專家。 通用 web信息采集系統(tǒng)能讓用戶能夠快速的從互聯(lián)網(wǎng)復(fù)雜繁多的信息中提取出有效的結(jié)構(gòu)化的信息,方便用戶的進一步利用,操作過程中用戶根據(jù)自己的需求填寫采集任務(wù)的配置信息,點擊開始采集按鈕,系統(tǒng)自動采集,采集速度快,節(jié)省人力。 較高要求: Cookies 的網(wǎng)站進行采集; Post 方式發(fā)送請求的網(wǎng)站進行采集; “正則表達(dá)式”或“ XPath”描述采集、提取規(guī)則。 開發(fā)語言: Java/PHP/Ruby/Python 不限。 系統(tǒng)配置: Windows 2020/XP。 論文的目的及設(shè)計要求 論文目的及設(shè)計要求 Web 可謂是一個巨大的資源寶庫,里面擁有大量的有價值信息,如潛在客戶的列表與聯(lián)系信息、競爭產(chǎn)品的價格列表、實時金融新聞、供求信息、論文摘要等等。 如何查找用戶需要的、特定范圍的信息成為一個迫切的問題,為了解決這個問題,研究人員設(shè)計了很多算法和程序?qū)?web 進行索引,包括垂直搜索引擎,網(wǎng)絡(luò)蜘蛛等, 垂直搜索專注于特定的搜索領(lǐng)域和搜索需求 , 例如:機票搜索、旅游搜索、生活搜索、小說搜索,在其特定的搜索領(lǐng)域有更好的 用戶體驗 。 1 1 引言 項目背景 互聯(lián)網(wǎng)是一個信息量持續(xù)增長的信息庫, 2020 年 1 月 19 日, CNNIC 發(fā)布了第27 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告, 2020 年網(wǎng)頁數(shù)量達(dá)到 600 億個,年增長率%, 自 2020 年開始,中國的網(wǎng)頁規(guī)?;颈3址鲩L 。但由于關(guān)鍵信息多以半結(jié)構(gòu)化或自由文本形式存在于復(fù)雜的 HTML 網(wǎng)頁中,很難直接加以利用,網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)的主要目標(biāo)就是解決較普遍的網(wǎng)絡(luò)信息采集問題,規(guī)范由采集到應(yīng)用的基本流程,實現(xiàn)采集工作的流程化和自動化。 Information Management。該系統(tǒng)用戶根據(jù)需求填寫采集任務(wù)的配置信息,網(wǎng)絡(luò)爬蟲則根據(jù)配置信息中的訪問規(guī)則、提取規(guī)則,自動地、有效地下載網(wǎng)頁提取信息。 該系統(tǒng)中開發(fā)的網(wǎng)絡(luò)爬蟲就是一個定向采集器,針對網(wǎng)頁定向采集和保存采集信息的兩大問題而提出的。 職場大變樣社區(qū)( ):下載畢業(yè)設(shè)計成品 全套資料,全部 50 元以下 通用 web 信息采集系統(tǒng) I 摘 要 互聯(lián)網(wǎng)是個存儲量巨大的數(shù)據(jù)庫,隨著時間的增長,信息量不斷增多,這使得人工采集互聯(lián)網(wǎng)信息已不能實現(xiàn)。網(wǎng)絡(luò)爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序,通過網(wǎng)絡(luò)爬蟲不僅能夠為搜索引擎采集網(wǎng)絡(luò)信息,而且可以作為定向信 息采集器,定向采集某些網(wǎng)站下的特定信息。首先明確了通用 web 信息采集的主要功能和核心流程,在此基礎(chǔ)上,應(yīng)用 Ruby on Rails 的 MVC 模型,對用戶管理、任務(wù)管理、任務(wù)組管理進行了設(shè)計,其中任務(wù)管理模塊是本系統(tǒng)的核心模塊,包括對采集任務(wù)的配置,管理和采集。 關(guān)鍵詞 :信息采集 ;信息管理; Ruby on Rails II Abstract The inter is a database which stores large of information. With the increase of information, the methods for manually acquiring information required for the user cannot achieve. Spider is a program which can auto collect information from inter. Spider can collect data for search engines, also can be a directional information collector, collect specifical information from some web sites. The system is a directional information collector,which mainly collects and stores information for the web. Firstly,the main functions and core processes of the system are definited. On this basis, design user management, task management, task management with the application of Ruby on Rails, MVC model. The task management module is the core of the system modules, including the acquisition task configuration, management and acquisition. The user fills the tas
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1