freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺網(wǎng)絡(luò)爬蟲與信息處理-文庫吧

2025-06-09 22:09 本頁面


【正文】 傻瓜式的獲取全網(wǎng)更多賽事資源,整合成為本系統(tǒng)的資訊,賽事資源豐富,更受用戶青睞;用戶管理、論壇管理等等,系統(tǒng)地、有條理地管理前臺信息,讓系統(tǒng)健全運行。通過前后臺的整合,統(tǒng)一,協(xié)調(diào)地完成此次系統(tǒng)開發(fā)出分門別類的、整整有序的、及時全面的賽事網(wǎng)站平臺系統(tǒng)開發(fā)能為在校的大學生提供最為全面、優(yōu)質(zhì)的賽事信息,為提高中國大學生的身心素質(zhì)做出貢獻。主要表現(xiàn)在(1)有利于大學生正確認識自己,對自身成長產(chǎn)生緊迫感。通過廣泛的社會比賽,能讓學生看到自己和市場需求之間的差距,看到自身知識和能力上存在的不足,比較客觀地去重新認識、評價自我,逐漸擺正個人與社會、個人與人民群眾的位置。(2)有利于大學生對理論知識的轉(zhuǎn)化和拓展,增強運用知識解決實際問題的能力。大學生以課堂學習為主要接受方式,這對大學生來說非常重要,但這些理論知識并不代表大學生的實際技能,往往難以直接運用于現(xiàn)實生活之中。比賽的方式使大學生接近社會,獲得大量的感性認識和許多有價值的新知識,同時使他們能夠把自己所學的理論知識與接觸的實際現(xiàn)象進行對照、比較,把抽象的理論知識逐漸轉(zhuǎn)化為認識和解決實際問題的能力。(3)有利于發(fā)展大學生的組織協(xié)調(diào)能力和創(chuàng)新意識。各種種類繁多的比賽沒有課堂教學太多的束縛和校園生活的限制,學生們的積極性被充分調(diào)動起來,興趣高漲,思維也空前的活躍起來,往往會產(chǎn)生一些創(chuàng)造性火花,在實踐中勇于開拓、敢于創(chuàng)新。(4)有利于提高大學生個人素養(yǎng),完善個性品質(zhì)。在比賽中的困難和危險面前,要求大學生們具有一定的犧牲精神和堅強的品質(zhì)。賽事活動多了,并且能深入下去,大學生在積極參與的過程中,就會逐漸養(yǎng)成堅韌、頑強的優(yōu)良品性,養(yǎng)成務實的學習態(tài)度和生活作風,不斷提高自己、完善自己。 本文的組織論文正文包括四章:引言、系統(tǒng)相關(guān)技術(shù)、比賽信息集成系統(tǒng)的分析與設(shè)計、系統(tǒng)模塊的設(shè)計與實現(xiàn)。第 1 章為緒論,分為 3 節(jié),主要介紹系統(tǒng)的開發(fā)背景、系統(tǒng)的開發(fā)目標及研究內(nèi)容及本文的組織。第 2 章為系統(tǒng)相關(guān)技術(shù),分為 2 節(jié),主要介紹系統(tǒng)相關(guān)技術(shù):爬蟲技術(shù)功能、頁面解析的功能、以及信息篩選及錄入的功能等的前提下進行介紹的,運第 1 章 引言3用了 heritrix、htmlparser、java io、java 技術(shù)等實現(xiàn)。第 3 章為比賽信息集成系統(tǒng)的分析與設(shè)計,分 4 節(jié),包括系統(tǒng)模塊設(shè)計,功能需求,數(shù)據(jù)需求,數(shù)據(jù)庫設(shè)計。第 4 章為個人模塊設(shè)計與實現(xiàn),分 4 節(jié),包括比賽信息系統(tǒng)的爬蟲模塊、頁面解析文本信息入庫模塊,以及信息篩選上傳、信息查看刪除的模塊的設(shè)計。第 2 章 相關(guān)技術(shù)簡介4第 2 章 相關(guān)技術(shù)簡介 系統(tǒng)開發(fā)平臺及開發(fā)工具硬件環(huán)境: 個人 PC、電網(wǎng)、電信網(wǎng)絡(luò)等。軟 件 環(huán) 境 : MyEclipse 、Apache、Tomcat 。相關(guān)技術(shù): Html+div+css+javascript。爬蟲 heritrix;頁面解析技術(shù):htmlparser;數(shù)據(jù)庫 sql;struts2 模式。相 關(guān) 工 具 : Microsoft SQL Server 202Macromedia dreamweaver My Eclipse 。 工具和編程語言在比賽信息集成系統(tǒng)中,運用了 java+sql+heritrix+htmlparser 等技術(shù)。其中后臺主要運用了 heritrix 爬蟲技術(shù)。首先,Heritrix [1]是一個純由 Java 開發(fā)的、開源的 Web 網(wǎng)絡(luò)爬蟲,用戶可以使用它從網(wǎng)絡(luò)上抓取想要的資源。它來自于 。Heritrix最出色之處在于它的可擴展性,開發(fā)者可以擴展它的各個組件,來實現(xiàn)個性的抓取邏輯,比賽信息系統(tǒng)利用它實現(xiàn)更多賽事信息的全網(wǎng)爬取,取得更多的大學生賽事資源。其次,Java [2] [3]語言是一種功能強大的編程語言,負責 heritrix 應用的業(yè)務邏輯的實現(xiàn)和對應用程序進行控制。再次,Htmlparser 是一個純的 java 寫的 html(標準通用標記語言下的一個應用)解析的庫,它不依賴于其它的 java 庫文件,主要用于改造或提取html。它能超高速解析 html,而且不會出錯。就其他解析工具來說,htmlparser 就是目前最好的 html 解析和分析的工具。因此,從 heritrix 爬取 頁面通過 htmlparser 文件,為賽事信息的篩選以及錄入做好充足的準備。因為 htmlparser 需要與數(shù)據(jù)庫 sql 連接進行頁面的解析存儲,因此本系統(tǒng)在這里運用了 JAVA 中的資源文件(properties),通過加載 文件解析并保存到指定的文件中。再次,本系統(tǒng)還引入了 文件的讀寫工作。JAVA IO[4]流可分為四大抽象類:字符流:ReaderWriter,字節(jié)流:InputStream(讀數(shù)據(jù))OutputStream(寫數(shù)據(jù))本系統(tǒng)中主要運用的是字節(jié)第 2 章 相關(guān)技術(shù)簡介5流與讀寫數(shù)據(jù) InputStream 和 OutputStream。最后,而存入數(shù)據(jù)庫則使用較為普遍的 JDBC[5]技術(shù),JDBC(Java Data Base Connectivity,java 數(shù)據(jù)庫連接)是一種用于執(zhí)行 SQL 語句的 Java API,可以為多種關(guān)系數(shù)據(jù)庫提供統(tǒng)一訪問,它由一組用 Java 語言編寫的類和接口組成。JDBC 提供了一種基準,據(jù)此可以構(gòu)建更高級的工具和接口,使數(shù)據(jù)庫開發(fā)人員能夠編寫數(shù)據(jù)庫應用程序。下面就 heritrix、htmlparser、java 及 java io、JDBC 進行介紹 heritrix 技術(shù)heritrix[6]技術(shù) Heritrix 是一個專門為互聯(lián)網(wǎng)上的網(wǎng)頁進行存檔而開發(fā)的網(wǎng)頁檢索器。它使用 Java 編寫并且完全開源。它主要的用戶界面可以通過一個web 流量器來訪問并通過它來控制檢索器的行為,另外,它還有一個命令行工具來供用戶選擇調(diào)用。Heritrix 是由互聯(lián)網(wǎng)檔案館和北歐國家圖書館聯(lián)合規(guī)范化編寫于 2022 年初。第一次正式發(fā)布是在 2022 年 1 月,并不斷的被互聯(lián)網(wǎng)檔案館和其他感興趣的第三方改進。到現(xiàn)在已經(jīng)成為一個成熟的開源爬蟲,并被廣泛使用。它的工作流程是一個循環(huán),具體流程是:1 在預定的 URI 中選擇一個。2 從選擇的URI 的網(wǎng)址下載遠程文件 3 分析,歸檔下載到的內(nèi)容 4 從分析到的內(nèi)容里面選擇感興趣的 URI。加入預定隊列。5 標記已經(jīng)處理過的 URI。Heritrix 的使用首先應該知道它的配置與使用,在這里,本系統(tǒng)用的是heritrix 的 的版本,安裝 heritrix 時值得注意的 文件。在 中配置了大量與 Heritrix 運行息息相關(guān)的參數(shù),這些參數(shù)主要是配置了 Heritrix 運行時的一些默認工具類、 WebUI 啟動參數(shù),以及 Heritrix 的日志格式等。當?shù)谝淮芜\行 Heritrix 時,只需要修改該文件,為其加入 WebUI 的登錄名和密碼。接著可以實行簡單的任務抓取工作,當然,簡單的安裝于抓取工作不能滿足本系統(tǒng)的需求,因此需要更多的擴展與組件的開發(fā),首先需要擴FrontierScheduler,將需要的所有鏈接的處理。將已經(jīng)爬過的 URI 做標記,并將未處理的鏈接放入待處理隊列。其次 擴展 MirrorWriterProcessor,有的時候我們需要在網(wǎng)頁下載之前將網(wǎng)頁進行分析并提取有效內(nèi)容存儲起來,這時我們可以擴展 MirrorWriterProcessor 這個模塊。利用一個開源的包htmlparser 分析網(wǎng)頁結(jié)構(gòu),并將結(jié)果存儲起來。htmlparser 可以在文件中獲得。再將下載的包添加到項目的引用列表中,從而實現(xiàn)下個步驟的開發(fā)。第 2 章 相關(guān)技術(shù)簡介6 Htmlparser 技術(shù)HTMLParser 主要是常用來解析 html 頁面并獲取自己需要的數(shù)據(jù),經(jīng)常是和網(wǎng)絡(luò)爬蟲(如:Heritrix)一同使用,它的基本功能是:信息提取1)文本信息抽取,例如對 HTML 進行有效信息搜索;2)鏈接提取,用于自動給頁面的鏈接文本加上鏈接的標簽;3)資源提取,例如對一些圖片、聲音的資源的處理;4)鏈接檢查,用于檢查 HTML 中的鏈接是否有效;5)頁面內(nèi)容的監(jiān)控。信息轉(zhuǎn)換1)鏈接重寫,用于修改頁面中的所有超鏈接;2)網(wǎng)頁內(nèi)容拷貝,用于將網(wǎng)頁內(nèi)容保存到本地;3) 內(nèi)容檢驗,可以用來過濾網(wǎng)頁上一些令人不愉快的字詞;4) HTML 信息清洗,把本來亂七八糟的 HTML 信息格式化;5) 轉(zhuǎn)成 XML 格式數(shù)據(jù)。本系統(tǒng)主要是通過 htmlparser 解析 heritrix 爬取下來的許多 html 文件,通過相關(guān)正則表達式知識,遍歷解析 html 信息,再把本來亂七八糟的 html 信息格式化成 txt 文本,方便 java io 流進行讀寫操作。 java 語言java 語言 Java 是一種可以撰寫跨平臺應用軟件的面向?qū)ο蟮某绦蛟O(shè)計語言,是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 程序設(shè)計語言和Java 平臺(即 JavaSE, JavaEE, JavaME)的總稱。Java 技術(shù)具有卓越的通用性、高效性、平臺移植性和安全性,廣泛應用于個人 PC、數(shù)據(jù)中心、游戲控制臺、科學超級計算機、移動電話和互聯(lián)網(wǎng),同時擁有全球最大的開發(fā)者專業(yè)社群。在全球云計算和移動互聯(lián)網(wǎng)的產(chǎn)業(yè)環(huán)境下,Java 更具備了顯著優(yōu)勢和廣闊前景。java[7]編程語言 的風格十分接近 C 語言、 C++語言。Java 是一個純粹的面向?qū)ο蟮某绦蛟O(shè)計語言,它繼承了 C++語言面向?qū)ο蠹夹g(shù)的核心。Java 舍棄了 C 語言中容易引起錯誤的指針(以引用取代)、運算符重載(operator overloading)、多重繼承(以接口取代)等特性,增加了 垃圾回收器功能用于回收不再被引用的對象所占據(jù)的內(nèi)存空間,使得程序員不用再為內(nèi)存管理而擔第 2 章 相關(guān)技術(shù)簡介7憂。 Java 版本中,Java 又引入了泛型編程(Generic Programming)、類型安全的枚舉、不定長參數(shù)和自動裝/拆箱等語言特性。Java 不同于一般的編譯執(zhí)行計算機語言和解釋執(zhí)行計算機語言。它首先將源代碼編譯成二進制字節(jié)碼(byte code) ,然后依賴各種不同平臺上的虛擬機來解釋執(zhí)行字節(jié)碼。從而實現(xiàn)了“一次編譯、到處執(zhí)行”的跨平臺特性。不過,每次的執(zhí)行編譯后的字節(jié)碼需要消耗一定的時間,這同時也在一定程度上降低了 Java 程序的性能。編輯 Java 源代碼可以使用任何無格式的純文本編輯器,在 Windows 操作系統(tǒng)上可以使用微軟記事本(Notepad ) 、EditPlus 等程序,在 Linux 平臺上可使用 vi 工具等。Java 是本系統(tǒng)前臺及后臺以及爬蟲、頁面解析技術(shù)的基礎(chǔ)語言,通過運用 java 編寫的程序?qū)崿F(xiàn)前臺的功能如:登入,注冊,論壇帖子發(fā)布,會員資源管理等等,而后臺主要實現(xiàn)后臺會員管理,論壇管理,信息錄入等等功能。 java io 流技術(shù)流 [8] [9]是一組有順序的,有起點和終點的字節(jié)集合,是對數(shù)據(jù)傳輸?shù)目偡Q或抽象。即數(shù)據(jù)在兩設(shè)備間的傳輸稱為流,流的本質(zhì)是數(shù)據(jù)傳輸,根據(jù)數(shù)據(jù)傳輸特性將流抽象為各種類,方便更直觀的進行數(shù)據(jù)操作。本系統(tǒng)主要是輸入流 InputStreamIO 及輸出流 outputStreamIO 實現(xiàn)對txt 文本信息的讀取及輸入到數(shù)據(jù)庫中。 InputStream1)InputStream 是所有的輸入字節(jié)流的父類,它是一個抽象類。2)ByteArrayInputStrea、StringBufferInputStream、FileInputStream 是三種基本的介質(zhì)流,它們分別從 Byte 數(shù)組、 StringBuffer、和本地文件中讀取數(shù)據(jù)。PipedInputStream 是從與其它線程共用的管道中讀取數(shù)據(jù),與Piped 相關(guān)的知識后續(xù)單獨介紹。3)ObjectInputStream 和所有 FilterInputStream 的子類都是裝飾流(裝飾器模式的主角) 。 OutputStream1)OutputStream 是所有的輸出字節(jié)流的父類,它是一個抽象類。2)ByteArrayOutputStream、FileOutputStream 是兩種基本的介質(zhì)流,它們分別向 Byte 數(shù)組、和本地文件中寫入數(shù)據(jù)。PipedOutputStream 是向與其它線程共用的管道中寫入數(shù)據(jù)。第 2 章 相關(guān)技術(shù)簡介83)ObjectOutputStream 和所有 FilterOutputStream 的子類都是裝飾流。本系統(tǒng)利用輸入字節(jié)流 InputStream 和輸出字節(jié)流 OutputStream 通過file 類實現(xiàn)對需要讀取的文件夾進行遍歷的操作,F(xiàn)ile 類是對文件系統(tǒng)中文件以及文件夾進行封裝的對象,可以通過對象的思想來操作文件和文件夾。File類保存文件或目錄的各種元數(shù)據(jù)信息,包括文件名、文件長度、最后修改時間、是否可讀、獲取當前文件的路徑名,判斷指定文件是否存在、獲得當前目錄中的文件列表,創(chuàng)建、刪除文件和目錄等方法。 JDBC 技術(shù)JDBC[10](Java Data Base Connectivity,java 數(shù)據(jù)庫連接 )是一種用于執(zhí)行 SQL 語句的 Java API,可以為多種關(guān)系數(shù)據(jù)庫提供統(tǒng)一訪問,簡單說,JDBC 可做三件事:與數(shù)據(jù)庫建立連接、發(fā)送 操作數(shù)據(jù)庫的語句并處理結(jié)果。在使用 jdbc[11]技術(shù)是,系統(tǒng)需要引用 包,通過建立 java 平臺與 sql 數(shù)據(jù)
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1