freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)論文比賽信息集成系統(tǒng)后臺(tái)網(wǎng)絡(luò)爬蟲與信息處理-文庫吧

2025-06-09 22:09 本頁面


【正文】 傻瓜式的獲取全網(wǎng)更多賽事資源,整合成為本系統(tǒng)的資訊,賽事資源豐富,更受用戶青睞;用戶管理、論壇管理等等,系統(tǒng)地、有條理地管理前臺(tái)信息,讓系統(tǒng)健全運(yùn)行。通過前后臺(tái)的整合,統(tǒng)一,協(xié)調(diào)地完成此次系統(tǒng)開發(fā)出分門別類的、整整有序的、及時(shí)全面的賽事網(wǎng)站平臺(tái)系統(tǒng)開發(fā)能為在校的大學(xué)生提供最為全面、優(yōu)質(zhì)的賽事信息,為提高中國大學(xué)生的身心素質(zhì)做出貢獻(xiàn)。主要表現(xiàn)在(1)有利于大學(xué)生正確認(rèn)識(shí)自己,對自身成長產(chǎn)生緊迫感。通過廣泛的社會(huì)比賽,能讓學(xué)生看到自己和市場需求之間的差距,看到自身知識(shí)和能力上存在的不足,比較客觀地去重新認(rèn)識(shí)、評價(jià)自我,逐漸擺正個(gè)人與社會(huì)、個(gè)人與人民群眾的位置。(2)有利于大學(xué)生對理論知識(shí)的轉(zhuǎn)化和拓展,增強(qiáng)運(yùn)用知識(shí)解決實(shí)際問題的能力。大學(xué)生以課堂學(xué)習(xí)為主要接受方式,這對大學(xué)生來說非常重要,但這些理論知識(shí)并不代表大學(xué)生的實(shí)際技能,往往難以直接運(yùn)用于現(xiàn)實(shí)生活之中。比賽的方式使大學(xué)生接近社會(huì),獲得大量的感性認(rèn)識(shí)和許多有價(jià)值的新知識(shí),同時(shí)使他們能夠把自己所學(xué)的理論知識(shí)與接觸的實(shí)際現(xiàn)象進(jìn)行對照、比較,把抽象的理論知識(shí)逐漸轉(zhuǎn)化為認(rèn)識(shí)和解決實(shí)際問題的能力。(3)有利于發(fā)展大學(xué)生的組織協(xié)調(diào)能力和創(chuàng)新意識(shí)。各種種類繁多的比賽沒有課堂教學(xué)太多的束縛和校園生活的限制,學(xué)生們的積極性被充分調(diào)動(dòng)起來,興趣高漲,思維也空前的活躍起來,往往會(huì)產(chǎn)生一些創(chuàng)造性火花,在實(shí)踐中勇于開拓、敢于創(chuàng)新。(4)有利于提高大學(xué)生個(gè)人素養(yǎng),完善個(gè)性品質(zhì)。在比賽中的困難和危險(xiǎn)面前,要求大學(xué)生們具有一定的犧牲精神和堅(jiān)強(qiáng)的品質(zhì)。賽事活動(dòng)多了,并且能深入下去,大學(xué)生在積極參與的過程中,就會(huì)逐漸養(yǎng)成堅(jiān)韌、頑強(qiáng)的優(yōu)良品性,養(yǎng)成務(wù)實(shí)的學(xué)習(xí)態(tài)度和生活作風(fēng),不斷提高自己、完善自己。 本文的組織論文正文包括四章:引言、系統(tǒng)相關(guān)技術(shù)、比賽信息集成系統(tǒng)的分析與設(shè)計(jì)、系統(tǒng)模塊的設(shè)計(jì)與實(shí)現(xiàn)。第 1 章為緒論,分為 3 節(jié),主要介紹系統(tǒng)的開發(fā)背景、系統(tǒng)的開發(fā)目標(biāo)及研究內(nèi)容及本文的組織。第 2 章為系統(tǒng)相關(guān)技術(shù),分為 2 節(jié),主要介紹系統(tǒng)相關(guān)技術(shù):爬蟲技術(shù)功能、頁面解析的功能、以及信息篩選及錄入的功能等的前提下進(jìn)行介紹的,運(yùn)第 1 章 引言3用了 heritrix、htmlparser、java io、java 技術(shù)等實(shí)現(xiàn)。第 3 章為比賽信息集成系統(tǒng)的分析與設(shè)計(jì),分 4 節(jié),包括系統(tǒng)模塊設(shè)計(jì),功能需求,數(shù)據(jù)需求,數(shù)據(jù)庫設(shè)計(jì)。第 4 章為個(gè)人模塊設(shè)計(jì)與實(shí)現(xiàn),分 4 節(jié),包括比賽信息系統(tǒng)的爬蟲模塊、頁面解析文本信息入庫模塊,以及信息篩選上傳、信息查看刪除的模塊的設(shè)計(jì)。第 2 章 相關(guān)技術(shù)簡介4第 2 章 相關(guān)技術(shù)簡介 系統(tǒng)開發(fā)平臺(tái)及開發(fā)工具硬件環(huán)境: 個(gè)人 PC、電網(wǎng)、電信網(wǎng)絡(luò)等。軟 件 環(huán) 境 : MyEclipse 、Apache、Tomcat 。相關(guān)技術(shù): Html+div+css+javascript。爬蟲 heritrix;頁面解析技術(shù):htmlparser;數(shù)據(jù)庫 sql;struts2 模式。相 關(guān) 工 具 : Microsoft SQL Server 202Macromedia dreamweaver My Eclipse 。 工具和編程語言在比賽信息集成系統(tǒng)中,運(yùn)用了 java+sql+heritrix+htmlparser 等技術(shù)。其中后臺(tái)主要運(yùn)用了 heritrix 爬蟲技術(shù)。首先,Heritrix [1]是一個(gè)純由 Java 開發(fā)的、開源的 Web 網(wǎng)絡(luò)爬蟲,用戶可以使用它從網(wǎng)絡(luò)上抓取想要的資源。它來自于 。Heritrix最出色之處在于它的可擴(kuò)展性,開發(fā)者可以擴(kuò)展它的各個(gè)組件,來實(shí)現(xiàn)個(gè)性的抓取邏輯,比賽信息系統(tǒng)利用它實(shí)現(xiàn)更多賽事信息的全網(wǎng)爬取,取得更多的大學(xué)生賽事資源。其次,Java [2] [3]語言是一種功能強(qiáng)大的編程語言,負(fù)責(zé) heritrix 應(yīng)用的業(yè)務(wù)邏輯的實(shí)現(xiàn)和對應(yīng)用程序進(jìn)行控制。再次,Htmlparser 是一個(gè)純的 java 寫的 html(標(biāo)準(zhǔn)通用標(biāo)記語言下的一個(gè)應(yīng)用)解析的庫,它不依賴于其它的 java 庫文件,主要用于改造或提取html。它能超高速解析 html,而且不會(huì)出錯(cuò)。就其他解析工具來說,htmlparser 就是目前最好的 html 解析和分析的工具。因此,從 heritrix 爬取 頁面通過 htmlparser 文件,為賽事信息的篩選以及錄入做好充足的準(zhǔn)備。因?yàn)?htmlparser 需要與數(shù)據(jù)庫 sql 連接進(jìn)行頁面的解析存儲(chǔ),因此本系統(tǒng)在這里運(yùn)用了 JAVA 中的資源文件(properties),通過加載 文件解析并保存到指定的文件中。再次,本系統(tǒng)還引入了 文件的讀寫工作。JAVA IO[4]流可分為四大抽象類:字符流:ReaderWriter,字節(jié)流:InputStream(讀數(shù)據(jù))OutputStream(寫數(shù)據(jù))本系統(tǒng)中主要運(yùn)用的是字節(jié)第 2 章 相關(guān)技術(shù)簡介5流與讀寫數(shù)據(jù) InputStream 和 OutputStream。最后,而存入數(shù)據(jù)庫則使用較為普遍的 JDBC[5]技術(shù),JDBC(Java Data Base Connectivity,java 數(shù)據(jù)庫連接)是一種用于執(zhí)行 SQL 語句的 Java API,可以為多種關(guān)系數(shù)據(jù)庫提供統(tǒng)一訪問,它由一組用 Java 語言編寫的類和接口組成。JDBC 提供了一種基準(zhǔn),據(jù)此可以構(gòu)建更高級的工具和接口,使數(shù)據(jù)庫開發(fā)人員能夠編寫數(shù)據(jù)庫應(yīng)用程序。下面就 heritrix、htmlparser、java 及 java io、JDBC 進(jìn)行介紹 heritrix 技術(shù)heritrix[6]技術(shù) Heritrix 是一個(gè)專門為互聯(lián)網(wǎng)上的網(wǎng)頁進(jìn)行存檔而開發(fā)的網(wǎng)頁檢索器。它使用 Java 編寫并且完全開源。它主要的用戶界面可以通過一個(gè)web 流量器來訪問并通過它來控制檢索器的行為,另外,它還有一個(gè)命令行工具來供用戶選擇調(diào)用。Heritrix 是由互聯(lián)網(wǎng)檔案館和北歐國家圖書館聯(lián)合規(guī)范化編寫于 2022 年初。第一次正式發(fā)布是在 2022 年 1 月,并不斷的被互聯(lián)網(wǎng)檔案館和其他感興趣的第三方改進(jìn)。到現(xiàn)在已經(jīng)成為一個(gè)成熟的開源爬蟲,并被廣泛使用。它的工作流程是一個(gè)循環(huán),具體流程是:1 在預(yù)定的 URI 中選擇一個(gè)。2 從選擇的URI 的網(wǎng)址下載遠(yuǎn)程文件 3 分析,歸檔下載到的內(nèi)容 4 從分析到的內(nèi)容里面選擇感興趣的 URI。加入預(yù)定隊(duì)列。5 標(biāo)記已經(jīng)處理過的 URI。Heritrix 的使用首先應(yīng)該知道它的配置與使用,在這里,本系統(tǒng)用的是heritrix 的 的版本,安裝 heritrix 時(shí)值得注意的 文件。在 中配置了大量與 Heritrix 運(yùn)行息息相關(guān)的參數(shù),這些參數(shù)主要是配置了 Heritrix 運(yùn)行時(shí)的一些默認(rèn)工具類、 WebUI 啟動(dòng)參數(shù),以及 Heritrix 的日志格式等。當(dāng)?shù)谝淮芜\(yùn)行 Heritrix 時(shí),只需要修改該文件,為其加入 WebUI 的登錄名和密碼。接著可以實(shí)行簡單的任務(wù)抓取工作,當(dāng)然,簡單的安裝于抓取工作不能滿足本系統(tǒng)的需求,因此需要更多的擴(kuò)展與組件的開發(fā),首先需要擴(kuò)FrontierScheduler,將需要的所有鏈接的處理。將已經(jīng)爬過的 URI 做標(biāo)記,并將未處理的鏈接放入待處理隊(duì)列。其次 擴(kuò)展 MirrorWriterProcessor,有的時(shí)候我們需要在網(wǎng)頁下載之前將網(wǎng)頁進(jìn)行分析并提取有效內(nèi)容存儲(chǔ)起來,這時(shí)我們可以擴(kuò)展 MirrorWriterProcessor 這個(gè)模塊。利用一個(gè)開源的包htmlparser 分析網(wǎng)頁結(jié)構(gòu),并將結(jié)果存儲(chǔ)起來。htmlparser 可以在文件中獲得。再將下載的包添加到項(xiàng)目的引用列表中,從而實(shí)現(xiàn)下個(gè)步驟的開發(fā)。第 2 章 相關(guān)技術(shù)簡介6 Htmlparser 技術(shù)HTMLParser 主要是常用來解析 html 頁面并獲取自己需要的數(shù)據(jù),經(jīng)常是和網(wǎng)絡(luò)爬蟲(如:Heritrix)一同使用,它的基本功能是:信息提取1)文本信息抽取,例如對 HTML 進(jìn)行有效信息搜索;2)鏈接提取,用于自動(dòng)給頁面的鏈接文本加上鏈接的標(biāo)簽;3)資源提取,例如對一些圖片、聲音的資源的處理;4)鏈接檢查,用于檢查 HTML 中的鏈接是否有效;5)頁面內(nèi)容的監(jiān)控。信息轉(zhuǎn)換1)鏈接重寫,用于修改頁面中的所有超鏈接;2)網(wǎng)頁內(nèi)容拷貝,用于將網(wǎng)頁內(nèi)容保存到本地;3) 內(nèi)容檢驗(yàn),可以用來過濾網(wǎng)頁上一些令人不愉快的字詞;4) HTML 信息清洗,把本來亂七八糟的 HTML 信息格式化;5) 轉(zhuǎn)成 XML 格式數(shù)據(jù)。本系統(tǒng)主要是通過 htmlparser 解析 heritrix 爬取下來的許多 html 文件,通過相關(guān)正則表達(dá)式知識(shí),遍歷解析 html 信息,再把本來亂七八糟的 html 信息格式化成 txt 文本,方便 java io 流進(jìn)行讀寫操作。 java 語言java 語言 Java 是一種可以撰寫跨平臺(tái)應(yīng)用軟件的面向?qū)ο蟮某绦蛟O(shè)計(jì)語言,是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 程序設(shè)計(jì)語言和Java 平臺(tái)(即 JavaSE, JavaEE, JavaME)的總稱。Java 技術(shù)具有卓越的通用性、高效性、平臺(tái)移植性和安全性,廣泛應(yīng)用于個(gè)人 PC、數(shù)據(jù)中心、游戲控制臺(tái)、科學(xué)超級計(jì)算機(jī)、移動(dòng)電話和互聯(lián)網(wǎng),同時(shí)擁有全球最大的開發(fā)者專業(yè)社群。在全球云計(jì)算和移動(dòng)互聯(lián)網(wǎng)的產(chǎn)業(yè)環(huán)境下,Java 更具備了顯著優(yōu)勢和廣闊前景。java[7]編程語言 的風(fēng)格十分接近 C 語言、 C++語言。Java 是一個(gè)純粹的面向?qū)ο蟮某绦蛟O(shè)計(jì)語言,它繼承了 C++語言面向?qū)ο蠹夹g(shù)的核心。Java 舍棄了 C 語言中容易引起錯(cuò)誤的指針(以引用取代)、運(yùn)算符重載(operator overloading)、多重繼承(以接口取代)等特性,增加了 垃圾回收器功能用于回收不再被引用的對象所占據(jù)的內(nèi)存空間,使得程序員不用再為內(nèi)存管理而擔(dān)第 2 章 相關(guān)技術(shù)簡介7憂。 Java 版本中,Java 又引入了泛型編程(Generic Programming)、類型安全的枚舉、不定長參數(shù)和自動(dòng)裝/拆箱等語言特性。Java 不同于一般的編譯執(zhí)行計(jì)算機(jī)語言和解釋執(zhí)行計(jì)算機(jī)語言。它首先將源代碼編譯成二進(jìn)制字節(jié)碼(byte code) ,然后依賴各種不同平臺(tái)上的虛擬機(jī)來解釋執(zhí)行字節(jié)碼。從而實(shí)現(xiàn)了“一次編譯、到處執(zhí)行”的跨平臺(tái)特性。不過,每次的執(zhí)行編譯后的字節(jié)碼需要消耗一定的時(shí)間,這同時(shí)也在一定程度上降低了 Java 程序的性能。編輯 Java 源代碼可以使用任何無格式的純文本編輯器,在 Windows 操作系統(tǒng)上可以使用微軟記事本(Notepad ) 、EditPlus 等程序,在 Linux 平臺(tái)上可使用 vi 工具等。Java 是本系統(tǒng)前臺(tái)及后臺(tái)以及爬蟲、頁面解析技術(shù)的基礎(chǔ)語言,通過運(yùn)用 java 編寫的程序?qū)崿F(xiàn)前臺(tái)的功能如:登入,注冊,論壇帖子發(fā)布,會(huì)員資源管理等等,而后臺(tái)主要實(shí)現(xiàn)后臺(tái)會(huì)員管理,論壇管理,信息錄入等等功能。 java io 流技術(shù)流 [8] [9]是一組有順序的,有起點(diǎn)和終點(diǎn)的字節(jié)集合,是對數(shù)據(jù)傳輸?shù)目偡Q或抽象。即數(shù)據(jù)在兩設(shè)備間的傳輸稱為流,流的本質(zhì)是數(shù)據(jù)傳輸,根據(jù)數(shù)據(jù)傳輸特性將流抽象為各種類,方便更直觀的進(jìn)行數(shù)據(jù)操作。本系統(tǒng)主要是輸入流 InputStreamIO 及輸出流 outputStreamIO 實(shí)現(xiàn)對txt 文本信息的讀取及輸入到數(shù)據(jù)庫中。 InputStream1)InputStream 是所有的輸入字節(jié)流的父類,它是一個(gè)抽象類。2)ByteArrayInputStrea、StringBufferInputStream、FileInputStream 是三種基本的介質(zhì)流,它們分別從 Byte 數(shù)組、 StringBuffer、和本地文件中讀取數(shù)據(jù)。PipedInputStream 是從與其它線程共用的管道中讀取數(shù)據(jù),與Piped 相關(guān)的知識(shí)后續(xù)單獨(dú)介紹。3)ObjectInputStream 和所有 FilterInputStream 的子類都是裝飾流(裝飾器模式的主角) 。 OutputStream1)OutputStream 是所有的輸出字節(jié)流的父類,它是一個(gè)抽象類。2)ByteArrayOutputStream、FileOutputStream 是兩種基本的介質(zhì)流,它們分別向 Byte 數(shù)組、和本地文件中寫入數(shù)據(jù)。PipedOutputStream 是向與其它線程共用的管道中寫入數(shù)據(jù)。第 2 章 相關(guān)技術(shù)簡介83)ObjectOutputStream 和所有 FilterOutputStream 的子類都是裝飾流。本系統(tǒng)利用輸入字節(jié)流 InputStream 和輸出字節(jié)流 OutputStream 通過file 類實(shí)現(xiàn)對需要讀取的文件夾進(jìn)行遍歷的操作,F(xiàn)ile 類是對文件系統(tǒng)中文件以及文件夾進(jìn)行封裝的對象,可以通過對象的思想來操作文件和文件夾。File類保存文件或目錄的各種元數(shù)據(jù)信息,包括文件名、文件長度、最后修改時(shí)間、是否可讀、獲取當(dāng)前文件的路徑名,判斷指定文件是否存在、獲得當(dāng)前目錄中的文件列表,創(chuàng)建、刪除文件和目錄等方法。 JDBC 技術(shù)JDBC[10](Java Data Base Connectivity,java 數(shù)據(jù)庫連接 )是一種用于執(zhí)行 SQL 語句的 Java API,可以為多種關(guān)系數(shù)據(jù)庫提供統(tǒng)一訪問,簡單說,JDBC 可做三件事:與數(shù)據(jù)庫建立連接、發(fā)送 操作數(shù)據(jù)庫的語句并處理結(jié)果。在使用 jdbc[11]技術(shù)是,系統(tǒng)需要引用 包,通過建立 java 平臺(tái)與 sql 數(shù)據(jù)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1