freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java的網(wǎng)絡(luò)蜘蛛程序算法研究-在線瀏覽

2025-01-10 22:00本頁面
  

【正文】 。 Java 有非常簡單的套接字編程, Java 定義了兩個類: Socket 和 ServerSccket,它們是利用 Java 進(jìn)行網(wǎng)絡(luò)編程的重要類。 3 關(guān)鍵技術(shù)的研究 網(wǎng)絡(luò)機(jī)器人程序的工作是異常繁重的,好像永遠(yuǎn)都不會結(jié)束,網(wǎng)絡(luò)機(jī)器人一邊訪問網(wǎng)頁,一邊又要查找下一步要訪問的網(wǎng)頁,訪問了一個站點(diǎn)以后,仍然會有其它站點(diǎn)加入隊(duì)列中,網(wǎng)絡(luò)機(jī)器人程序的作業(yè)是按指數(shù)級增長的,所以對于大型的智能搜索引擎來說,提高網(wǎng)絡(luò)機(jī)器人程序的效率是非常重要的,以下是開發(fā)高性能的網(wǎng)絡(luò)機(jī)器人程序不可或缺的技術(shù)。多線程是一個應(yīng)用程序在同一時刻運(yùn)行超過一個任務(wù)的能力,多線程是發(fā)生在一個應(yīng)用程序內(nèi)部的,它們使用同一內(nèi)存空間,所以一個進(jìn)程的所有線程可以很容易地共享全局?jǐn)?shù)據(jù)和資源。 網(wǎng)絡(luò)機(jī)器人程序必須采 用多線程技術(shù),多線程技術(shù)允許對成百上千的網(wǎng)頁的等待時間結(jié)合在一起,眾多的線程讓網(wǎng)絡(luò)機(jī)器人程序能同時等待大量的網(wǎng)頁,而不是讓它們一個接一個的執(zhí)行。 網(wǎng)絡(luò)機(jī)器人程序的作業(yè)管理通常采用兩種方法:一種是基于內(nèi)存的隊(duì)列管理,另一種是基于 SQL( Structured Query Language)數(shù)據(jù)庫的隊(duì)列管理。所以管理和維護(hù)大型的 Web 站點(diǎn)的網(wǎng)頁列表必須采用基于 SQL 的數(shù)據(jù)庫隊(duì)列管理機(jī)制。 數(shù)據(jù)庫訪問技術(shù) 網(wǎng)絡(luò)機(jī)器人程序采用基于 SQL 的數(shù)據(jù) 庫隊(duì)列管理機(jī)制,必須有相應(yīng)的數(shù)據(jù)庫訪問技術(shù)。在 Java 中,有四種類型的數(shù)據(jù)庫驅(qū)動程序可以使 JDBC 有效的訪問數(shù)據(jù)庫,它們分別是 JDBCODBC 橋,部分 Java 和部分本機(jī)驅(qū)動程序,中間數(shù)據(jù)訪問服務(wù)器以及純 Java 驅(qū)動程序。 4 設(shè)計(jì)思想與算法分析 網(wǎng)頁的鏈接類型 網(wǎng)絡(luò)機(jī)器人程序在遍歷 Inter 時,必須從一個網(wǎng)頁搜索到另一個網(wǎng)頁,為了達(dá)到這個目的,網(wǎng)絡(luò)機(jī)器人程序必須能夠找到保存在它所訪問的每個網(wǎng)頁上的鏈接。內(nèi)部鏈接指的是超鏈接所指向的網(wǎng)頁與包含該鏈接的網(wǎng)頁在同一臺 Web 服務(wù)器中;外部鏈接指的是超鏈接所指向的網(wǎng)頁所在的 Web 站點(diǎn)與包含該鏈接的 Web 站點(diǎn)不同;其它鏈接指的是超鏈接指向非網(wǎng)頁的資源,如指向 Email地址等。采用遞歸設(shè)計(jì)的程序思路清晰簡單,但存在兩個主要的問題:第一問題就是如果程序要運(yùn)行很多次,被壓入遞歸的堆棧會變得非常大,它可能會耗盡整個堆棧的內(nèi)存并終 止程序的運(yùn)行;第二問題就是多線程技術(shù)與遞歸技術(shù)不能兼容。 我們研究的高性能網(wǎng)絡(luò)機(jī)器人采用的是非遞歸程序設(shè)計(jì)思想,當(dāng)使用非遞歸的方法時,先給定網(wǎng)絡(luò)機(jī)器人一個要訪問的網(wǎng)頁集合,它會把這一集合加到它將要訪問站點(diǎn)的隊(duì)列中去。當(dāng)網(wǎng)絡(luò)機(jī)器人處理完當(dāng)前的網(wǎng)頁后,它會在隊(duì)列中查找要處理的下一頁。新發(fā)現(xiàn)的 URL 被加入到這個隊(duì)列。當(dāng)一個 URL 被處理后,它被移送到錯誤隊(duì)列或者完成隊(duì)列中。網(wǎng)絡(luò)機(jī)器人將不會對加入到錯誤隊(duì)列的網(wǎng)頁做進(jìn)一步地處理。加入到完成隊(duì)列中的 URL將不會再移入其他隊(duì)列中。只要等待隊(duì)列中有一個網(wǎng)頁或網(wǎng)絡(luò)機(jī)器人正在處理一個網(wǎng)頁,網(wǎng)絡(luò)機(jī)器人就會繼續(xù)它的工作。基本的算法如下所示: Initialize URLS。 Queue enum{WaitQ,FinishQ,RunQ,MistakeQ}。 FileText。//超鏈類型:內(nèi)部、外部、其他鏈接。//初始化 URL 集合被加入到等待隊(duì)列中。 Begin url=PushQueue(WaitQ)。 While RunQ is not empty Do//判斷處理隊(duì)列是否有 URL。 SaveFileText(Document,
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1