freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于java的網(wǎng)絡(luò)蜘蛛程序算法研究(更新版)

  

【正文】 PopQueue(url,RunQ,LinkType)。 Document=PopQueue(url,RunQ,LinkType)。 LinkType enum{InternalLink,ExternalLink,OtherLink}。 URL 處理狀態(tài)流程圖 : 發(fā)現(xiàn) URL 錯(cuò)誤隊(duì)列 完成 URL 完成隊(duì)列 等待隊(duì)列 處理隊(duì)列 圖 1 URL 處理狀態(tài)流程圖 算法分析 我 們的算法設(shè)計(jì)主要就是依據(jù)非遞歸的思想構(gòu)造的,當(dāng)一個(gè) URL 被加入到等待隊(duì)列中時(shí),網(wǎng)絡(luò)機(jī)器人就會(huì)開(kāi)始運(yùn)行。 實(shí)際工作的時(shí)候網(wǎng)絡(luò)機(jī)器人總共使用了四個(gè)隊(duì)列,每個(gè)這樣的隊(duì)列保存著同一處理狀態(tài)的 URL,它 們?nèi)缦拢? 等待隊(duì)列 :在這個(gè)隊(duì)列中, URL 等待被網(wǎng)絡(luò)機(jī)器人處理。網(wǎng)絡(luò)機(jī)器人程序通過(guò)分析網(wǎng)頁(yè)的 HTML代碼查找網(wǎng)頁(yè)內(nèi)所有鏈接到其它網(wǎng)頁(yè)的標(biāo)簽,根據(jù)標(biāo)簽的屬性 HREF(Hypertext Reference,超文本鏈接 )的值,網(wǎng)絡(luò)機(jī)器人程序?qū)?huì)遇到三種鏈接類型:內(nèi)部鏈接( Internal link)、外部鏈接 (External link)和其它連接 (other link)。如果網(wǎng)絡(luò)機(jī)器人程序訪問(wèn)大型的 Web 服務(wù)器時(shí),利用基于內(nèi)存來(lái)存儲(chǔ)和管理大型站點(diǎn)的列表,就會(huì)顯得速度很慢,消耗計(jì)算機(jī)資源越來(lái)越多,最終導(dǎo)致網(wǎng)絡(luò)機(jī)器人的工作效率大大下降。如果編寫(xiě)的程序是扮演服務(wù)器的角色,就應(yīng)該采用 ServerSocket 類;如果程序是連接到服務(wù)器的那么他扮演的是客戶端的角色,我們 應(yīng)該使用 Socket 類,我們研究的網(wǎng)絡(luò)機(jī)器人程序扮演的就是客戶端的角色。Java 1. 高性能網(wǎng)絡(luò)機(jī)器人程序的研究意義 Web搜索引擎技術(shù)是當(dāng)今網(wǎng)絡(luò)信息處理領(lǐng)域的一個(gè)熱點(diǎn)和難點(diǎn)。對(duì)開(kāi)發(fā)高性能網(wǎng)絡(luò)機(jī)器人所涉及的關(guān)鍵技術(shù)和算法進(jìn)行了詳細(xì)地分析。搜索引擎 。但是隨著用戶需求的不斷提高,目前基于關(guān)鍵字查詢的搜索引擎已經(jīng)不能滿足用戶對(duì)搜索結(jié)果要求更準(zhǔn)、搜索范圍更大的需求。多線程是一個(gè)應(yīng)用程序在同一時(shí)刻運(yùn)行超過(guò)一個(gè)任務(wù)的能力,多線程是發(fā)生在一個(gè)應(yīng)用程序內(nèi)部的,它們使用同一內(nèi)存空間,所以一個(gè)進(jìn)程的所有線程可以很容易地共享全局?jǐn)?shù)據(jù)和資源。 數(shù)據(jù)庫(kù)訪問(wèn)技術(shù) 網(wǎng)絡(luò)機(jī)器人程序采用基于 SQL 的數(shù)據(jù) 庫(kù)隊(duì)列管理機(jī)制,必須有相應(yīng)的數(shù)據(jù)庫(kù)訪問(wèn)技術(shù)。采用遞歸設(shè)計(jì)的程序思路清晰簡(jiǎn)單,但存在兩個(gè)主要的問(wèn)題:第一問(wèn)題就是如果程序要運(yùn)行很多次,被壓入遞歸的堆棧會(huì)變得非常大,它可能會(huì)耗盡整個(gè)堆棧的內(nèi)存并終 止程序的運(yùn)行;第二問(wèn)題就是多線程技術(shù)與遞歸技術(shù)不能兼容。當(dāng)一個(gè) URL 被處理后,它被移送到錯(cuò)誤隊(duì)列或者完成隊(duì)列中?;镜乃惴ㄈ缦滤荆? Initialize URLS。//初始化 URL 集合被加入到等待隊(duì)列中。 If Extract(NewURLS) from Document is not Null//從下載的網(wǎng)頁(yè)中找新的鏈接。 End。 主要的方法有: synchronized public void addWorkload(String url)。 synchronized public Boolean foundOtherLink(String url)。 public void getMaxBody(int mx)。//從等待隊(duì)列中請(qǐng)求一個(gè) URL 送入處理隊(duì)列中。//返回 URL 的狀態(tài)類型。 protected void processWorkload()。
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1