freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于網(wǎng)絡(luò)爬蟲(chóng)的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)—計(jì)算機(jī)畢業(yè)設(shè)計(jì)(完整版)

  

【正文】 the method and strategy of multithreading scheduler, Web page crawling and HTML parsing. And then. a program of web page crawling based on Java is applied and analyzed. Keyword: spider, search engine 目錄 摘要 ................................................................................................................................ 1 Abstract .......................................................................................................................... 2 一、項(xiàng)目背景 ................................................................................................................ 4 搜索引擎現(xiàn)狀分析 .......................................................................................... 4 課題開(kāi)發(fā)背景 .................................................................................................. 4 網(wǎng)絡(luò)爬蟲(chóng)的工作原理 ...................................................................................... 5 二、系統(tǒng)開(kāi)發(fā)工具和平臺(tái) ............................................................................................ 5 關(guān)于 java 語(yǔ)言 ................................................................................................ 5 Jbuilder 介紹 ................................................................................................ 6 servlet 的原理 .............................................................................................. 6 三、系統(tǒng)總體設(shè)計(jì) ........................................................................................................ 8 系統(tǒng)總體結(jié)構(gòu) .................................................................................................. 8 系統(tǒng)類(lèi)圖 .......................................................................................................... 8 四 、系統(tǒng)詳細(xì)設(shè)計(jì) ...................................................................................................... 10 搜索引擎界面設(shè)計(jì) ........................................................................................ 10 servlet 的實(shí)現(xiàn) ............................................................................................ 12 網(wǎng)頁(yè)的解析實(shí)現(xiàn) ............................................................................................ 13 網(wǎng)頁(yè)的分析 ......................................................................................... 13 網(wǎng)頁(yè)的處理隊(duì)列 ................................................................................. 14 搜索字符串的匹配 ............................................................................ 14 網(wǎng)頁(yè)分析類(lèi)的實(shí)現(xiàn) ............................................................................. 15 網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn) ............................................................................................ 17 五、系統(tǒng)測(cè)試 .............................................................................................................. 25 六、結(jié)論 ...................................................................................................................... 26 致謝 .............................................................................................................................. 26 參考文獻(xiàn) ...................................................................................................................... 27 一、項(xiàng)目背景 搜索引擎現(xiàn)狀分析 互聯(lián)網(wǎng)被普及前,人們查閱資料首先想到的便是擁有大量書(shū)籍 的圖書(shū)館,而在當(dāng)今很多人都會(huì)選擇一種更方便、快捷、全面、準(zhǔn)確的方式 —— 互聯(lián)網(wǎng).如果說(shuō)互聯(lián)網(wǎng)是一個(gè)知識(shí)寶庫(kù),那么搜索引擎就是打開(kāi)知識(shí)寶庫(kù)的一把鑰匙.搜索引擎是隨著 WEB信息的迅速增加,從1995年開(kāi)始逐漸發(fā)展起來(lái)的技術(shù),用于幫助互聯(lián)網(wǎng)用戶(hù)查詢(xún)信息的搜索工具.搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶(hù)提供檢索服務(wù),從而起到信息導(dǎo)航的目的.目前搜索引擎已經(jīng)成為倍受網(wǎng)絡(luò)用戶(hù)關(guān)注的焦點(diǎn),也成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開(kāi)發(fā)的對(duì)象. 目前較流行的搜索引擎已有 Google, Yahoo, Info seek, baidu等 . 出于商業(yè)機(jī)密的考慮 , 目前各個(gè)搜索引擎使用的 Crawler 系統(tǒng)的技術(shù)內(nèi)幕一般都不公開(kāi) , 現(xiàn)有的文獻(xiàn)也僅限于概要性介紹 . 隨著 W eb 信息資源呈指數(shù)級(jí)增長(zhǎng)及 Web 信息資源動(dòng)態(tài)變化 , 傳統(tǒng)的搜索引擎提供的信息檢索服務(wù)已不能滿(mǎn)足人們?nèi)找嬖鲩L(zhǎng)的對(duì)個(gè)性化服務(wù)的需要 , 它們正面臨著巨大的挑戰(zhàn) . 以何種策略訪(fǎng)問(wèn) Web, 提高搜索效率 , 成為近年來(lái)專(zhuān)業(yè)搜索引擎網(wǎng)絡(luò)爬蟲(chóng)研究的主要問(wèn)題之一。一般認(rèn)為, B 語(yǔ)言導(dǎo)致了 C 語(yǔ)言的誕生、 C 語(yǔ)言演變出 C++語(yǔ)言,而 Java 語(yǔ)言則明顯帶有 C++語(yǔ)言的特征。從 1992 的秋天 Oak 問(wèn)世,到 1995 春天公開(kāi)發(fā)布 Java 語(yǔ)言,許多人都對(duì) Java 的設(shè)計(jì)和改進(jìn)做出 了貢獻(xiàn)。 Java 是一種被廣泛使用的網(wǎng)絡(luò)編程語(yǔ)言,這是一種新的計(jì)算概念。比起捆綁在服務(wù)器上銷(xiāo)售的 JDeveloper, JBuiIder 應(yīng)該是唯一的僅靠自身的實(shí)力而占領(lǐng)了大部分市場(chǎng)的 Java 商用開(kāi)發(fā)工具了。 6) Jbuilder 擁有專(zhuān)業(yè)化的圖形調(diào)試介面,支持遠(yuǎn)程調(diào)試和多線(xiàn)程調(diào)試,調(diào)試器支持各種JDK 版本 ,包括 J2ME/J2SE/J2EE。 是持久的。與處理每個(gè)請(qǐng)求都要全部加載一個(gè)完整的可執(zhí)行程序相比,效率得以提高。 charset=gb2312 /head body bgcolor=FFFFFF leftmargin=0 topmargin=0 marginwidth=0 marginheight=0 form action=/WebModule1/myservlet method=get ! ImageReady Slices (未標(biāo)題 1) table id=Table_01 width=1025 height=768 border=0 cellpadding=0 cellspacing=0 tr td colspan=4 img src=images/ width=1024 height=171 alt=/td td img src=images/ width=1 height=171 alt=/td /tr tr td style=backgroundcolor: ffccff 搜索內(nèi)容 td td style=backgroundcolor: ffccff input type=text name=param0 style=width: 335px/td td style=backgroundcolor: ffccff input type=submit name=Submit value=搜索 input type=reset value=重設(shè)/td td background=images/ width=162 height=71 /td td img src=images/ width=1 height=71 alt=/td /tr tr td colspan=4 rowspan=2 /td td img src=images/ width=1 height=31 alt=/td /tr tr td img src=images/ width=1 height=495 alt=/td /tr /table ! End ImageReady Slices /form /body /html servlet 的實(shí)現(xiàn) 用 Servlet 來(lái)響應(yīng)用戶(hù)的請(qǐng)求,實(shí)現(xiàn)搜索參數(shù)的傳入。 charset=GBK。 byte[] bytes=(ISO88591)。 (headtitle爬蟲(chóng)演示 /title/head)。 (p+te+、 +(i)+/p)。由 HTML 標(biāo)準(zhǔn)定義了一組元素類(lèi)型,不同類(lèi)型的元素分別描述文本、圖像和超文本鏈接等。新發(fā)現(xiàn)的 URL被加入到這個(gè)隊(duì)列中。如果在處理網(wǎng)頁(yè)時(shí)沒(méi)有發(fā)生錯(cuò)誤,處理完畢時(shí),該 URL 將被加入到完成隊(duì)列,該 URL 到達(dá)這一隊(duì)列后將不再移人其他隊(duì)列。 import 。 import 。 for (int j = 0。39。 if (() 2) return。 } /**分析 frame 分析 . */ void analyzeFrame(String frame) { String src = extract(frame, src)。 int i = (key)。 if ((i) == 39。 } } else { int targ = ()。 } public ArrayList String getResult(){ return fafa。同時(shí)由于 robot 和 spider 不能更新太快 (因?yàn)榫W(wǎng)絡(luò)帶寬有限,如果更新太快,那
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1