freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)—計(jì)算機(jī)畢業(yè)設(shè)計(jì)-文庫(kù)吧資料

2024-12-07 10:20本頁(yè)面
  

【正文】 ing src = extract(frame, src)。 if (href == null) return。 } else if ((base)) { extractBase(())。 if ((a)) { analyzeAnchor(())。 if (() 2) return。 } else { ((char) (j))。 analyze(())。39。39。 break。) state = 39。 j++) { //循環(huán)讀取解析 / switch (state) { case 0: if ((j) == 39。 for (int j = 0。 int i = ()。 // 基本 URL public HtmlParser (String PageContent) { int state = 0。 //類實(shí)體 public class HtmlParser { ArrayList String fafa=new ArrayList String()。 import 。 import 。 import 。 import 。 import 。 import 。 網(wǎng)頁(yè)分析類的實(shí)現(xiàn) package crawer。由此,可避免某個(gè)頁(yè)面被重復(fù)處理,防止陷入死循環(huán)。如果在處理網(wǎng)頁(yè)時(shí)沒有發(fā)生錯(cuò)誤,處理完畢時(shí),該 URL 將被加入到完成隊(duì)列,該 URL 到達(dá)這一隊(duì)列后將不再移人其他隊(duì)列。一旦網(wǎng)頁(yè)移入錯(cuò)誤隊(duì)列,移動(dòng) Spider 程序?qū)⒉粫?huì)再對(duì)它作進(jìn)一步處理。 (3)錯(cuò)誤隊(duì)列 (ErrorURL)。當(dāng)移動(dòng) Spider 程序開始處理 URL 時(shí),它們被傳送到這一隊(duì)列,但同一個(gè) URL 不能被多次 處理,因?yàn)檫@樣是浪費(fèi)資源。新發(fā)現(xiàn)的 URL被加入到這個(gè)隊(duì)列中。 (1)等待隊(duì)列 (WaitURL)。正是通過它們,某個(gè)具體的移動(dòng) Spider 得以完成對(duì)該 Spider 所對(duì)應(yīng) web 的全部搜索任務(wù)。元素名稱出現(xiàn)在開始標(biāo)記中,在 HTML 語(yǔ)言中標(biāo)記為 元素名稱 ,對(duì)應(yīng)的結(jié)束標(biāo)記為 /元素名稱 ,內(nèi)容出現(xiàn)在開始標(biāo)記和結(jié)束標(biāo)記之間。由 HTML 標(biāo)準(zhǔn)定義了一組元素類型,不同類型的元素分別描述文本、圖像和超文本鏈接等。對(duì)于這類文本一般是通過分析文本中特有的標(biāo)志性字符進(jìn)行爬行處理,具體而言就是分析 HTML 語(yǔ)言中的各種標(biāo)記之間的 關(guān)系。 ()。 } (/body)。 (p+te+、 +(i)+/p)。i()。 String te。 (p搜索 +search+結(jié)果 :/p)。 (headtitle爬蟲演示 /title/head)。 //搜索到的結(jié)果 myresult=()。 //此處開始爬行 ()。 crawler = new myspider( //Thread search=new Thread(crawler)。 byte[] bytes=(ISO88591)。 } (CONTENT_TYPE)。//搜索到的結(jié)果 //Initialize global variables public void init() throws ServletException { } //Process the HTTP Get request public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { String var0 = (param0)。 myspider crawler 。 charset=GBK。 import .*。 import .*。 import .*。 charset=gb2312 /head body bgcolor=FFFFFF leftmargin=0 topmargin=0 marginwidth=0 marginheight=0 form action=/WebModule1/myservlet method=get ! ImageReady Slices (未標(biāo)題 1) table id=Table_01 width=1025 height=768 border=0 cellpadding=0 cellspacing=0 tr td colspan=4 img src=images/ width=1024 height=171 alt=/td td img src=images/ width=1 height=171 alt=/td /tr tr td style=backgroundcolor: ffccff 搜索內(nèi)容 td td style=backgroundcolor: ffccff input type=text name=param0 style=width: 335px/td td style=backgroundcolor: ffccff input type=submit name=Submit value=搜索 input type=reset value=重設(shè)/td td background=images/ width=162 height=71 /td td img src=images/ width=1 height=71 alt=/td /tr tr td colspan=4 rowspan=2 /td td img src=images/ width=1 height=31 alt=/td /tr tr td img src=images/ width=1 height=495 alt=/td /tr /table ! End ImageReady Slices /form /body /html servlet 的實(shí)現(xiàn) 用 Servlet 來響應(yīng)用戶的請(qǐng)求,實(shí)現(xiàn)搜索參數(shù)的傳入。 三是 深度優(yōu)先搜索所遵循的搜索策略是盡可能“深”地搜索圖 . 在深度優(yōu)先搜索中 , 對(duì)于最新發(fā)現(xiàn)的頂點(diǎn) , 如果它還有以此為起點(diǎn)而未探測(cè)到的邊 , 就沿此邊繼續(xù)漢下去 . 當(dāng)結(jié)點(diǎn) v 的所有邊都己被探尋過 , 搜索將回溯到發(fā)現(xiàn)結(jié)點(diǎn) v 有那條邊的始結(jié)點(diǎn) . 這一過程一直進(jìn)行到已發(fā)現(xiàn)從源結(jié)點(diǎn)可達(dá)的所有結(jié)點(diǎn)為止 . 如果還存在未被發(fā)現(xiàn)的結(jié)點(diǎn) , 則選擇其中一個(gè)作為源結(jié)點(diǎn)并重復(fù)以上過程 , 整個(gè)進(jìn)程反復(fù)進(jìn)行直到所有結(jié)點(diǎn)都被發(fā)現(xiàn)為止 . 深度優(yōu)先在很多情況下會(huì)導(dǎo)致爬蟲的陷入 ( t rapped) 問題 , 所以它既不是完備的 , 也不是最優(yōu)的 。 三、系統(tǒng)總體設(shè)計(jì) 系統(tǒng)總體結(jié)構(gòu) 搜 索 界 面s e r v l e t 處 理 模 塊調(diào) 用s p i d e r調(diào) 用頁(yè) 面 解 析調(diào) 用信 息 返 回 系統(tǒng)類圖 1)servlet 結(jié)構(gòu) 2)網(wǎng)絡(luò)爬蟲結(jié)構(gòu) 3)頁(yè)面解析結(jié)構(gòu) 搜索策略 網(wǎng)絡(luò)爬蟲在搜索時(shí)往往采用一定的搜索策略 。 三是可移植性, servlet 是用 java 開發(fā)的,因此它是可移植的,這種可移植性使 servlet能夠移植到新的操作系統(tǒng)中而不必改變代碼。與處理每個(gè)請(qǐng)求都要全部加載一個(gè)完整的可執(zhí)行程序相比,效率得以提高??刂破?ActionServlet 主要負(fù)責(zé)將 HTTP 的客戶請(qǐng)求 信息組裝后,根據(jù)配置文件的指定描述,轉(zhuǎn)發(fā)到適當(dāng)?shù)奶幚砥?Action。 ActionServlet 繼承自 類,其在 Struts framework 中扮演的角色是中心控制器。 (所謂加載是指 servlet 加載進(jìn) JVM 運(yùn)行 ) 是與平臺(tái)無(wú)關(guān)的。 是持久的。也就是說 Servlet 是一個(gè)標(biāo)準(zhǔn)的 Java 類,它符合Java 類的一般規(guī)則。在默認(rèn)情況下,Servlet 采用一種無(wú)狀態(tài)的請(qǐng)求 響應(yīng)處理方式。 因此本次開發(fā)使用 Jbuilder 2020. servlet 的原理 Servlet 是指運(yùn)行在服務(wù)器端的 Java 小程序。 6) Jbuilder 擁有專業(yè)化的圖形調(diào)試介面,支持遠(yuǎn)程調(diào)試和多線程調(diào)試,調(diào)試器支持各種JDK 版本 ,包括 J2ME/J2SE/J2EE。 5)利用 Jbuilder 可創(chuàng)建 (沒有專有代碼和標(biāo)記 )純 Java2 應(yīng)用。 Jbuilder 與 Inprise Application Server 緊密集成,同時(shí)支持 WebLogic Server,支持 EJB 和 EJB ,可以快速開發(fā) J2EE 的電子商務(wù)應(yīng)用。 2)用戶可以自動(dòng)地生成基于后端數(shù)據(jù)庫(kù)表的 EJB Java 類, Jbuilder 同時(shí)還簡(jiǎn)化了 EJB的自動(dòng)部署功能 .此外它還支持 CORBA,相應(yīng)的向?qū)С绦蛴兄谟脩羧娴毓芾?IDL(分布應(yīng)用程序所必需的接口定義語(yǔ)言 Interface Definition Language)和控制遠(yuǎn)程對(duì)象。比起捆綁在服務(wù)器上銷售的 JDeveloper, JBuiIder 應(yīng)該是唯一的僅靠自身的實(shí)力而占領(lǐng)了大部分市場(chǎng)的 Java 商用開發(fā)工具了。對(duì)于一些沒有弄清楚開發(fā)工具與 JDK的區(qū)別的 Java入門者來說。 Java 作為一種高級(jí)程序設(shè)計(jì)語(yǔ)言,它除具有面向?qū)ο?、編寫?jiǎn)單、脫離機(jī)器結(jié)構(gòu)、具有分布性、魯棒性、可移植性、安全性特點(diǎn)外,并且提供了并發(fā)機(jī)制,解釋執(zhí)行具有很高的性能。以字節(jié)方式進(jìn)行編碼,使得程序不受運(yùn)行平臺(tái)和環(huán)境的限制成為可能。 Java 是一種被廣泛使用的網(wǎng)絡(luò)編程語(yǔ)言,這是一種新的計(jì)算概念。如果與其他眾多的編程語(yǔ)言作一下比較,會(huì)發(fā)現(xiàn)這些特點(diǎn)正是 Java 語(yǔ)言之所以如此風(fēng)靡的原因所在。在 Java 發(fā)布后不久, Java 的設(shè)計(jì)者就已經(jīng)制定出了 Java 、 Java 、 Java 、 Java 、 Java Java 版。 Java 也從當(dāng)初的一種語(yǔ)言而逐漸形成一種產(chǎn)業(yè),基于 Java 語(yǔ)言的 J2EE 架構(gòu)已成為微軟 .NET 平臺(tái)的強(qiáng)大競(jìng)爭(zhēng)對(duì)手。從 1992 的秋天 Oak 問世,到 1995 春天公開發(fā)布 Java 語(yǔ)言,許多人都對(duì) Java 的設(shè)計(jì)和改進(jìn)做出 了貢獻(xiàn)。 Java 是由 James Gosling、 Patrick Naughton、 Chris Warth、 Ed Frank 以及 Mike Sheridan 等人于 1991 年在 Sun Microsystems 公司設(shè)計(jì)出來的,開發(fā)第一個(gè)版本花了 18 個(gè)月時(shí)間。略有不同的是, Java 語(yǔ)言完全面向?qū)ο?,從而摒棄了二者的不足之處?Java 的語(yǔ)法是從 C 繼承的, Java 許多面向?qū)ο筇匦远际艿?C++的影響。一般認(rèn)為, B 語(yǔ)言導(dǎo)致了 C 語(yǔ)言的誕生、 C 語(yǔ)言演變出 C++語(yǔ)言,而 Java 語(yǔ)言則明顯帶有 C++語(yǔ)言的特征。 二、系統(tǒng)開發(fā)工具和平臺(tái) 關(guān)于 java 語(yǔ)言 Java 語(yǔ)言是由 Sun 公司于 1995 年推出的一種新的編程語(yǔ)言,它是一種跨平臺(tái)、適合于分布式計(jì)算環(huán)境的純面向?qū)ο笳Z(yǔ)言。 網(wǎng)絡(luò) 爬蟲的工作原理 網(wǎng)絡(luò)爬蟲 是搜索引擎的核心部分,其名稱 出自 Spider 的意譯 , 具有相同詞義的詞語(yǔ)還有 Crawler, robo ts, bot s, wanderer 等等 .網(wǎng)絡(luò)爬蟲定義有廣義和狹義之分 , 狹義上的定義為利用標(biāo)準(zhǔn)的 協(xié)議根據(jù)超 級(jí) 鏈 接 和 Web 文檔檢索的方法遍歷萬(wàn)維網(wǎng)信息空間的軟件程序 。 “網(wǎng)絡(luò)蜘蛛”實(shí)際上是一些基于 web 的程序,利用主頁(yè)中的超文本鏈接遍歷 Web.利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的“網(wǎng)絡(luò)蜘蛛”程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有 URL 爬到其它網(wǎng)頁(yè),重復(fù)這過程,并把爬過的所有網(wǎng)頁(yè)收集到網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中 。 關(guān)鍵字: 爬蟲、搜索引擎 Abstract The paper, discussing from the application of the search engine, searches the importance and function of Web spider in the search en
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1