freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計(文件)

2024-12-23 10:20 上一頁面

下一頁面
 

【正文】 erer 等等 .網(wǎng)絡(luò)爬蟲定義有廣義和狹義之分 , 狹義上的定義為利用標(biāo)準(zhǔn)的 協(xié)議根據(jù)超 級 鏈 接 和 Web 文檔檢索的方法遍歷萬維網(wǎng)信息空間的軟件程序 。一般認(rèn)為, B 語言導(dǎo)致了 C 語言的誕生、 C 語言演變出 C++語言,而 Java 語言則明顯帶有 C++語言的特征。略有不同的是, Java 語言完全面向?qū)ο?,從而摒棄了二者的不足之處。?1992 的秋天 Oak 問世,到 1995 春天公開發(fā)布 Java 語言,許多人都對 Java 的設(shè)計和改進(jìn)做出 了貢獻(xiàn)。在 Java 發(fā)布后不久, Java 的設(shè)計者就已經(jīng)制定出了 Java 、 Java 、 Java 、 Java 、 Java Java 版。 Java 是一種被廣泛使用的網(wǎng)絡(luò)編程語言,這是一種新的計算概念。 Java 作為一種高級程序設(shè)計語言,它除具有面向?qū)ο?、編寫簡單、脫離機器結(jié)構(gòu)、具有分布性、魯棒性、可移植性、安全性特點外,并且提供了并發(fā)機制,解釋執(zhí)行具有很高的性能。比起捆綁在服務(wù)器上銷售的 JDeveloper, JBuiIder 應(yīng)該是唯一的僅靠自身的實力而占領(lǐng)了大部分市場的 Java 商用開發(fā)工具了。 Jbuilder 與 Inprise Application Server 緊密集成,同時支持 WebLogic Server,支持 EJB 和 EJB ,可以快速開發(fā) J2EE 的電子商務(wù)應(yīng)用。 6) Jbuilder 擁有專業(yè)化的圖形調(diào)試介面,支持遠(yuǎn)程調(diào)試和多線程調(diào)試,調(diào)試器支持各種JDK 版本 ,包括 J2ME/J2SE/J2EE。在默認(rèn)情況下,Servlet 采用一種無狀態(tài)的請求 響應(yīng)處理方式。 是持久的。 ActionServlet 繼承自 類,其在 Struts framework 中扮演的角色是中心控制器。與處理每個請求都要全部加載一個完整的可執(zhí)行程序相比,效率得以提高。 三、系統(tǒng)總體設(shè)計 系統(tǒng)總體結(jié)構(gòu) 搜 索 界 面s e r v l e t 處 理 模 塊調(diào) 用s p i d e r調(diào) 用頁 面 解 析調(diào) 用信 息 返 回 系統(tǒng)類圖 1)servlet 結(jié)構(gòu) 2)網(wǎng)絡(luò)爬蟲結(jié)構(gòu) 3)頁面解析結(jié)構(gòu) 搜索策略 網(wǎng)絡(luò)爬蟲在搜索時往往采用一定的搜索策略 。 charset=gb2312 /head body bgcolor=FFFFFF leftmargin=0 topmargin=0 marginwidth=0 marginheight=0 form action=/WebModule1/myservlet method=get ! ImageReady Slices (未標(biāo)題 1) table id=Table_01 width=1025 height=768 border=0 cellpadding=0 cellspacing=0 tr td colspan=4 img src=images/ width=1024 height=171 alt=/td td img src=images/ width=1 height=171 alt=/td /tr tr td style=backgroundcolor: ffccff 搜索內(nèi)容 td td style=backgroundcolor: ffccff input type=text name=param0 style=width: 335px/td td style=backgroundcolor: ffccff input type=submit name=Submit value=搜索 input type=reset value=重設(shè)/td td background=images/ width=162 height=71 /td td img src=images/ width=1 height=71 alt=/td /tr tr td colspan=4 rowspan=2 /td td img src=images/ width=1 height=31 alt=/td /tr tr td img src=images/ width=1 height=495 alt=/td /tr /table ! End ImageReady Slices /form /body /html servlet 的實現(xiàn) 用 Servlet 來響應(yīng)用戶的請求,實現(xiàn)搜索參數(shù)的傳入。 import .*。 charset=GBK。//搜索到的結(jié)果 //Initialize global variables public void init() throws ServletException { } //Process the HTTP Get request public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { String var0 = (param0)。 byte[] bytes=(ISO88591)。 //此處開始爬行 ()。 (headtitle爬蟲演示 /title/head)。 String te。 (p+te+、 +(i)+/p)。 ()。由 HTML 標(biāo)準(zhǔn)定義了一組元素類型,不同類型的元素分別描述文本、圖像和超文本鏈接等。正是通過它們,某個具體的移動 Spider 得以完成對該 Spider 所對應(yīng) web 的全部搜索任務(wù)。新發(fā)現(xiàn)的 URL被加入到這個隊列中。 (3)錯誤隊列 (ErrorURL)。如果在處理網(wǎng)頁時沒有發(fā)生錯誤,處理完畢時,該 URL 將被加入到完成隊列,該 URL 到達(dá)這一隊列后將不再移人其他隊列。 網(wǎng)頁分析類的實現(xiàn) package crawer。 import 。 import 。 import 。 // 基本 URL public HtmlParser (String PageContent) { int state = 0。 for (int j = 0。) state = 39。39。 analyze(())。 if (() 2) return。 } else if ((base)) { extractBase(())。 } /**分析 frame 分析 . */ void analyzeFrame(String frame) { String src = extract(frame, src)。 if (b2 != null) { try { base = new URL( b2)。 int i = (key)。=39。 if ((i) == 39。39。 } } else { int targ = ()。 } return (i, i2)。 } public ArrayList String getResult(){ return fafa。每個 robot 完成的功能都不一樣所以它們的本地索引結(jié)果也就不同。同時由于 robot 和 spider 不能更新太快 (因為網(wǎng)絡(luò)帶寬有限,如果更新太快,那么其他用戶就會受到影響 ),難免有不能及時加入的新 WWW 地址,所以很多擁有 robot 和 spider 的 WWW 索引和檢索服務(wù)站點同時提供一項由用戶加入新 WWW地址的功能。一般來說,一個索引和檢索服務(wù)器在實現(xiàn)時要涉及的主要技術(shù)有如下幾方面: (1)HTTP (HyperText Transfer Protoco1)協(xié)議。它是 WWW 服 務(wù)器所發(fā)回各種數(shù)據(jù)的主要描述語言, 因為搜索引擎的主要搜索目標(biāo)是文本,所以必須對 HTML 進(jìn)行解析,提取出相應(yīng)的數(shù)據(jù)。通過它,我們可以執(zhí)行 WWW 服務(wù)器上的程序:我們把查詢要求傳遞給 HTTP 服務(wù)器, HTTP~務(wù)器根據(jù)客戶的請求執(zhí)行 CGI 程序 CG I 程序根據(jù)通過HTTP 服務(wù)器傳遞的查詢要求對數(shù)據(jù)庫進(jìn)行操作,并把查詢結(jié)果以 HTML 的形式傳遞回HTTP 客戶。 import .*。 ArrayList String errorList= new ArrayList String()。//最大處理的 url 數(shù) String searchString。 public myspider(String startUrl,int maxUrl,String searchString){ =startUrl。 } public void run(){//啟動搜索線程 crawl(startUrl,maxUrl, searchString,limitHost,caseSensitive)。 } catch (Exception e) { return null。 // 獲取主機不允許搜索的 URL 緩存 ArrayList String disallowList =(host)。 BufferedReader reader =new BufferedReader(new InputStreamReader(()))。//獲取不允許訪問路徑 // 檢查是否有注釋。 (disallowPath)。 //web 站點根目錄下沒有 文件 ,返回真 } } String file = ()。 i++) { String disallow = (i)。 // Read page into buffer. String line。//輸出網(wǎng)頁測試 ,結(jié)果可以顯示 } return ()。 } return (url)。 return (linkList)。 // String terms = (searchString).toString()。 i++) { if (caseSensitive) { if ((terms) == 1) { return false。 (a href=+url++bb+/a)。 // (bb)。//搜索字符串 HashSet String crawledList = new HashSet String()。 } if (() 1) { (Missing Search String.)。 } // 從開始 URL 中移出 startUrl = removeWwwFromUrl(startUrl)。 // Remove URL from the to crawl list. (url)。 //(提示搜索過的 :+verifiedUrl)。 () 0){ // 從頁面中獲取有效的鏈接 //ArrayList String links =retrieveLinks(verifiedUrl, pageContents, crawledList,limitHost)。 // for(int j=0。//添加新取得的連接 if (searchStringMatches(url,pageContents, searchString,caseSensitive)) { //(url)。 return。 (Start searching...)。執(zhí)行完畢,出現(xiàn)結(jié)果: 搜索成功。當(dāng)然在這突飛猛進(jìn)的信息時代,技術(shù)的更新更是日新月異,所以其中有的思想不可能完全適應(yīng)于各種實際情況。 首先,我要感謝我的導(dǎo)師,感謝他帶給我來學(xué)習(xí)的機會,感謝他對我學(xué)術(shù)上的悉心指導(dǎo),感謝他對我生活上的關(guān)懷和體貼。這里我要再次感謝老師。 He knows weˇ ll be hap
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1