正文內(nèi)容

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計(參考版)

2024-12-03 10:20本頁面

　　

【正文】 and the embarrassment of her manner a。 and was conse quently resolved not to be out of sight of the inn the whole of that morning. But her conclusion was false。 Whatˇ s your name, kid?〃 he asked the gypsy. 168。 Well, theyˇ re horses.〃 168。 He knows weˇ ll be happier if we donˇ t get too good a look at these skins,〃 another pic answered. 168。參考文獻 [1] 李曉明，悶宏飛，王繼民．搜索引擎 — — 原理、技術(shù)與系統(tǒng) [M]．北京：科學(xué)出版社，2020． [2] Heaton J．網(wǎng)絡(luò)機器人 Java 編程指南 [M]．北京：電子工業(yè)出版社， 2020． [3] 崔澤永，常曉燕．搜索引擎的 Web Robot 的技術(shù)與優(yōu)化 [J]．微機發(fā)展， 2020， 14(4)： 100— 102． [4] Shafer C．數(shù)據(jù)結(jié)構(gòu)與算法分析 (JAVA 版 )[M]．北京：電子工業(yè)出版社， 2020． [5]賈年．基于移動 Agent 搜索引擎的研究與實現(xiàn) [D]．成都：電子科技大學(xué)， 2020． [6]賈年．移動 Agent 研究 [J]．四川工業(yè)學(xué)院學(xué)報， 2020， 23(3)： 51— 54． [7]S． Charkabarti． Mimng the Web’ s Link structure[J]． IEEE Computer， 2020， 32(8)： 60— 67． [8]徐寶文，張衛(wèi)豐．搜索引擎與信息獲取技術(shù)【 M】．北京：清華大學(xué)出版社， 2020 168。這里我要再次感謝老師。給我留下深刻印象的，是他知識的淵博、治學(xué)態(tài)度的嚴謹、誨人不倦的學(xué)者風范，是他謙遜待人、處處關(guān)心別人的長者風度，是他勤奮忘我的工作態(tài)度、精益求精的治學(xué)作風。首先，我要感謝我的導(dǎo)師，感謝他帶給我來學(xué)習(xí)的機會，感謝他對我學(xué)術(shù)上的悉心指導(dǎo)，感謝他對我生活上的關(guān)懷和體貼。我將在今后的學(xué)習(xí)中不斷完善自己。當然在這突飛猛進的信息時代，技術(shù)的更新更是日新月異，所以其中有的思想不可能完全適應(yīng)于各種實際情況。在編程中發(fā)現(xiàn)這些學(xué)科相互聯(lián)系，相輔相成，在以后更加復(fù)雜的系統(tǒng)中肯定會涉及到更多、更復(fù)雜的學(xué)科，需要我們認真學(xué)習(xí)和掌握的東西實在是太多了。執(zhí)行完畢，出現(xiàn)結(jié)果：搜索成功。 ()。 (Start searching...)。 myspider crawler = new myspider(args[0],max,args[2])。 return。//輸出找到的地址 } } } return result。//添加新取得的連接 if (searchStringMatches(url,pageContents, searchString,caseSensitive)) { //(url)。j++){ // ( (j))。 // for(int j=0。 ArrayList String links=()。 () 0){ // 從頁面中獲取有效的鏈接 //ArrayList String links =retrieveLinks(verifiedUrl, pageContents, crawledList,limitHost)。 if (pageContents != null amp。 //(提示搜索過的 :+verifiedUrl)。 // Skip URL if robots are not allowed to access it. //if (!isRobotAllowed(verifiedUrl)) { // continue。 // Remove URL from the to crawl list. (url)。 while (() 0) { if (maxUrls != 1) { if (() == maxUrls) { break。 } // 從開始 URL 中移出 startUrl = removeWwwFromUrl(startUrl)。 } if (() 0) { (err!!!)。 } if (() 1) { (Missing Search String.)。 if (maxUrls 1) { (Invalid Max URLs value.)。//搜索字符串 HashSet String crawledList = new HashSet String()。 } } } return true。 // (bb)。 } else{//存在相同字符串 int aa=(())。 (a href=+url++bb+/a)。 String bb=(aa,aa+()+10)。 i++) { if (caseSensitive) { if ((terms) == 1) { return false。 //for (int i = 0。 // String terms = (searchString).toString()。 if (!caseSensitive) {//如果不區(qū)分大小寫 searchContents = ()。 return (linkList)。 HtmlParser parser=new HtmlParser(pageContents)。 } return (url)。 } // 從 URL 中去掉 private String removeWwwFromUrl(String url) { int index = (://.)。//輸出網(wǎng)頁測試 ,結(jié)果可以顯示 } return ()。 while ((line = ()) != null) { (line)。 // Read page into buffer. String line。 } } return true。 i++) { String disallow = (i)。 for (int i = 0。 //web 站點根目錄下沒有文件 ,返回真 } } String file = ()。 (host, disallowList)。 (disallowPath)。 if (mentIndex != 1) { disallowPath =(0, mentIndex)。//獲取不允許訪問路徑 // 檢查是否有注釋。 String line。 BufferedReader reader =new BufferedReader(new InputStreamReader(()))。 if (disallowList == null) { disallowList = new ArrayList String()。 // 獲取主機不允許搜索的 URL 緩存 ArrayList String disallowList =(host)。 } // 檢測 robot 是否允許訪問給出的 URL. private boolean isRobotAllowed(URL urlToCheck) { String host = ().toLowerCase()。 } catch (Exception e) { return null。 URL verifiedUrl = null。 } public void run(){//啟動搜索線程 crawl(startUrl,maxUrl, searchString,limitHost,caseSensitive)。 =searchString。 public myspider(String startUrl,int maxUrl,String searchString){ =startUrl。//是否區(qū)分大小寫 boolean limitHost=false。//最大處理的 url 數(shù) String searchString。 //搜索到的結(jié)果 String startUrl。 ArrayList String errorList= new ArrayList String()。 import 。 import .*。 import .*。通過它，我們可以執(zhí)行 WWW 服務(wù)器上的程序：我們把查詢要求傳遞給 HTTP 服務(wù)器， HTTP~務(wù)器根據(jù)客戶的請求執(zhí)行 CGI 程序 CG I 程序根據(jù)通過HTTP 服務(wù)器傳遞的查詢要求對數(shù)據(jù)庫進行操作，并把查詢結(jié)果以 HTML 的形式傳遞回HTTP 客戶。為了提取關(guān)鍵字或者知識，必須分隔出單個的詞和句子。它是 WWW 服務(wù)器所發(fā)回各種數(shù)據(jù)的主要描述語言，因為搜索引擎的主要搜索目標是文本，所以必須對 HTML 進行解析，提取出相應(yīng)的數(shù)據(jù)。通過它，我們可以跟 WWW 服務(wù)器進行信息交換：從服務(wù)器獲得我們所要的各種信息，并將我們的要求發(fā)給服務(wù)器。一般來說，一個索引和檢索服務(wù)器在實現(xiàn)時要涉及的主要技術(shù)有如下幾方面： (1)HTTP (HyperText Transfer Protoco1)協(xié)議。但由于每個 robot 都是與一定的索引和檢索技術(shù)相聯(lián)系的，所以它必須要能與其它模塊相配合工作。同時由于 robot 和 spider 不能更新太快 (因為網(wǎng)絡(luò)帶寬有限，如果更新太快，那么其他用戶就會受到影響 )，難免有不能及時加入的新 WWW 地址，所以很多擁有 robot 和 spider 的 WWW 索引和檢索服務(wù)站點同時提供一項由用戶加入新 WWW地址的功能。在記錄新 URL 時，可以進行分析和判斷，從中去掉不需要或不想要的 URL，這不但提高了本地索引的速度，也減少了索引文件在本地所占用的磁盤空間。每個 robot 完成的功能都不一樣所以它們的本地索引結(jié)果也就不同。其漫游結(jié)果是形成一個很大的本地數(shù) 據(jù)庫，你可以通過 WWW 瀏覽器訪問與該網(wǎng)絡(luò)爬蟲相配合的檢索服務(wù)器對其結(jié)果進行查詢。 } public ArrayList String getResult(){ return fafa。 } /** 添加 url 到 URL 列表 . */ public void addURL(String url) { //(url)。 } return (i, i2)。 i targ。 } } else { int targ = ()。 if (i2 0) { return (i)。39。) { i++。 if ((i) == 39。 i++。=39。 i += ()。 int i = (key)。 } } } String extract(String line, String key) { try { key = ()。 if (b2 != null) { try { base = new URL( b2)。 addURL(src)。 } /**分析 frame 分析 . */ void analyzeFrame(String frame) { Str

點擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計(參考版)

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計(參考版)

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—畢業(yè)設(shè)計論文(參考版)

一個小型搜索引擎的設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計論文(參考版)

一個小型搜索引擎的設(shè)計與實現(xiàn)—免費計算機畢業(yè)設(shè)計論文(參考版)

it計算機]基于lucene的桌面搜索引擎(參考版)

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文(參考版)

畢業(yè)設(shè)計---基于asp的搜索引擎開發(fā)-畢業(yè)設(shè)計(參考版)

基于java的搜索引擎的設(shè)計與實現(xiàn)(參考版)

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文(參考版)

基于web搜索引擎的設(shè)計與實現(xiàn)畢業(yè)論文(參考版)

基于lucene的圖書搜索引擎的設(shè)計與實現(xiàn)(參考版)

元搜索引擎的設(shè)計與實現(xiàn)(參考版)

畢業(yè)設(shè)計-基于ajaxlucene構(gòu)建搜索引擎的設(shè)計和實現(xiàn)-論文(參考版)

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計與實現(xiàn)(參考版)

畢業(yè)設(shè)計-一個小型搜索引擎的設(shè)計與實現(xiàn)-論文(參考版)

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計(留存版)

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計-文庫吧

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計-wenkub

基于網(wǎng)絡(luò)爬蟲的搜索引擎設(shè)計與實現(xiàn)—計算機畢業(yè)設(shè)計(已修改)