正文內(nèi)容

畢業(yè)論文搜索引擎的研究與實(shí)現(xiàn)-預(yù)覽頁(yè)

2025-07-13 17:55 上一頁(yè)面

下一頁(yè)面

　

【正文】按照 Google 公司總裁 Larry Page 的演講，Google 正在用 3,000 臺(tái)運(yùn)行 Linux 系統(tǒng)的個(gè)人電腦在搜集 Web 上的網(wǎng)頁(yè)，而且以每天 30 臺(tái)的速度向這個(gè)微機(jī)集群里添加電腦，以保持與網(wǎng)絡(luò)的發(fā)展相同步。在中國(guó)，搜索引擎通常指基于網(wǎng)站目錄的搜索服務(wù)或是特定網(wǎng)站的搜索服務(wù)，本人這里研究的是基于因特網(wǎng)的搜索技術(shù)。系統(tǒng)結(jié)構(gòu)圖網(wǎng)絡(luò)機(jī)器人也稱為“網(wǎng)絡(luò)蜘蛛”(Spider)，是一個(gè)功能很強(qiáng)的 WEB 掃描程序。網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁(yè)面存放在臨時(shí)數(shù)據(jù)庫(kù)中，如果通過(guò) SQL 直接查詢信息速度將會(huì)難以忍受。 Web 服務(wù)器客戶一般通過(guò)瀏覽器進(jìn)行查詢，這就需要系統(tǒng)提供 Web 服務(wù)器并且與索引數(shù)據(jù)庫(kù)進(jìn)行連接。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評(píng)價(jià)指標(biāo)。第三章網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人又稱為 Spider 程序，是一種專業(yè)的 Bot 程序。例如搜索巨頭 Google 公司，就利用網(wǎng)絡(luò)機(jī)器人程序來(lái)遍歷 Web 站點(diǎn)，以創(chuàng)建并維護(hù)這些大型數(shù)據(jù)庫(kù)。Web 就是建立在 HTTP ( Hypertext Transfer Protocol ) 協(xié)議基礎(chǔ)上，而 HTTP 又是建立在TCP/IP ( Transmission Control Protocol / Inter Protocol ) 協(xié)議之上，它同時(shí)也是一種Socket 協(xié)議。文本：除了腳本和標(biāo)簽之外的所有數(shù)據(jù)注釋：程序員留下的說(shuō)明文字，對(duì)用戶是不可見(jiàn)的簡(jiǎn)單標(biāo)簽：由單個(gè)表示的 HTML標(biāo)簽開始標(biāo)簽和結(jié)束標(biāo)簽：用來(lái)控制所包含的 HTML代碼我們?cè)谶M(jìn)行解析的時(shí)候不用關(guān)心所有的標(biāo)簽，只需要對(duì)其中幾種重要的進(jìn)行解析即可。它可以讓用戶通過(guò)點(diǎn)擊圖片來(lái)遷移到新的頁(yè)面中。我們?cè)诰唧w解析這些 HTMl 標(biāo)簽有兩種方法：通過(guò) JavaTM 中的 Swing 類來(lái)解析或者通過(guò) Bot 包中的 HTMLPage 類來(lái)解析，本人在實(shí)際編程中采用后者。程序首先解析網(wǎng)頁(yè)的 HTML 代碼，查找該頁(yè)面內(nèi)的超連接然后通過(guò)遞歸和非遞歸兩種結(jié)構(gòu)來(lái)實(shí)現(xiàn) Spider 程序。當(dāng) Spider 程序掃描完當(dāng)前頁(yè)面后會(huì)根據(jù)制定的策略訪問(wèn)隊(duì)列中的下一個(gè)超連接地址。該隊(duì)列中的 URL 不能被移入其他隊(duì)列中完成隊(duì)列如果解析網(wǎng)頁(yè)沒(méi)有出錯(cuò)，URL 將被送到這里。當(dāng)?shù)却?duì)列為空并且當(dāng)前沒(méi)有任何網(wǎng)頁(yè)時(shí)，Spider 程序就會(huì)停止它的工作。是這個(gè)網(wǎng)頁(yè)包含其他超級(jí)連接嗎？將這一網(wǎng)頁(yè)送入完成隊(duì)列并繼續(xù)查看網(wǎng)頁(yè)上的下一個(gè)超連接是否為指向Web 的連接？報(bào)告其他類型連接連接是否與網(wǎng)頁(yè)所在主機(jī)不同且只處理本地連接？報(bào)告外部連接報(bào)告網(wǎng)頁(yè)連接將連接加入等候隊(duì)列否是否是否是IspiderReportable 接口這是一個(gè)必須實(shí)現(xiàn)的接口，可以通過(guò)回調(diào)函數(shù)接受 Spider 所遇到的頁(yè)面。public boolean foundExternalLink(String url)。public boolean getRemoveQuery()。多線程是一個(gè)程序同時(shí)運(yùn)行多個(gè)任務(wù)的能力。據(jù)個(gè)例子說(shuō)明：一個(gè) Spider 程序需要下載十個(gè)頁(yè)面，要完成這一任務(wù)，程序必須向服務(wù)器發(fā)出請(qǐng)求然后接受這些網(wǎng)頁(yè)。這些隊(duì)列管理 Spider 程序必須維護(hù)大型網(wǎng)頁(yè)的列表。import 。import 。 (100)。 }// 發(fā)現(xiàn)外部連接時(shí)調(diào)用，url 表示程序所發(fā)現(xiàn)的 URL，若返回 true則把加入作業(yè)中，否則不加入。 }// 用于處理網(wǎng)頁(yè)，這是 Spider程序要完成的實(shí)際工作。 public void pletePage(HTTP , boolean error) { }// 由 Spider程序調(diào)用以確定查詢字符串是否應(yīng)刪除。 public void spiderComplete() { }}在本章中，首先介紹了網(wǎng)絡(luò)機(jī)器人的基本概念，然后具體分析了 Spider 程序的結(jié)構(gòu)和功能。第四章基于 lucene 的索引與搜索 Lucene 全文檢索Lucene 是 Jakarta Apache 的開源項(xiàng)目。索引數(shù)據(jù)源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ | Lucene Index| / searcher 結(jié)果輸出：Hits(doc(field1,field2) doc(field1...))Document：一個(gè)需要進(jìn)行索引的“單元”，一個(gè) Document由多個(gè)字段組成Field：字段Hits：查詢結(jié)果集，由匹配的 Document組成 Lucene 的索引效率通常書籍后面常常附關(guān)鍵詞索引表（比如：北京：12, 34 頁(yè)，上海：3,77 頁(yè)……），它能夠幫助讀者比較快地找到相關(guān)內(nèi)容的頁(yè)碼。如果是需要對(duì)多個(gè)關(guān)鍵詞進(jìn)行模糊匹配：like%keyword1% and like %keyword2% ...其效率也就可想而知了。Lucene 最核心的特征是通過(guò)特殊的索引結(jié)構(gòu)實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)不擅長(zhǎng)的全文索引機(jī)制，并提供了擴(kuò)展接口，以方便針對(duì)不同應(yīng)用的定制。使用：like %% 會(huì)把 herlands也匹配出來(lái)，多個(gè)關(guān)鍵詞的模糊匹配：使用 like %%%：就不能匹配詞序顛倒的..匹配度有匹配度算法，將匹配程度（相似度）比較高的結(jié)果排在前面?？啥ㄖ菩?通過(guò)不同的語(yǔ)言分析接口實(shí)現(xiàn)，可以方便的定制出符合應(yīng)用需要的索引規(guī)則（包括對(duì)中文的支持）沒(méi)有接口或接口復(fù)雜，無(wú)法定制結(jié)論高負(fù)載的模糊查詢應(yīng)用，需要負(fù)責(zé)的模糊查詢的規(guī)則，索引的資料量比較大使用率低，模糊匹配規(guī)則簡(jiǎn)單或者需要模糊查詢的資料量少中文切分詞機(jī)制對(duì)于中文來(lái)說(shuō)，全文索引首先還要解決一個(gè)語(yǔ)言分析的問(wèn)題，對(duì)于英文來(lái)說(shuō)，語(yǔ)句中單詞之間是天然通過(guò)空格分開的，但亞洲語(yǔ)言的中日韓文語(yǔ)句中的字是一個(gè)字挨一個(gè)，所有，首先要把語(yǔ)句中按“詞”進(jìn)行索引的話，這個(gè)詞如何切分出來(lái)就是一個(gè)很大的問(wèn)題。這樣，在查詢的時(shí)候，無(wú)論是查詢北京還是查詢天安門，將查詢?cè)~組按同樣的規(guī)則進(jìn)行切分：北京，天安安門，多個(gè)關(guān)鍵詞之間按與and的關(guān)系組合，同樣能夠正確地映射到相應(yīng)的索引中。還需要包括詞頻統(tǒng)計(jì)等內(nèi)容適用領(lǐng)域嵌入式系統(tǒng)：運(yùn)行環(huán)境資源有限分布式系統(tǒng)：無(wú)詞表同步問(wèn)題多語(yǔ)言環(huán)境：無(wú)詞表維護(hù)成本對(duì)查詢和存儲(chǔ)效率要求高的專業(yè)搜索引擎 Lucene 與 Spider 的結(jié)合首先構(gòu)造一個(gè) Index 類用來(lái)實(shí)現(xiàn)對(duì)內(nèi)容進(jìn)行索引。import 。 Index() throws Exception { _writer = new IndexWriter(c:\\News\\index, new ChineseAnalyzer(), true)。 (_doc)。代碼分析如下：package news。import 。 } /** * 對(duì) Web頁(yè)面進(jìn)行解析后建立索引 */ public void start() { try { HTMLPage _page = new HTMLPage(_)。 Iterator _it = ()。 String _title = input(().trim())。 ()。 } catch (Exception e) { } } return temp。最后，還結(jié)合了具體代碼說(shuō)明了如何把 Lucene 全文搜索引擎和 Spider 程序互相集合來(lái)實(shí)現(xiàn)新聞搜索的功能。Tomcat 由 ApacheJakarta 子項(xiàng)目支持并由來(lái)自開放性源代碼 Java 社區(qū)的志愿者進(jìn)行維護(hù)。查詢界面截圖如下：搜索結(jié)果截圖如下：主要利用 JavaTM Servlet 技術(shù)實(shí)現(xiàn)，用戶通過(guò) GET 方法從客戶端向服務(wù)端提交查詢條件，服務(wù)端通過(guò) Tomcat 的 Servlet 容器接受并分析提交參數(shù)，再調(diào)用 lucene 的開發(fā)包進(jìn)行搜索操作。 // 查詢條件 String line = qc。 (body bgcolor=ffffff)。get39。3399FF39。QueryContent39。submit39。開始搜索39。 ( 總共找到font color=red + () + /font條新聞br)。 start += HITS_PER_PAGE) { int end = ((), start + HITS_PER_PAGE)。 String url = (url)。} else { (沒(méi)有找到！)。 Tomcat 上部署項(xiàng)目Tomcat 中的應(yīng)用程序是一個(gè) WAR（Web Archive）文件。通常這些所依賴的類也可以打包成 JAR 放到 WEBINF 下的 lib 目錄下，當(dāng)然也可以放到系統(tǒng)的 CLASSPATH 中。本章中詳細(xì)介紹了如何構(gòu)架基于 Tomcat 的 Web 服務(wù)器，使得用戶通過(guò)瀏覽器進(jìn)行新聞的搜索，最后還對(duì) Tomcat 如何部署進(jìn)行了說(shuō)明。由于主題搜索運(yùn)用了人工分類以及特征提取等智能化策略，因此它比上面提到的前三代的搜索引擎將更加有效和準(zhǔn)確，我們將這類完善的主題搜索引擎稱為第四代搜索引擎。反之，搜索器在向主控程序提交新的 URL 和它的權(quán)值的時(shí)候，主控程序會(huì)按照權(quán)值預(yù)先排序，以便下一次有序的發(fā)給搜索器。模型假設(shè)如下：1) 用戶隨機(jī)的選擇一個(gè)網(wǎng)頁(yè)作為上網(wǎng)的起始網(wǎng)頁(yè)；2) 看完這個(gè)網(wǎng)頁(yè)后，從該網(wǎng)頁(yè)內(nèi)所含的超鏈內(nèi)隨機(jī)的選擇一個(gè)頁(yè)面繼續(xù)進(jìn)行瀏覽；3) 沿著超鏈前進(jìn)了一定數(shù)目的網(wǎng)頁(yè)后，用戶對(duì)這個(gè)主題感到厭倦，重新隨機(jī)選擇一個(gè)網(wǎng)頁(yè)進(jìn)行瀏覽，并重復(fù) 2和 3。該方法能夠大幅度的提高簡(jiǎn)單檢索返回結(jié)果的質(zhì)量，同時(shí)能夠有效的防止網(wǎng)頁(yè)編寫者對(duì)搜索引擎的欺騙。由此可見(jiàn)，權(quán)威網(wǎng)頁(yè)對(duì)于主題搜索引擎的實(shí)現(xiàn)有很重大的意義。最典型中心網(wǎng)頁(yè)的一個(gè)例子是 Yahoo！，它的目錄結(jié)構(gòu)指向了很多主題的權(quán)威網(wǎng)頁(yè)，使得它兼任了很多主題的中心網(wǎng)頁(yè)。本章介紹了面向主題的搜索策略，并作了

點(diǎn)擊復(fù)制文檔內(nèi)容

畢業(yè)設(shè)計(jì)相關(guān)推薦

搜索引擎營(yíng)銷-資料下載頁(yè)

【摘要】請(qǐng)每組學(xué)生展示自己的思維導(dǎo)圖，列出與主題相關(guān)的關(guān)鍵詞案例以組為單位，為“汽車音響“網(wǎng)站選擇推廣關(guān)鍵詞，并填寫報(bào)告任務(wù)關(guān)鍵詞選擇提示：1．自己如果是用戶，會(huì)用什么詞搜索呢？2．問(wèn)問(wèn)其他人會(huì)用什么詞來(lái)搜索？3．競(jìng)爭(zhēng)者的網(wǎng)站用了哪些關(guān)鍵詞？（搜索引擎前二十名網(wǎng)站）

2025-07-25 08:22

搜索引擎介紹-資料下載頁(yè)

【摘要】搜索引擎崔雷實(shí)例一欲在國(guó)內(nèi)購(gòu)買酶聯(lián)免疫試劑，查詢?cè)噭┑念愋?、價(jià)格和商家檢索提示?本例涉及通用信息的查找，宜選擇Google。?核心概念是酶聯(lián)免疫，修飾概念是試劑、價(jià)格等，要考慮到各種概念的各種表達(dá)方式。?可以使用的檢索詞–酶聯(lián)免疫、酶免、ELISA；–產(chǎn)品、試劑、試劑盒；

2025-07-25 08:21

搜索引擎技術(shù)-資料下載頁(yè)

【摘要】搜索引擎技術(shù)閆宏飛，北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)實(shí)驗(yàn)室2020年12月24日@CERNET2020內(nèi)容提要?搜索引擎工作原理?信息檢索相關(guān)研究和機(jī)構(gòu)搜索引擎—WebSearchEngines?定義：允許用戶遞交查詢，檢索出與查詢相關(guān)的網(wǎng)頁(yè)結(jié)果列表，并且排序輸出。?創(chuàng)建索引的方法–手工索引

2025-08-23 10:45

淺議seo搜索引擎優(yōu)化_畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

【摘要】淺議SEO搜索引擎優(yōu)化_畢業(yè)設(shè)計(jì)論文畢業(yè)設(shè)計(jì)（論文）題目：淺議SEO搜索引擎優(yōu)化系別：信息技術(shù)系專業(yè)：電子商務(wù)年級(jí)：09電子商務(wù)G3（年月）目錄摘要4第一章SEO概述5SEO的定義

2024-12-02 06:25

ehkaaa搜索引擎-資料下載頁(yè)

【摘要】搜索引擎的使用進(jìn)入?RSS?XML?博客Blog?播客?維客Wiki?……?服務(wù)用戶?開放獲取?參與?集體智能?草根?豐富體驗(yàn)?……博客，是繼Email、BBS、ICQ(IM)之后出現(xiàn)的第四種網(wǎng)絡(luò)交流方式，是互聯(lián)網(wǎng)深度交流

2025-08-04 09:33

tbhaaa搜索引擎-資料下載頁(yè)

【摘要】搜索引擎文獻(xiàn)檢索教研室?隨著信息社會(huì)的到來(lái),因特網(wǎng)作為信息交流的中心與樞紐作用也愈顯重要。因特網(wǎng)可以稱之為一個(gè)巨大的信息庫(kù),它擁有眾多但卻雜亂無(wú)章的信息,并且這些信息每時(shí)每刻都在以幾何級(jí)數(shù)遞增。?如何從因特網(wǎng)上獲取自己所需信息就成了一個(gè)大問(wèn)題。搜索引擎正是在這

2025-08-04 09:38

基于lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁(yè)

【摘要】基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要Lucene是一個(gè)開源的用于制作搜索引擎的框架。目前第二代搜索引擎的設(shè)計(jì)思路為利用網(wǎng)絡(luò)爬蟲建立數(shù)據(jù)源，結(jié)合分詞技術(shù)把數(shù)據(jù)源建成索引，利用索引從海量的數(shù)據(jù)源中得到搜索結(jié)果，對(duì)搜索的結(jié)

2024-11-07 08:40

搜索引擎外文翻譯-資料下載頁(yè)

【摘要】外文資料翻譯資料來(lái)源:網(wǎng)絡(luò)文章名：UsingtheSEOforFirefoxPlus-In書刊名：《SearchEngineOptimization》作者：KristopherB.Jones出版社：WileyPublishing,Inc,2021章節(jié)：Usingth

2024-12-07 08:58

搜索引擎使用技巧-資料下載頁(yè)

【摘要】搜索引擎使用技巧南京農(nóng)業(yè)大學(xué)現(xiàn)代教育技術(shù)中心周勇有人說(shuō)，會(huì)搜索才叫會(huì)上網(wǎng)，搜索引擎在我們?nèi)粘Ｉ钪械牡匚灰咽桥e足輕重。你也許是個(gè)剛要興沖沖地要上網(wǎng)沖浪，也許已經(jīng)在互聯(lián)網(wǎng)上蟄伏了好幾年，無(wú)論怎樣，要想在浩如煙海的互聯(lián)網(wǎng)信息中找到自己所需的信息，都需要一點(diǎn)點(diǎn)技巧。對(duì)于企業(yè)而言，學(xué)習(xí)搜索，提高技巧，就能找到更多的潛在客戶。對(duì)于大家而言，學(xué)習(xí)搜索引擎技巧可以有助我們的學(xué)習(xí)和生活！

2025-06-28 14:26

搜索引擎營(yíng)銷實(shí)驗(yàn)-資料下載頁(yè)

【摘要】n更多企業(yè)學(xué)院：《中小企業(yè)管理全能版》183套講座+89700份資料《總經(jīng)理、高層管理》49套講座+16388份資料《中層管理學(xué)院》46套講座+6020份資料?《國(guó)學(xué)智慧、易經(jīng)》46套講座《人力資源學(xué)院》56套講座+27123份資料《各階段員工培訓(xùn)學(xué)院》77套講座+324份資料

2025-04-17 01:34

搜索引擎推廣代理-資料下載頁(yè)

【摘要】搜索引擎推廣代理搜索引擎推廣代理本合同用于代理商向客戶銷售_______公司的搜索引擎登錄服務(wù)。如有任何附加合同，請(qǐng)客戶參照本合同中關(guān)于服務(wù)詳情與收費(fèi)報(bào)價(jià)的部分。本合同由以下當(dāng)事人訂立...

2024-12-16 23:11

一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)—免費(fèi)畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

【摘要】畢業(yè)設(shè)計(jì)(論文)一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)論文作者姓名：申請(qǐng)學(xué)位專業(yè)：申請(qǐng)學(xué)位類別：指導(dǎo)教師姓名（職稱）：論文提交日期：一個(gè)小型搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)摘要隨著互聯(lián)網(wǎng)和寬帶上網(wǎng)的普

2024-11-29 11:23

基于javaweb的搜索引擎的實(shí)現(xiàn)報(bào)告模板-資料下載頁(yè)

【摘要】仁愛(ài)學(xué)院長(zhǎng)實(shí)習(xí)設(shè)計(jì)說(shuō)明書題目:基于Javaweb的搜索引擎的實(shí)現(xiàn)系別：專業(yè)班級(jí)：學(xué)號(hào)：

2024-11-07 22:01

專業(yè)資源與搜索引擎-資料下載頁(yè)

【摘要】網(wǎng)絡(luò)學(xué)術(shù)資源檢索專業(yè)資源網(wǎng)站檢索搜索引擎的檢索專業(yè)資源網(wǎng)站檢索專業(yè)信息網(wǎng)站通過(guò)英特網(wǎng)向信息用戶提供圖書、期刊、視頻、音頻等數(shù)字信息資源，已成為獲取學(xué)術(shù)資源與專業(yè)信息的重要來(lái)源。國(guó)家科技圖書文獻(xiàn)中心中國(guó)高等教育文獻(xiàn)保障系統(tǒng)中國(guó)高校人文社會(huì)科學(xué)文獻(xiàn)中心專業(yè)資源網(wǎng)站檢索國(guó)家科技圖書文

2025-08-04 10:46

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片