【正文】
自己提交一個網(wǎng)站的簡介索引信息,類似于后來大家熟知的 Yahoo。然而,在它逐步發(fā)展的過程中,一些關(guān)鍵系統(tǒng)和產(chǎn)品的產(chǎn)生成為了具有里程碑意義的事情。不過,這更多地是從這兩者的形式和用途做的類比?!?1】 搜索引擎 發(fā)展歷史 曾有人說搜索引擎的鼻祖就是黃頁,誕生于 19 世紀(jì)末。最后根據(jù)用戶的查詢將獲取一些文檔, 這就是檢索結(jié)果。在查詢操作進(jìn)行之前還可以對其進(jìn)行一些處理。在建立好索引之后,就可以對其進(jìn)行檢索了。當(dāng)前有很多種建立文檔索引的方法,然而對于大規(guī)模的數(shù)據(jù)量來講,用得最多的還是倒排索引技術(shù)。在有了文本數(shù)據(jù)之后,需要建立文檔的索引。在獲取信息之前,首先需要構(gòu)造文本數(shù)據(jù)庫,即將來需要進(jìn)行檢索的數(shù)據(jù)。信息的表示和組織 是為了讓用戶更容易地訪問到需要的信息。如何準(zhǔn)確有效地從互聯(lián)網(wǎng)上獲取信息,就顯得十分迫切和重要。 互聯(lián)網(wǎng)( Inter)正以前所未有的態(tài)勢改變著整個世界,它現(xiàn)在已經(jīng)成為了人類有史以來資源數(shù)量最多、資源種類最全、資源規(guī)模最大的一個綜合信息庫。 論文的第一章對搜索引擎 相關(guān) 技術(shù)做了簡單介紹; 第二章詳細(xì)介紹了 系統(tǒng)構(gòu)建的組成 ; 第三章 是對系統(tǒng)的詳細(xì)設(shè)計(jì)與分析 ;第四章是對搜索引擎系統(tǒng)的具體實(shí)現(xiàn)進(jìn)行的介紹;第五章對系統(tǒng)進(jìn)行簡單測試。因此,設(shè)計(jì)一個性能良好并且實(shí)用性強(qiáng)的搜索引擎并非易事。一時(shí)間,搜索引擎技術(shù)成為最熱門的技術(shù)之一。 在這樣的 背景下,搜索引擎的技術(shù)迅速發(fā)展。同時(shí),伴隨著 的普及,網(wǎng)絡(luò)信息的膨脹速度呈指數(shù)急速增長,各種各樣的網(wǎng)站都需要為其加入檢索功能,以滿足用戶的需要。仿佛一夜間,各種各樣的搜索服務(wù)席卷而來。不是 Google 的條目少,當(dāng)用“ search engine”作關(guān)鍵字查找時(shí),在 Google 中可以查找到 7300 多 萬 條目。 1 前言 搜索,這兩個字無疑是當(dāng)今互聯(lián)網(wǎng)業(yè)界最為流行的字眼之一。Keyword。 finally, when the user issued a query to the search engine, the search engine accept the query and return of information to users. This design uses the PHP, C++,and the HTML languages, MySQL database,and uses a lot of monly used search engine technologies such as Web Crawler、 Segmentation、 Inverted index、 Pattern Recognition、Solving the color distribution histogram and so on,to achieve a simple search engine system。 關(guān)鍵詞 : 搜索 ; 關(guān)鍵字 ; 顏色 Simple picture collector as well as the realization of ii search engine Information security HaihuaYuan Teacher: ZuxiongDai Abstract: The information on the Inter are vast million, and there is no order .All information as a vast expanse of water on the island,but the web links are the crisscrossing bridges between these islands ,and the search engine for users to draw a clear map of the information for users to access. Search engine is the automatic collection of information from the Inter,which is made available to the users query the system after some sorting out. It uses the Web Spider automatically search Robot program to collect information。該系統(tǒng)實(shí)現(xiàn)了如下功能: 基于關(guān)鍵字搜索圖片和基于圖片 的 顏色 來 搜索圖片 。 它利用稱為網(wǎng)絡(luò)蜘蛛的自動搜索機(jī)器人程序來搜集信息 ;通過 建立索引 來 整理信息 ;最后,當(dāng) 用戶向搜索引擎發(fā)出查詢 時(shí) ,搜索引擎接受查詢并向用戶返回資料 。 i 簡易圖片采集器以及 搜索引擎的實(shí)現(xiàn) 摘要 : 因特網(wǎng)上的信息浩瀚萬千,而且毫無秩序,所有的信息 像 汪洋上的一個個小島,網(wǎng)頁鏈接是這些小島之間縱橫交錯的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時(shí)查閱。搜索引擎指自動 的 從因特網(wǎng) 上 搜集信息,經(jīng)過一定整理后,提供給用戶進(jìn)行查詢的系統(tǒng)。 本設(shè)計(jì) 采 用 PHP、 C++和 HTML語言, MySQL數(shù)據(jù)庫,并 利用網(wǎng)絡(luò)爬蟲、分 詞、倒排查找、模式識別、求解顏色分布直方圖 等搜索引擎常用技術(shù) 實(shí)現(xiàn)的一個簡易的搜索引擎系統(tǒng) 。該系統(tǒng)已投入實(shí)際使用并運(yùn)轉(zhuǎn)正常。and through the establishment of the index to collate information。 The system functions to achieve the following: Keywordbased search pictures and images colorbased search for system has already been put into practical use and operating normally. Keywords: Search。Color 目錄 iii 前言 ..................................................... 1 第一章 國內(nèi)外研究現(xiàn)狀 ................................. 2 信息獲取與搜索引擎 ........................................... 2 搜索引擎發(fā)展歷史 ......................................... 2 搜索引擎的分類 ........................................... 3 網(wǎng)絡(luò)蜘蛛 .................................................... 4 網(wǎng)絡(luò)蜘蛛的基本原理 ....................................... 4 網(wǎng)站與網(wǎng)絡(luò)蜘蛛 ........................................... 6 倒排索引 .................................................... 7 倒排的定義 ............................................... 8 倒排的特點(diǎn) ............................................... 8 分詞技術(shù)簡介 ................................................ 9 為什么需要分詞 ........................................... 9 中文分詞的算法 .......................................... 10 中文分詞和搜索引擎 ...................................... 11 用 OpenCV 庫求解圖像顏色分布直方圖 ............................ 12 什么是 OpenCV ........................................... 12 求解圖像顏色分布直方圖實(shí)例 ............................... 13 第二章 搜索引擎運(yùn)行環(huán)境的搭建 ........................ 17 php 的安裝與調(diào)試 ................................................. 17 apache 的調(diào)試和整合(修改 文件) ....................... 17 可能的問題 ....................................................... 19 opencv 開發(fā)環(huán)境配置 .............................................. 19 第三章 系統(tǒng)分析與設(shè)計(jì) ................................ 20 應(yīng)用環(huán)境 ......................................................... 21 需求分析 ......................................................... 21 總體設(shè)計(jì)和模塊分析 ............................................... 22 網(wǎng)絡(luò)爬蟲(蜘蛛)模塊的詳細(xì)設(shè) 計(jì) ............................... 23 求解圖像顏色直方圖模塊詳細(xì)設(shè)計(jì) ............................... 27 Getimage 模塊詳細(xì)設(shè)計(jì) ........................................ 29 iv Index 模塊的詳細(xì)設(shè)計(jì) ......................................... 33 第四章 系統(tǒng)實(shí)現(xiàn) ..................................... 39 后臺功能實(shí)現(xiàn) ..................................................... 39 客戶端系統(tǒng)界面實(shí)現(xiàn) ............................................... 43 第五章 系統(tǒng)測試 ..................................... 45 測試方案 ......................................................... 45 測試結(jié)果 ......................................................... 46 結(jié)果分析 ......................................................... 46 總結(jié) ................................................ 48 致 謝 ............................................... 49 參考文獻(xiàn) ............................................ 50 。在 Baidu 上輸入“搜索引擎”這個關(guān)鍵字,可以找到 3000 多萬條目 ,在 Google 上查找時(shí),可以查到 2600 多 萬條目。 Google 的巨大成功讓整個世界都把眼光投入到搜索引擎這個領(lǐng)域中。從最初的 Google、 Yahoo 到現(xiàn)今的 Baidu、 MSN、中搜、Sogou 等,搜索 引擎的品牌越來越多,服務(wù)也越來越豐富。另外,在企業(yè)級應(yīng)用的市場上,全文信息檢索的需求一直在增加,各種文檔處理、 內(nèi)容管理軟件都需要加入全文檢索的功能。各種討論搜索的文章、雜志、論文鋪天蓋地;論壇和博客上也有許多相關(guān)帖子 。 不過,搜索引擎技術(shù)并非是一種大眾技術(shù),從其出現(xiàn)開始,就一直是一種高門檻的技術(shù),它的后臺包括學(xué)術(shù)領(lǐng)域的眾多先進(jìn)思想和設(shè)計(jì),其涉及的學(xué)科包括自然語言處理、人工智能、離散數(shù)學(xué)、排列組合、編譯原理等。 抱著對搜索引擎強(qiáng)大的興趣和愛好,通過學(xué)習(xí)了大量的相關(guān)書籍,查閱相關(guān)網(wǎng)站,終于