freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于php的圖片搜索引擎-全文預(yù)覽

2024-12-10 15:13 上一頁面

下一頁面
  

【正文】 s[] = { h_plane, s_plane }。 IplImage* hsv = cvCreateImage( cvGetSize(src), 8, 3 )。 作為一個基本的計算機視覺、圖像處理和模式識別的開源項目, OpenCV 可以直接應(yīng)用于很多領(lǐng)域,作為二次開發(fā)的理想工具。 ③ 統(tǒng)一的結(jié)構(gòu)和功能定義。 Integrated Performance Primitives (IPP) 提供了透明接口。 OpenCV 擁有包括 300 多個 C 函數(shù)的跨平臺的中、高層 API。如何在準確的中文分詞基礎(chǔ)上,做更多的分析和挖掘,理解用戶的意圖,滿足用戶的需要,是每個搜索引擎公司都在努力做的事情。 中文分詞對于搜索引擎的影響,還表現(xiàn)在對于用戶輸入詞意圖的識別。對這些新詞的識 別會直接影響搜索結(jié)果的準確性,或者說相關(guān)性。由于索引過程中,分詞輸入的一篇文章,有大量的上下文信息,但在搜索時,用戶輸入的可能只有幾個字,很多上下文信息不在存在。當(dāng)位置連續(xù)時,在顯示摘要的時候,會讓你感覺只是用字符串匹配。另外,機器學(xué)習(xí)算法一般速度會比較慢,優(yōu)化速度,使之用于海量數(shù)據(jù)處理,也是使用機器學(xué)習(xí)的一個關(guān)鍵點。一般都是先定義一些特征,然后利用訓(xùn)練語料進行學(xué)習(xí),建立模型。人們試著告訴計算機目標,讓計算機自己去嘗試各種方法組合這些規(guī)則并得到最優(yōu)參數(shù),這就 是 機器學(xué)習(xí)。名也有一定規(guī)律:建華 /建國 /志強 .....等有許多經(jīng)常用于名字中的漢字;對于地名識別也可以找出很多規(guī)則,省 /縣 /村 /鎮(zhèn) /灣 /河等,都是很常用的后綴,如果他們出現(xiàn),之前出現(xiàn)地名的可能性比較大。你不可能把所有的人名都放入詞典中,這決定了人名注定會是新詞。 如何識別新詞成為最近幾年分詞技術(shù)研究的重點。還有 超女 , 三個代表 , 芙蓉姐姐 。 新詞,術(shù)語是 未登錄詞 ,就是那些沒有收入到詞典里面的詞。如何讓機器去識別語言中最小的語意單位,不是一件很容易的事情。很明顯:如果以 中國人 做為一個詞,那么搜索的時候,不需要任何 39。這時候,我們需要中文分詞。主板 和服 務(wù)器 39。這樣以兩個字做為索引單元,可以大大減少在搜索過程中的計算量。國人 39。同樣,對于一篇文章,以 2 為單位,把所有相鄰的漢字都索引起來,并記錄他們的位置。與 39。與 39。雅 39。如果不使用中文分詞,可以采用單個漢字索引方式。事實上,一個信息檢索系統(tǒng)在建立索引時的速度要求是可以放寬的,因為畢竟這是在后臺異步完成,而其搜索速度影響用戶最終體驗的直接因素。對其中的內(nèi)容進行檢索,在整個過程中,最消耗時間的應(yīng)該就是倒排階段。這是因為無論多大數(shù)量的文本數(shù)據(jù)庫,總能夠規(guī)范出一個關(guān)鍵字表。這種查找方式要比從第 1頁開始,線性匹配所有文本,找出包含有“冰糖葫蘆”的頁面內(nèi)容要快得多,如圖 所示 原始文檔 索引 圖 倒排 上說,倒排是一種面向單詞的索引機制。 當(dāng)使用倒排方式后,不再有整頁整頁的信息了,信息被分割成一個個的關(guān)鍵字,并輔以關(guān)鍵字在原書中的頁數(shù),而構(gòu)成一個倒排基本單位。簽名文檔的方式已經(jīng)基本被淘汰,更多人轉(zhuǎn)而使用倒 排方式。 【 7】 倒排索引 事實上,常用的索引方式有 3 種,分別是倒排、后綴數(shù)組和簽名文件。 搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。 對于網(wǎng)頁內(nèi)容的提取,一直是網(wǎng)絡(luò)蜘蛛中重要的技術(shù)。 對于多媒體、圖片等文件,一般是通過鏈接的錨文本(即,鏈接文本)和相關(guān)的文件注釋來判斷這些文件的內(nèi)容。同時,對于 HTML 網(wǎng)頁來說,除了標題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點關(guān)系也沒有,在提取網(wǎng)頁 內(nèi)容的時候,也需要 7 過濾這些無用的鏈接。網(wǎng)絡(luò)蜘蛛只需要調(diào)用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關(guān)的信息。對于網(wǎng)絡(luò)蜘蛛來說,抓取下來網(wǎng)頁包括各種格式,包括 html、圖片、 doc、 pdf、多媒體、動態(tài)網(wǎng)頁及其 它格式等。 現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網(wǎng)站。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁不應(yīng)該抓取,哪些網(wǎng)頁應(yīng)該更新。而當(dāng)搜索者點擊查看該網(wǎng)頁的時候,同樣需要搜索者提供相應(yīng)的權(quán)限驗證。對于網(wǎng)站設(shè)計者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計有助于搜索引擎抓取其更多的網(wǎng)頁。 【 5】 圖 廣度優(yōu)先和深度優(yōu)先原理圖 由于不可能抓取所有的網(wǎng)頁,有些網(wǎng)絡(luò)蜘蛛對一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù)。這是最常用的方式,因為這個方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。同時,由于數(shù)據(jù)量太大,在提供搜索時也會有效率方面的影響。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這 些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。將自動分類技術(shù)、中文內(nèi)容分析技術(shù)及區(qū)域識別技術(shù)應(yīng)用到大型搜索引擎中,除了在信息檢索速度、更新頻率 等基本技術(shù)指標方面處于領(lǐng)先地位外,它的網(wǎng)頁相關(guān)檢索、拼音糾錯、模糊查詢、語言查詢技術(shù)也具有很高的水準。 搜索引擎既然沒有明確的定義,一般就以其發(fā)展中一些里程碑式的應(yīng)用標志其階段。 這兩種類型的搜索引擎各有自己的優(yōu)缺點。 【 2】 搜索 引擎 的 分類 搜索引擎并沒有一個精確的定義,一般來講,大致可以分為兩大類:全文搜索引擎( FullTextSearch Engine) 和分類目錄( Directory) 。 Lycos 是搜索引擎史上又一個重要的進步。 ALIWEB 不使用網(wǎng)絡(luò)搜尋 Robot,如果網(wǎng)站主管們希望自己的網(wǎng)頁被 ALIWEB 收錄,需要自己提交一個網(wǎng)站的簡介索引信息,類似于后來大家熟知的 Yahoo。不過,這更多地是從這兩者的形式和用途做的類比。最后根據(jù)用戶的查詢將獲取一些文檔, 這就是檢索結(jié)果。在建立好索引之后,就可以對其進行檢索了。在有了文本數(shù)據(jù)之后,需要建立文檔的索引。信息的表示和組織 是為了讓用戶更容易地訪問到需要的信息。 互聯(lián)網(wǎng)( Inter)正以前所未有的態(tài)勢改變著整個世界,它現(xiàn)在已經(jīng)成為了人類有史以來資源數(shù)量最多、資源種類最全、資源規(guī)模最大的一個綜合信息庫。因此,設(shè)計一個性能良好并且實用性強的搜索引擎并非易事。 在這樣的 背景下,搜索引擎的技術(shù)迅速發(fā)展。仿佛一夜間,各種各樣的搜索服務(wù)席卷而來。 1 前言 搜索,這兩個字無疑是當(dāng)今互聯(lián)網(wǎng)業(yè)界最為流行的字眼之一。 finally, when the user issued a query to the search engine, the search engine accept the query and return of information to users. This design uses the PHP, C++,and the HTML languages, MySQL database,and uses a lot of monly used search engine technologies such as Web Crawler、 Segmentation、 Inverted index、 Pattern Recognition、Solving the color distribution histogram and so on,to achieve a simple search engine system。該系統(tǒng)實現(xiàn)了如下功能: 基于關(guān)鍵字搜索圖片和基于圖片 的 顏色 來 搜索圖片 。 i 簡易圖片采集器以及 搜索引擎的實現(xiàn) 摘要 : 因特網(wǎng)上的信息浩瀚萬千,而且毫無秩序,所有的信息 像 汪洋上的一個個小島,網(wǎng)頁鏈接是這些小島之間縱橫交錯的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時查閱。 本設(shè)計 采 用 PHP、 C++和 HTML語言, MySQL數(shù)據(jù)庫,并 利用網(wǎng)絡(luò)爬蟲、分 詞、倒排查找、模式識別、求解顏色分布直方圖 等搜索引擎常用技術(shù) 實現(xiàn)的一個簡易的搜索引擎系統(tǒng) 。and through the establishment of the index to collate information。Color 目錄 iii 前言 ..................................................... 1 第一章 國內(nèi)外研究現(xiàn)狀 ................................. 2 信息獲取與搜索引擎 ........................................... 2 搜索引擎發(fā)展歷史 ......................................... 2 搜索引擎的分類 ........................................... 3 網(wǎng)絡(luò)蜘蛛 .................................................... 4 網(wǎng)絡(luò)蜘蛛的基本原理 ....................................... 4 網(wǎng)站與網(wǎng)絡(luò)蜘蛛 ........................................... 6 倒排索引 .................................................... 7 倒排的定義 ............................................... 8 倒排的特點 ............................................... 8 分詞技術(shù)簡介 ................................................ 9 為什么需要分詞 ........................................... 9 中文分詞的算法 .......................................... 10 中文分詞和搜索引擎 ...................................... 11 用 OpenCV 庫求解圖像顏色分布直方圖 ............................ 12 什么是 OpenCV ........................................... 12 求解圖像顏色分布直方圖實例 ............................... 13 第二章 搜索引擎運行環(huán)境的搭建 ........................ 17 php 的安裝與調(diào)試 ................................................. 17 apache 的調(diào)試和整合(修改 文件) ....................... 17 可能的問題 ....................................................... 19 opencv 開發(fā)環(huán)境配置 .............................................. 19 第三章 系統(tǒng)分析與設(shè)計 ................................ 20 應(yīng)用環(huán)境 ......................................................... 21 需求分析 ......................................................... 21 總體設(shè)計和模塊分析 ............................................... 22 網(wǎng)絡(luò)爬蟲(蜘蛛)模塊的詳細設(shè) 計 ............................... 23 求解圖像顏色直方圖模塊詳細設(shè)計 ............................... 27 Getimage 模塊詳細設(shè)計 ........................................ 29 iv Index 模塊的詳細設(shè)計 ......................................... 33 第四章 系統(tǒng)實現(xiàn) ..................................... 39 后臺功能實現(xiàn) .......................................
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1