freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于php的圖片搜索引擎-預(yù)覽頁

2025-12-13 15:13 上一頁面

下一頁面
 

【正文】 .............. 39 客戶端系統(tǒng)界面實現(xiàn) ............................................... 43 第五章 系統(tǒng)測試 ..................................... 45 測試方案 ......................................................... 45 測試結(jié)果 ......................................................... 46 結(jié)果分析 ......................................................... 46 總結(jié) ................................................ 48 致 謝 ............................................... 49 參考文獻 ............................................ 50 。 Google 的巨大成功讓整個世界都把眼光投入到搜索引擎這個領(lǐng)域中。另外,在企業(yè)級應(yīng)用的市場上,全文信息檢索的需求一直在增加,各種文檔處理、 內(nèi)容管理軟件都需要加入全文檢索的功能。 不過,搜索引擎技術(shù)并非是一種大眾技術(shù),從其出現(xiàn)開始,就一直是一種高門檻的技術(shù),它的后臺包括學術(shù)領(lǐng)域的眾多先進思想和設(shè)計,其涉及的學科包括自然語言處理、人工智能、離散數(shù)學、排列組合、編譯原理等。 2 第一章 國內(nèi)外 研究現(xiàn)狀 信息獲取與搜索引擎 隨著計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展 ,網(wǎng)絡(luò)上的信息量急劇增長,要在浩如煙海的網(wǎng)絡(luò)世界中尋找需要的信息,作為現(xiàn)代信息回去技術(shù)的主要應(yīng)用 —— 搜索引擎是不必可少的。 信息獲取技術(shù)包含信息的表示、存儲、組織和對信息的訪問方法。 因為黃頁,在電話誕生后成為了以電話為主體的信息門戶,而且黃頁把有電話的企業(yè)分門別類,的確與現(xiàn)在的搜索引擎有異曲同工之妙。 3 1993 年 10 月 Martijn Koster 創(chuàng)建了 ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相當于 Archie 的 HTTP 版本。除了網(wǎng)站搜索,它還支持 Gopher Tel 搜索。 1998 年 10 月之前, Google 只是 Stanford 大學的一個小項目 年 2 月,Google 完成了 。 【 3】 分類目錄則是通過人工的方式收集整理網(wǎng)絡(luò)資料形成數(shù)據(jù)庫的,比如雅虎中國以及搜狐、新浪、網(wǎng)易等網(wǎng)站的分類目錄。全文搜索引擎因為依靠網(wǎng)絡(luò)機器人搜索數(shù)據(jù),所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結(jié)果往往不夠準確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準確的查詢結(jié)果 ,但收集的內(nèi)容卻非常有限。 ? 第三代搜索引擎:是把“智能化”、“人機交互”等功能融入了主流。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider 就是在網(wǎng)上爬來爬去的蜘蛛。這其中的原因一方面是抓取技術(shù)的瓶頸,無法遍歷所有的網(wǎng)頁,有許多網(wǎng)頁無法從其它網(wǎng)頁的鏈接中找到;另一個原因是存儲技術(shù)和處理技術(shù)的問題,如果按照每個頁 面的平均大小為 20K計算(包含圖片), 100 億 網(wǎng)頁的容量是 1002020G 字節(jié),即使能夠存儲,下載也存在問題(按照一臺機器每秒下載 20K 計算, 需要 340 臺機器不停的下載一年時間,才能把所有網(wǎng)頁下載完畢)。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接 的所有網(wǎng)頁。兩種策略的區(qū)別,下圖 的說明會更加明確。這也讓有些網(wǎng)站上一部分網(wǎng)頁能夠在搜索引擎上搜索 到,另外一部分不能被搜索到。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進行網(wǎng)頁抓取,從而提供搜索。網(wǎng)站是否就無法和網(wǎng)絡(luò)蜘蛛交流呢?其實不然,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進行交 流。例如:表示本網(wǎng)頁不需要被抓取,但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。 搜索引擎建立網(wǎng)頁索引, 處理的對象是文本文件。 【 6】 對于 doc、 pdf 等文檔,這種由專業(yè)廠商提供的軟件生成的文檔,廠商都會提供相應(yīng)的文本提取接口。但在識別這些信息的時候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標題、是否是加粗顯示、是否是頁面的關(guān)鍵詞等,這些信息有助于計算單詞在網(wǎng)頁中的重要程度。這就需要網(wǎng)絡(luò)蜘蛛的設(shè)計有一定的擴展性。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的了解文件的內(nèi)容。 由于網(wǎng)站的內(nèi)容經(jīng)常在變化,因此網(wǎng)絡(luò)蜘蛛也需不斷的 更新其抓取網(wǎng)頁的內(nèi)容,這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經(jīng)過期的死鏈接。 一般來說,網(wǎng)絡(luò)蜘蛛在更新網(wǎng)站內(nèi)容的時候,不用把網(wǎng)站網(wǎng)頁重新抓取一遍,對于大部分的網(wǎng)頁,只需要判斷網(wǎng)頁的屬性(主要是日期),把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。后綴數(shù)組在短語查詢時,具有較快的速度,只是構(gòu)造和維護這樣的索引庫非常復雜。每一頁上具有一定數(shù)量的文本,這些文本記錄了信息。這樣,當信息檢索系統(tǒng)檢索“冰糖葫蘆”這個關(guān)鍵字 時,系統(tǒng)就可以迅速給出其頁碼,然后再到原書中取出相關(guān)頁面文本內(nèi)容。 【 8】 倒排的特點 在倒排索引中,關(guān)鍵字的數(shù)量并非隨著文本內(nèi)容的增長也線性增長。 【 9】 可以試想,將一本書上所有的文本均制作成關(guān)鍵字,并對其進行倒排構(gòu)建一個信息搜索引擎系統(tǒng)。檢索時將會節(jié)省大量時間。我們先看看不使用中文分詞的情況。搜索過程中,也是先找 39。字的所有文檔,然后做交叉 39。但這里存在一個很有挑戰(zhàn)性的問題:總共的常用漢字 才 3000 多個,我們每次查詢過程中,進行 39。拿 2元來說,中國人 , 先索引 ‘ 中國 ’ , 再索引 ‘ 國人 ’ 。的所有文檔,再找 39。運算,即包含這兩個單元,而且位置連續(xù)的文檔才會做為符合要求的結(jié)果。一個很常見的例子: 和服 , 如果按照上面兩種方式,都會查到包含 39。對于大數(shù)據(jù)量的搜索引擎來說,每個搜索次都會有成千上萬個結(jié)果,用戶已經(jīng)很挑選他真正想要的文章,如果這里還要增加許多錯誤,估計用戶體驗會極差。其實還有一個優(yōu)點,以詞為單位的索引,起索引庫會比上兩 種方式的索引庫小很多。 中文分詞的算法 中文分詞技術(shù)的研究,已經(jīng)有幾十年的歷史了,在 20 世紀 80 年代,我國就有人開始研究如何用計算機來自動分詞??偨Y(jié)起來,分詞的算法分為: 基于字符串匹配的分詞方法 基于理解的分詞方法 基于統(tǒng)計的分詞方法 關(guān)于這 3種算法的詳細介紹,可以查看 中文分詞技術(shù) , 這里想介紹的是,如何處理新詞。 非典 剛出現(xiàn)的時候,這就是新詞。 2020 年 SIGHAN 的分詞大賽中,就增添了對于機構(gòu)名識別的比賽。 拿人名識別 為例。也就是說可能有 11 一半的人,是這五個姓。 規(guī)則總會有例外,規(guī)則過多以后,如何去權(quán)衡這些 規(guī)則,會是十分頭疼的問題。通過機器學習識別新詞的原理并不復雜。但機器學習算法需要有足夠多的訓練語料,人工準備準確的大規(guī)模的訓練語料也會十分困難。其實不然,短語搜索同樣需要用分詞,只不過在結(jié)果中需要位置連續(xù)等嚴格限制。反之也一樣。 12 如果你看過搜索引擎的 query log(即所有搜索詞的記錄),你會發(fā)現(xiàn)新詞很多,會占 30%,或者更多。超女 做為一個詞在文章中的權(quán)重,和 超 、 女 兩個字在文章中的權(quán)重計算方法會很不一樣,這樣就會直接影響相關(guān)性的計算。但最終展現(xiàn)給用戶的是網(wǎng)頁結(jié)果而不是分詞結(jié)果,提高網(wǎng)頁的相關(guān)性,有 100%準確的分詞也是不夠。它由一系列 C 函數(shù)和少量 C++ 類構(gòu)成,實現(xiàn)了圖像處理和計算機視覺方面的很多通用算法 。 它還 為 Intel174。 ② 基于 Intel 處理器指令 集開發(fā)的優(yōu)化代碼。 ⑥ 同時支持 MSWindows 和 Linux 平臺。 int main( int argc, char** argv ) { IplImage * src= cvLoadImage(F:\\)。 IplImage* v_plane = cvCreateImage( cvGetSize(src), 8, 1 )。 /** H 分量的變化范圍 */ float h_ranges[] = { 0, 180 }。 cvCvtPixToPlane( hsv, h_plane, s_plane, v_plane, 0 )。 cvGetMinMaxHistValue( hist, 0, amp。 IplImage* hist_img = cvCreateImage( cvSize(width,height), 8, 3 )。 int bin_w = width / (h_bins * s_bins)。 s s_bins。 /** 獲得當前直方圖代表的顏色,轉(zhuǎn)換成 RGB 用于繪制 */ cvSet2D(hsv_color,0,0,cvScalar(h* /h_bins,s*,255,0))。 } } cvNamedWindow( Source, 1 )。 cvWaitKey(0)。 h_bins, 計算 由 h、 s 確定的顏色顯示在圖像中的高度 s++; s sbins。即安裝路徑為 c:\php5 。 如果沒有加載 php 將 不能處理圖像。extension_dir = ./要把前面的分號去掉 )。 = , 將 “ 。 如果改 ,還要修改下 面這項 , 否則可能會出現(xiàn) 403 錯誤 。 5. 測試 在網(wǎng)站根目錄下創(chuàng)建一個 文件 ?php phpinfo()。 mysql_close()。 ServerName localhost:xx xx 為你修改后的端口 , 至于 localhost 指安裝 apache 時填寫的服務(wù)器名,如果不是設(shè)置為 localhost, 填寫相應(yīng)的服務(wù)器名稱即可。加入后需要注銷當前 Windows 用戶(或重啟)后重新登陸才 生效。 需求分析 本節(jié)對本系統(tǒng)的需求進行了簡要的分析, 下面對各模塊的需求進行分析。 所謂分詞,指的就是將一個完整的句子劃分為一個個詞條( Token)過程。 ● Getimage 模塊 本設(shè)計的圖片獲取需要通過此模塊將從上一模塊中抓取的鏈 接地址檢索到所需的圖片,并對圖片進行處理分析,將圖片處理結(jié)果返回給數(shù)據(jù)庫。 總體設(shè)計和模塊分析 從系統(tǒng)結(jié)構(gòu)出發(fā),該搜索引擎系統(tǒng)需要設(shè)計四 大模塊 ,在 本節(jié) 中 一一 將 對四 大模塊進行詳細介紹 ,系統(tǒng)總體設(shè)計 和功能界面設(shè)計分別 見圖 和圖 。 $rows = mysql_fetch_row($result)。 If ($intFound != 0) { unset($temp_link_array)。 echo $SEED_URL。 $temp_link_array = harvest_links($row[1])。 $xxcount($spider_array[0])。.$spider_array[0][$xx].39。.$spider_array[0][$xx].39。在 seed 表中的查詢類似,在此不一一贅述。在這里,我們就還應(yīng)該考慮到白色的影響,由于一般用戶搜索以白色為主色調(diào)的圖像情況極少,所以在此設(shè)計中特意添加了剔除白色作為圖像代表顏色的情況,白色對應(yīng)的 R ==255; G==255 ; B==255。 h h_bins。 //獲得直方圖中的統(tǒng)計次數(shù),計算顯示在圖像中的高度 float bin_val = cvQueryHistValue_2D( hist, h, s )。 CvScalar color = cvGet2D(rgb_color,0,0)。 r=[2]。 } } 28 圖 求解圖像顏色分布直方圖模塊流程圖 開始 鏈接到數(shù)據(jù)庫, 從searchimage 查詢 出還未顏色檢索過的圖片 下載未檢索過的圖片,并將 searchimage 表中colorcheck 字段標 1 設(shè)置 h、 s 分量,將圖像轉(zhuǎn)換成顏色直方圖 h++。amp。 圖 Getimage 模塊流程圖 此模塊主要完成從 sublinks 表中收集的鏈接地址里獲取圖片,應(yīng)用了分詞技術(shù) ,其算法分析如下: 開始 取一條未檢索鏈接,找出鏈接下的所有圖片地址 下載圖片進行分析 鏈接到數(shù)據(jù)庫 Sublinks 中有未檢索的鏈接 將分析結(jié)果存入數(shù)庫 seachimage 表中 結(jié) 束 Y N 30 1 鏈接到數(shù)據(jù)庫, 從數(shù)據(jù)庫的 sublinks 表中取一個鏈接地址 2 找出這個鏈接地址也就是這個網(wǎng)頁中
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1