freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

碩士論文基于文本的web圖片搜索引擎的研究(編輯修改稿)

2024-12-14 01:45 本頁面
 

【文章內容簡介】 ,于是通過 HTML 挖掘可以獲取到大量的關于圖片的信息。 HTML 網頁是 Web 上應用最廣泛的信息組織方式,是搜索引擎獲取信息的最主要來源。 Inter 上 HTML 網頁數(shù)量及其所包含的多媒體資源相當豐富。 根據 CNNIC 的《 2020 中國互聯(lián)網絡信息資源數(shù)量調查報告 》 [1]顯示(截至到 2020 年 12 月 31 日): 網頁數(shù) 全國網頁總數(shù) 311,864,590 個 其中:靜態(tài)網頁數(shù) 226,725,557 個 動態(tài)網頁數(shù) 85,139,033 個 學位論文 基于文本的 Web 圖片搜索引擎的研究 2 靜動態(tài)網頁數(shù)比例 :1 平均每個網站的網頁數(shù) 網頁字節(jié)數(shù) 全國網頁總 字節(jié)數(shù) 6,059,431,526KB 每個網頁平均 字節(jié)數(shù) 平均每個網站的網頁 字節(jié)數(shù) 10, 圖表 1 網頁數(shù)及網頁 字節(jié)數(shù) 情況 近三年中國網頁數(shù)對比159460056 1570912203118645901 .5 %9 8 .5 %0500000001000000001500000002020000002500000003000000003500000002020 年 2020 年 2020 年2 0 %10%40%70%100%130%網頁數(shù) 增長比率 圖表 2 近三年中國網頁數(shù)對比 圖像 % 音頻 % 視頻 % 圖表 3 網頁的內容分類情況 (按 多媒體 形式) 從以上統(tǒng)計數(shù)字可以看到,目前國內的 Web 信息資源數(shù)量已經相當可觀,并且隨著 IT 業(yè)在 2020 年的逐漸復蘇,網頁數(shù)量比 2020 年增長了一倍。網絡上的多媒體內容絕大部分以圖像的形式存在,這對于圖片搜索引擎的資源獲取無疑具有相當?shù)膬r值。 Web 搜索引擎技術已經被廣泛的引用到 Inter 上,每天要抓取海量的HTML 網頁,這是一個寶貴的資源庫,但目前 Web 搜索基本上只利用到其中的文本信息。如果充分的挖掘資源庫中的潛在價值,可以建構出很 多增值的搜索系統(tǒng),比如圖片搜索, mp3 搜索, Flash 搜索等等。因此,本文的切入點就是如何有效的利用這些 HTML 網頁來構建 Web 圖片搜索引擎。 學位論文 基于文本的 Web 圖片搜索引擎的研究 3 圖片檢索系統(tǒng)概述 系統(tǒng)應用領域 隨著圖片使用的日趨廣泛和圖片搜索技術的不斷發(fā)展,圖片檢索系統(tǒng)的應用范圍變得越來越廣。目前使用最廣泛的是通用 Web 圖片搜索引擎,比如 Google圖片搜索,它面向通用領域的用戶提供服務。除此之外,有大量的專用領域使用到了圖片檢索,比較常見的領域有: 醫(yī)藥領域。許多的醫(yī)學和健康相關的專業(yè)需要使用例如 X 光、掃描影像之類的一些可視信息資料,用 于診斷和檢測疾病。圖片檢索技術能夠有效的用于這類信息的表示、存儲、傳輸和分析,針對該領域的研究主要集中在圖像處理上,例如邊界或者特征檢測,可用于跟蹤腫瘤的生長等。該領域已經有成功的系統(tǒng)使用案例。 圖形設計領域。對于已有的設計的重用,可以為該領域的工作者提供大量的素材和靈感,圖片檢索系統(tǒng)可以為這些工作提供大量幫助,同時,對于用戶尋找特定要求的作品也提供了很大的便利。 出版領域。出版社、報社、雜志社等機構對于圖片的需求是相當多的,基本上都有自己的圖片庫,傳統(tǒng)方式利用多種歸類方式來進行存儲和查找。該領域的工作者需 要花費大量的時間來查找和挑選合適的圖片,利用圖片檢索系統(tǒng)能夠提供有效的幫助。 其它的一些領域還包括建筑設計、天文學、地理學、歷史研究、犯罪取證等。 用戶檢索方式 在檢索方式上,圖片檢索相對于網頁檢索來說,有很大的不同。目前的網頁檢索系統(tǒng)幾乎僅有關鍵字查詢一種,因為當前考慮范圍內用于網頁內容的唯一描述只有文字。而圖片可以有相關的文字描述,同時圖片本身還具有自描述性(內容本身提供了語義信息)。因此,圖片通常具有多種檢索方式,從用戶檢索的角度看,可以分為如下幾類: ? 目錄式檢索: yahoo 的圖片搜索集成了其網頁搜 索的特點,將圖片進行分類,用戶按照分類結構逐漸細化查詢范圍。目錄式檢索方式經常需要人工來進行大部分的分類工作,因此代價是相當高的。 ? 關鍵字查詢: 目前使用中的大型圖片搜索引擎使用的方式。用戶給出與所需的圖片相關的文字,系統(tǒng)根據之前建立的文字到圖片的匹配來查找包含有查詢詞的文本對應的學位論文 基于文本的 Web 圖片搜索引擎的研究 4 圖片。關鍵字檢索方式最顯著的優(yōu)點是其檢索速度非???,并且基于文本的索引技術已經很成熟。信息和文字的匹配上有兩種方法,一種是人工標引,一種是自動提取。 人工標引對于信息的準確度方面是效果比較好的。但是也面臨幾個主要的缺點:一是人工標 引工作量太大,在海量系統(tǒng)中幾乎是不現(xiàn)實的。二是人工標引的信息主觀性比較強,有時候不能恰當?shù)姆从硤D片的真實信息或者反映的信息不完全(后者幾乎總是存在)。 自動提取方法的難點在于如何為圖片提取正確的文字信息。由于信息組織的多樣化以及難于判定具體的組織方式,很難確定哪些信息是與圖片相關的。這種方法通常采用啟發(fā)式規(guī)則來進行信息提取,使用比較常用的模式來獲取信息,并通過無用信息過濾等技術來盡可能的提高信息的準確性。 ? 實例式檢索: 目前的基于內容的圖片搜索引擎大多是這一類。方法是提供一張圖片實例或者由用戶繪制一個大概的 形狀,系統(tǒng)根據某些可視特征去尋找在該特征上相似的圖片。這種檢索方式的優(yōu)勢在于發(fā)現(xiàn)相似圖片的效果比較好,缺點在于需要用戶提供圖片實例,這一點通常使系統(tǒng)變得很不友好。雖然基于內容的檢索系統(tǒng)可以提供一些分類信息,但也僅限于戶內或者戶外,風景或者人物等粒度比較大的分類。 ? 屬性式檢索: 這種檢索方式多用于小規(guī)模的專門的圖片數(shù)據庫,比如攝影圖片庫,用戶可以根據作者,拍攝日期等一些圖片的外在特征來進行檢索。該類數(shù)據庫具有集中式管理的特點,信息往往比較規(guī)范,建立索引和檢索過程都相對簡單,可以使用現(xiàn)有的關系數(shù)據庫來實現(xiàn)。 系 統(tǒng)評價 檢索系統(tǒng)中很重要的系統(tǒng)評價指標是查準率( Precision)和查全率( Recall)。查準率表示查詢結果中相關的文檔數(shù)所占結果文檔總數(shù)的比例;查全率表示查詢到的相關文檔數(shù)占整個文檔集合中所有相關文檔數(shù)的比例。假設對于特定的查詢, D+為整個文檔集合中相關文檔的數(shù)量, R 為查詢結果文檔集合, R+為結果文檔中相關文檔集合,則查準率和查全率可以形式化的定義為: 查準率: RRecisio n ??Pr 查全率: ??? DRcallRe 在圖片檢索系統(tǒng)中,對于這兩項指標的度量 比較困難,因為對于圖片與文本的相關性評價是相當主觀的,基本上只能得到一個很粗略的統(tǒng)計結果。 學位論文 基于文本的 Web 圖片搜索引擎的研究 5 除了以上兩項指標以外,還有一個評價指標是性能,即系統(tǒng)提供服務的能力度量,可以包含系統(tǒng)的吞吐量,響應時間等。 系統(tǒng)的可擴展性也是需要考慮的,當查詢數(shù)量和頻率增加以后,可以通過增加服務的主機數(shù)來滿足性能的要求。比較好的期望是系統(tǒng)能夠接近線性可擴展性。 研究現(xiàn)狀 基于文本的圖片檢索最早可以追溯到 20 世紀 70 年代早期,當時的檢索系統(tǒng)使用人工對圖片的內容進行文字信息標引,利用 DBMS 存儲文字信息,并利用文本檢索技術提供查詢。當 時的研究多集中在數(shù)據建模、多維索引、查詢評估等數(shù)據庫技術上。當圖片庫的規(guī)模急劇增大以后,人工標引需要耗費大量的人力,依然使用這種方法變得不切實際,需要提供一種自動的技術來完成信息的索引,另一方面,人工標引提供的信息相當主觀,而且往往只反映了圖片某一方面的內容。 為了克服這些缺點,在 20 世紀 90 年代早期,提出了基于內容的圖片檢索技術。該技術不需要進行文字標引,而是通過圖片本身的可視化內容來進行索引,例如顏色、紋理、形狀等。自此,很多的學者針對基于內容的技術進行了大量的研究,提出了很多的算法,并開發(fā)了很多的實驗 系統(tǒng)。當前大量研究熱點集中在基于內容的檢索上。但是目前基于內容的檢索在實際使用中不盡人意,單純的使用誤識率較高,主要的原因在于這類技術僅僅使用圖片的相似關系來進行檢索,并不符合人們檢索信息的習慣,而且目前的相似性度量方法還比較粗淺,效果并不太好。 鑒于此,有學者提出了基于語義的圖像檢索 [43],該技術試圖建立一種高層次的語義到低層次的可視特征之間的映射關系,實際上是試圖將可視特征識別為語義概念,使之類似于人類識別事物的方式。例如當分析出上半部分為白色, 下半部分為藍色的圖景時,能夠理解為“海平面”。該技術需要使用到知識庫,用于存儲語義網絡和映射關系。關于可視特征的識別需要深入的理解人類的視覺機制,這方面的進展還不太大。 在所有的圖像檢索技術中,無疑基于文本的檢索是效率最高的一種,很多的圖片搜索引擎都全部或部分的運用了基于文本的檢索機制。目前 Web 上 HTML文檔的大量出現(xiàn)使得圖片的文字信息可以借助于分析 HTML 文檔得到,從而克服了人工標引的不足。因此,這一類的系統(tǒng)在實際應用中取得了不錯的效果。 現(xiàn)有圖片檢索系統(tǒng)簡介 目前,許多大型的搜索引擎公司和研究機構都先 后推出了圖片搜索功能。其學位論文 基于文本的 Web 圖片搜索引擎的研究 6 中比較重要的幾個商業(yè)圖片搜索引擎包括國外的 google、 yahoo 等,國內的有baidu、 Tom、 sina 等。同時,還有很多研究性的圖片搜索引擎,具有代表意義幾個是: ImageRover、 WebSeer、 WebSeek、 ImageSpace、 PicToSeek、 WebMARS等等。 Google 圖像搜索 Google 圖像搜索 [7]是 Google 網頁搜索的一個增值系統(tǒng),提供目前全球最大的圖片庫,擁有 億張 ① 圖片可供檢索。 Google 通過對網頁的分析,提取與圖片相關的文字信息,提供基于關鍵字的檢索,支持復雜的布爾查詢表達式。采用一定的基于內容的分析手段,提供基于色彩類型(黑白,灰階和全彩)的過濾。針對英文可以提供敏感圖片過濾功能。利用復雜算法實現(xiàn)圖片的消重,并利用在排序技術方面的優(yōu)勢提供較好的圖片排序輸出。 ImageRover ImageRover[8]是波士頓大學( University of Boston)計算機系開發(fā)的一個圖片搜索引擎。其采用了圖片內容和文本信息結合的 方式進行處理,分別計算出兩種特征向量,結合起來提供查詢。 ImageRover 通過 LSI 方法來計算圖片與文字之間的相關性,生成文字特征向量。文字從圖片所在的 HTML 文檔中提取,權值的大小由幾個因素決定:文本在 HTML 文檔中的出現(xiàn)頻率,文本與圖片的距離和文本的形式(比如 bold 等)。 ImageRover 還通過對圖片內容的分析來生成內容特征向量。特征的提取包括顏色柱狀圖( color histogram),主方向柱狀圖( dominant orientation histogram)以及紋理( texture),并 利用了 PCA( Principal ponent analysis)在盡可能少丟失信息的情況下降低向量的維數(shù)。 系統(tǒng)提供兩種方式的查詢:關鍵詞查詢和相似查詢,并提供逐漸提純查詢結果的功能。 WebSeer WebSeer[9]由芝加哥大學( University of Chicago)計算機系開發(fā)。采用圖片內容與文本信息結合的方式進行處理。 WebSeer 并不對整個網頁的信息建立索引,而是從多個可能的來源提取文 ① 的數(shù)字 學位論文 基于文本的 Web 圖片搜索引擎的研究 7 字,同時對不同的來源確定不同的權值。系統(tǒng) 同時對圖片內容進行比較簡單的分析,能夠辨別出照片和其他圖像。系統(tǒng)還對圖片的一些屬性(例如圖片維數(shù),灰度級,文件類型等)進行了索引。用戶通過提供關鍵字以及指定圖片屬性值進行查詢。 WebSeek WebSeek[10]由哥倫比亞大學( Columbia University) Image and Advanced Television Lab 開發(fā)。系統(tǒng)可以提供圖片和視頻的查詢。 WebSeek 包含一個 Web 代理( crawler),通過遍歷一系列 URL 列表并發(fā) 現(xiàn)其中的圖片和視頻,獲取并儲存到本地用于下一階段的分析。 對圖片和視頻的分析過程包括: ? 提取可視化特征(顏色柱狀圖); ? 提取附帶屬性,比如文件類型,圖片的長寬,視頻的幀數(shù)等等; ? 對圖片和視頻進行壓縮,生成縮略圖或代表幀; ? 從 URL 中提取相關的文字信息,比如文件名等 WebSeek 提供了一個分類的目錄,提供層次結構,用于按目錄方式檢索圖片。系統(tǒng)提供關鍵
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1