freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于文本web圖片搜索引擎的研究論文-在線瀏覽

2025-01-20 21:00本頁(yè)面
  

【正文】 本章小結(jié) .......................................................................................................... 53 第 5 章 總結(jié)和展望 ................................................................................................ 54 主要工作總結(jié) ................................................................................................... 54 技術(shù)發(fā)展方向 ................................................................................................... 54 參 考 文 獻(xiàn) ................................................................................................................ 56 致 謝 .......................................................................................................................... 60 基于文本的 Web 圖片搜索引擎的研究 VI 圖 表 圖表 1 網(wǎng)頁(yè)數(shù)及網(wǎng)頁(yè)字節(jié)數(shù)情況 ................................................................................ 2 圖表 2 近三年中國(guó)網(wǎng)頁(yè)數(shù)對(duì)比 ................................................................................... 2 圖表 3 網(wǎng)頁(yè)的內(nèi)容分類情況(按多媒體形式) ........................................................... 2 圖表 4 關(guān)于 GIF 和 JPG 的重要性調(diào)查 ...................................................................... 33 圖表 5 不同來(lái)源標(biāo)記的圖片統(tǒng)計(jì) .............................................................................. 33 圖表 6 不同來(lái)源標(biāo)記的引用統(tǒng)計(jì) .............................................................................. 34 圖表 7 不同來(lái)源標(biāo)記的統(tǒng)計(jì)折線圖 .......................................................................... 35 圖表 8 系統(tǒng)總體結(jié)構(gòu)圖 ............................................................................................ 40 圖表 9 系統(tǒng)工作過(guò)程 ............................................................................................... 41 圖表 10 網(wǎng)頁(yè)庫(kù)訪問(wèn)模式 ............................................................................................ 42 圖表 11 圖片內(nèi)容重復(fù)百分比統(tǒng)計(jì) .............................................................................. 45 圖表 12 建索引流程圖 ............................................................................................... 48 圖表 13 內(nèi)容相同圖片的拉鏈結(jié)構(gòu) .............................................................................. 49 圖表 14 查詢過(guò)程 ...................................................................................................... 49 圖表 15 查詢線程流程圖 ............................................................................................ 51 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 1 第 1章 引言 背景 目前的 Inter 應(yīng)用已經(jīng)取得了長(zhǎng)足的發(fā)展,隨著網(wǎng)絡(luò)帶寬和終端計(jì)算能力的不斷增強(qiáng),圖片被越來(lái)越多的應(yīng)用于內(nèi)容的表達(dá)和信息的承載,特別是在Web 的應(yīng)用上更是不可或缺。然而, Inter 本身是一個(gè)極度分散的系統(tǒng),數(shù)以億計(jì)的圖片分布在 Inter 的各個(gè)角落,人工尋找并獲取需要的圖片已經(jīng)變得越來(lái)越困難,因此,如何通 過(guò)自動(dòng)化的手段有效的獲取和再利用這些圖片資源成為信息共享的一個(gè)重要課題。圖片的信息是指圖片的內(nèi)容所表征的意義,這種的信息承載方式與傳統(tǒng)的文本的信息是不一樣的。因而,圖片在信息的獲取上便有了不同于文本的技術(shù)?;趦?nèi)容的技術(shù) 是對(duì)圖片的內(nèi)容本身(像素)進(jìn)行分析和檢索,而基于文本的技術(shù)利用圖片的相關(guān)文字信息作為分析對(duì)象,并提供類似于傳統(tǒng)文本檢索的工作方式。文字和圖片之間幾乎是可以按照完全隨意的方式自由安置。這就為提供一個(gè)通用的信息提取框架提供了可能。 HTML 網(wǎng)頁(yè)是 Web 上應(yīng)用最廣泛的信息組織方式,是搜索引擎獲取信息的最主要來(lái)源。 根據(jù) CNNIC 的《 2020 中國(guó)互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報(bào)告 》 1 顯示(截至到 2020 年 12 月 31 日): 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 2 網(wǎng)頁(yè)數(shù) 全國(guó)網(wǎng)頁(yè)總數(shù) 311,864,590 個(gè) 其中:靜態(tài)網(wǎng)頁(yè)數(shù) 226,725,557 個(gè) 動(dòng)態(tài)網(wǎng)頁(yè)數(shù) 85,139,033 個(gè) 靜動(dòng)態(tài)網(wǎng)頁(yè)數(shù)比例 :1 平均每個(gè)網(wǎng)站的網(wǎng)頁(yè)數(shù) 網(wǎng)頁(yè)字節(jié)數(shù) 全國(guó)網(wǎng)頁(yè)總 字節(jié)數(shù) 6,059,431,526KB 每個(gè)網(wǎng)頁(yè)平均 字節(jié)數(shù) 平均每個(gè)網(wǎng)站的網(wǎng)頁(yè) 字節(jié)數(shù) 10, 圖表 1 網(wǎng)頁(yè)數(shù)及網(wǎng)頁(yè)字節(jié)數(shù)情況 近三年中國(guó)網(wǎng)頁(yè)數(shù)對(duì)比159460056 1570912203118645901 .5 %9 8 .5 %0500000001000000001500000002020000002500000003000000003500000002020 年 2020 年 2020 年2 0 %10%40%70%100%130%網(wǎng)頁(yè)數(shù) 增長(zhǎng)比率 圖表 2 近三年中國(guó)網(wǎng)頁(yè)數(shù)對(duì)比 圖像 % 音頻 % 視頻 % 圖表 3 網(wǎng)頁(yè)的內(nèi)容分類情況(按多媒體形式) 從以上統(tǒng)計(jì)數(shù)字可以看到,目前國(guó)內(nèi)的 Web 信息資源數(shù)量已經(jīng)相當(dāng)可觀,并且隨著 IT 業(yè)在 2020 年的逐漸復(fù)蘇,網(wǎng) 頁(yè)數(shù)量比 2020 年增長(zhǎng)了一倍。 Web 搜索引擎技術(shù)已經(jīng)被廣泛的引用到 Inter 上,每天要抓取海量的HTML 網(wǎng)頁(yè),這是一個(gè)寶貴的資源庫(kù),但目前 Web 搜索基本上只利用到其中的文本信息。因此,本文的切入點(diǎn)就是如何有效的利用這些 HTML 網(wǎng)頁(yè)來(lái)構(gòu)建 Web 圖片搜索引擎。目前使用最廣泛的是通用 Web 圖片搜索引擎,比如Google 圖片搜索,它面向通用領(lǐng)域的用戶提供服務(wù)。許多的醫(yī)學(xué)和健康相關(guān)的專業(yè)需要使用例如 X 光、掃描影像之類的一些可視信息資料,用于診斷和檢測(cè)疾病。該領(lǐng)域已經(jīng)有成功的系統(tǒng)使用 案例。對(duì)于已有的設(shè)計(jì)的重用,可以為該領(lǐng)域的工作者提供大量的素材和靈感,圖片檢索系統(tǒng)可以為這些工作提供大量幫助,同時(shí),對(duì)于用戶尋找特定要求的作品也提供了很大的便利。出版社、報(bào)社、雜志社等機(jī)構(gòu)對(duì)于圖片的需求是相當(dāng)多的,基本上都有自己的圖片庫(kù),傳統(tǒng)方式利用多種歸類方式來(lái)進(jìn)行存儲(chǔ)和查找。 其它的一些領(lǐng)域還包括建筑設(shè)計(jì)、天文學(xué)、地理學(xué)、歷史研究、犯罪取證等。目前的網(wǎng)頁(yè)檢索系統(tǒng)幾乎僅有關(guān)鍵字查詢一種,因?yàn)楫?dāng)前考慮范圍內(nèi)用于網(wǎng)頁(yè)內(nèi)容的唯一描述只有文字。因此,圖片通常具有多種檢索方式,從用戶檢索的角度看,可以分為如下幾類: ? 目錄式檢索: yahoo 的圖片搜索集成了其網(wǎng)頁(yè)搜索的特點(diǎn),將圖片進(jìn)行分類,用戶按照分類結(jié)構(gòu)逐漸細(xì)化查詢范圍。 ? 關(guān)鍵字查詢: 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 4 目前使用中的大型圖片搜索引擎使用的方式。關(guān)鍵字檢索方式最顯著的優(yōu)點(diǎn)是其檢索速度非常快,并且基于文本的索引技術(shù)已經(jīng)很成熟。 人工標(biāo)引對(duì)于信息的準(zhǔn)確度方面是效果比較好的。二是人工標(biāo)引的信息主觀性比較強(qiáng),有時(shí)候不能恰當(dāng)?shù)姆从硤D片的真實(shí)信息或者反映的信息不完全(后者幾乎總是存在)。由于信息組織的多樣化以及難于判定具體的組織方式,很難確定哪些信息是與圖片相關(guān)的。 ? 實(shí)例式檢索: 目前的基于內(nèi)容的圖片搜索引擎大多是這一類。這種檢索方式的優(yōu)勢(shì)在于發(fā)現(xiàn)相似圖片的效果比較好,缺點(diǎn)在于需要用戶提供圖片實(shí)例,這一點(diǎn)通常使系統(tǒng)變得很不友好。 ? 屬性式檢索: 這種檢索方式多用于小規(guī)模的專門(mén)的圖片數(shù)據(jù)庫(kù),比如攝影圖片庫(kù),用戶可以根據(jù)作者,拍攝日期等一些圖片的外在特征來(lái)進(jìn)行檢索。 系統(tǒng)評(píng)價(jià) 檢索系統(tǒng)中很重要的系統(tǒng)評(píng)價(jià)指標(biāo)是查準(zhǔn)率( Precision)和查全率( Recall)。假設(shè)對(duì)于特定的查詢, D+為整個(gè)文檔集合中相關(guān)文檔的數(shù)量, R 為查詢結(jié)果文檔集合, R+為結(jié)果文檔中相關(guān)文檔集合,則查準(zhǔn)率和查全率可以形式化的定義為: 查準(zhǔn)率: RRecisio n ??Pr 查全率: ??? DRcallRe 在圖片檢索系統(tǒng)中,對(duì)于這兩項(xiàng)指標(biāo)的度量比較困難,因?yàn)閷?duì)于圖片與文北京大學(xué)碩士研究生學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 5 本的相關(guān)性評(píng)價(jià)是相當(dāng)主觀的,基本上只能得到一個(gè)很粗略的統(tǒng)計(jì)結(jié)果。 系統(tǒng)的可擴(kuò)展性也是需要考慮的,當(dāng)查詢數(shù)量和頻率增加以后,可以通過(guò)增加服務(wù)的主機(jī)數(shù)來(lái)滿足性能的要求。 研究現(xiàn)狀 基于文本的圖片檢索最早可以追溯到 20 世紀(jì) 70 年代早期,當(dāng)時(shí)的檢索系統(tǒng)使用人工對(duì)圖片的內(nèi)容進(jìn)行文字信息標(biāo)引,利用 DBMS 存儲(chǔ)文字信息,并利用文本檢索技術(shù)提供查詢。當(dāng)圖片庫(kù)的規(guī)模急劇增大以后,人工標(biāo)引需要耗費(fèi)大量的人力,依然使用這種方法變得不切實(shí)際,需要提供一種自動(dòng)的技術(shù)來(lái)完成信息的索引,另一方 面,人工標(biāo)引提供的信息相當(dāng)主觀,而且往往只反映了圖片某一方面的內(nèi)容。該技術(shù)不需要進(jìn)行文字標(biāo)引,而是通過(guò)圖片本身的可視化內(nèi)容來(lái)進(jìn)行索引,例如顏色、紋理、形狀等。當(dāng)前大量研究熱點(diǎn)集中在基于內(nèi)容的檢索上。 鑒于此,有學(xué)者提出了基于語(yǔ)義的圖像檢索 43,該技術(shù)試圖建立一種高層次的語(yǔ)義到低層次的可視特征之間的映射關(guān)系,實(shí)際上是試圖將可視特征識(shí)別為語(yǔ)義概念,使之類似于人類識(shí)別事物的方式。該技術(shù)需要使用到知識(shí)庫(kù),用于存儲(chǔ)語(yǔ)義網(wǎng)絡(luò)和映射關(guān)系。 在所 有的圖像檢索技術(shù)中,無(wú)疑基于文本的檢索是效率最高的一種,很多的圖片搜索引擎都全部或部分的運(yùn)用了基于文本的檢索機(jī)制。因此,這一類的系統(tǒng)在實(shí)際應(yīng)用中取得了不錯(cuò)的效果。其中比較重要的幾個(gè)商業(yè)圖片搜索引擎包括國(guó)外的 google、 yahoo 等,國(guó)內(nèi)的有 baidu、 Tom、 sina 等。 Google 圖像搜索 Google 圖像搜索 7 是 Google 網(wǎng)頁(yè)搜索的一個(gè)增值系統(tǒng),提供目前全球最大的圖片庫(kù),擁有 億張 1圖片可供檢索。采用一定的基于內(nèi)容的分析手段,提供基于色彩類型(黑白,灰 階和全彩)的過(guò)濾。利用復(fù)雜算法實(shí)現(xiàn)圖片的消重,并利用在排序技術(shù)方面的優(yōu)勢(shì)提供較好的圖片排序輸出。其采用了圖片內(nèi)容和文本信息結(jié)合的方式進(jìn)行處理,分別計(jì)算出兩種特征向量,結(jié)合起來(lái)提供查詢。文字從圖片所在的 HTML 文檔中提取,權(quán)值的大小由幾個(gè)因素決定:文本在 HTML 文檔中的出現(xiàn)頻率,文本與圖片的距離和文本的形式(比如 bold等)。特征的提取包括顏色柱狀圖( color his
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1