freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

碩士論文基于文本的web圖片搜索引擎的研究-免費(fèi)閱讀

2025-12-09 01:45 上一頁面

下一頁面
  

【正文】 由于簽名文 件本質(zhì)上還是掃描文檔,所以盡管其在很多方面不斷進(jìn)行改進(jìn),但對于海量數(shù)據(jù)的應(yīng)用,表現(xiàn)依然不夠理想。以下簡單的介紹兩種技術(shù)的基本原理。在這里,啟發(fā)式規(guī)則的選擇是相當(dāng)重要的,它將直接影響到系統(tǒng)的查準(zhǔn)率,同時也在很大程度上影響著系統(tǒng)的查全率。該方法的難度在于圖片中的文字可以 是任意的顏色,并且有些圖片的文字背景圖案由各種不同顏色的對象構(gòu)成,難于將其識別為獨(dú)立的成分。結(jié)構(gòu)方法主要針對有規(guī)律的紋理結(jié)構(gòu),利用句法分析方法來進(jìn)行識別。 基于邊界的描述方式中使用最多的是傅立葉描述子( Fourier Descriptor)。 顏色直方圖是最常被用于顏色特征表達(dá)的方法,它從統(tǒng)計(jì)意義上表示了三種顏色通道的強(qiáng)度的關(guān)聯(lián)概率。 可視化特征提取是基于內(nèi)容的圖片檢索的基礎(chǔ),按照應(yīng)用范圍可以分為特定領(lǐng)域的特征提取和通用特征提取。相關(guān)的內(nèi)容將在 節(jié)中進(jìn)一步闡述。 K 值的選取是很重要的,太大會導(dǎo)致結(jié)果趨近于原始矩陣而失去挖掘潛在語義的能力,太小則會使得語義信息丟失太多,以至于對于文檔和詞的分辨能力不足。該權(quán)值的計(jì)算有很多種方法,最簡單的就是詞在文檔中出現(xiàn)的頻率。該模型不試圖利用任何外部知識,而是從挖掘文檔集本身的潛在信息入手,利用統(tǒng)計(jì)分析方法來構(gòu)造語義空間結(jié)構(gòu),自動發(fā)現(xiàn)文檔之間的潛在語義關(guān)系。圖片檢索系統(tǒng)中,這個問題更加嚴(yán)重,多了一次映射,即從圖片到詞語。 但是 VSM 的重要意義在于,它提供了一種通用的方法來比較特征之間的相似性。 形式化的定義為: ??? TnTT WWWD ,.. ., 21 其中, D 代表文檔,其是一個 n 維的向量。隨著圖片數(shù)量的急劇增長,用戶每次查詢返回的結(jié)果數(shù)也相應(yīng)的迅速增大。 ? 對于動態(tài)網(wǎng)頁的處理 由于眾所周知的 Spider Trap 問題,很多 Spider 的做法是不抓取動態(tài)網(wǎng)頁,有的 Spider 只抓取第一層的動態(tài)網(wǎng)頁,這樣可以避免很多問題,但是以放棄部分信息為代價,特別是某些最新的重要信息(比如最新報(bào)道)可能放在動態(tài)網(wǎng)頁中,這樣對于新信息的搜索將得不到滿意的結(jié)果。任務(wù)分配的策略有 很多種,可以分為動態(tài)分配和靜態(tài)分配。 簡單的 Spider 的網(wǎng)頁抓取的路徑是按照超鏈接的拓?fù)漤樞蜻M(jìn)行的。 本文也簡單的介紹了主要的基于內(nèi)容的信息提取方法,并提出與基于文本的方法結(jié)合的手段,并通過 LSI 方法來提高圖片的高低層語義之間的相關(guān)性,并演示分析了效果。而研究性的圖片搜索引擎大多使用到基于內(nèi)容檢索的方法,或者是兩種方法的結(jié)合,主要是為了提高檢索的精度。系統(tǒng)沒有提供相關(guān)反饋功能。系統(tǒng)提供關(guān)鍵字檢索方式,輸入關(guān)鍵字得到一個初始的結(jié)果集,之后可以通過文字或者內(nèi)容的提純。 WebSeer 并不對整個網(wǎng)頁的信息建立索引,而是從多個可能的來源提取文 ① 的數(shù)字 學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 7 字,同時對不同的來源確定不同的權(quán)值。其采用了圖片內(nèi)容和文本信息結(jié)合的 方式進(jìn)行處理,分別計(jì)算出兩種特征向量,結(jié)合起來提供查詢。其學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 6 中比較重要的幾個商業(yè)圖片搜索引擎包括國外的 google、 yahoo 等,國內(nèi)的有baidu、 Tom、 sina 等。 鑒于此,有學(xué)者提出了基于語義的圖像檢索 [43],該技術(shù)試圖建立一種高層次的語義到低層次的可視特征之間的映射關(guān)系,實(shí)際上是試圖將可視特征識別為語義概念,使之類似于人類識別事物的方式。 研究現(xiàn)狀 基于文本的圖片檢索最早可以追溯到 20 世紀(jì) 70 年代早期,當(dāng)時的檢索系統(tǒng)使用人工對圖片的內(nèi)容進(jìn)行文字信息標(biāo)引,利用 DBMS 存儲文字信息,并利用文本檢索技術(shù)提供查詢。 ? 屬性式檢索: 這種檢索方式多用于小規(guī)模的專門的圖片數(shù)據(jù)庫,比如攝影圖片庫,用戶可以根據(jù)作者,拍攝日期等一些圖片的外在特征來進(jìn)行檢索。二是人工標(biāo)引的信息主觀性比較強(qiáng),有時候不能恰當(dāng)?shù)姆从硤D片的真實(shí)信息或者反映的信息不完全(后者幾乎總是存在)。因此,圖片通常具有多種檢索方式,從用戶檢索的角度看,可以分為如下幾類: ? 目錄式檢索: yahoo 的圖片搜索集成了其網(wǎng)頁搜 索的特點(diǎn),將圖片進(jìn)行分類,用戶按照分類結(jié)構(gòu)逐漸細(xì)化查詢范圍。對于已有的設(shè)計(jì)的重用,可以為該領(lǐng)域的工作者提供大量的素材和靈感,圖片檢索系統(tǒng)可以為這些工作提供大量幫助,同時,對于用戶尋找特定要求的作品也提供了很大的便利。因此,本文的切入點(diǎn)就是如何有效的利用這些 HTML 網(wǎng)頁來構(gòu)建 Web 圖片搜索引擎。這就為提供一個通用的信息提取框架提供了可能。圖片的信息是指圖片的內(nèi)容所表征的意義,這種的信息承載方式與傳統(tǒng)的文本的信息是不一樣的。 3) 通過統(tǒng)計(jì) 分析 總結(jié) 出 HTML 文件 中表現(xiàn)出的一些潛在規(guī)律 ,比如 JPG和 GIF 的區(qū)別、 a和 img標(biāo)記的不同意義以及圖片引用次數(shù)的不同意義。學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 碩士研究生學(xué)位論文 題目: 基于文本的 Web 圖片搜索引擎的研究 學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 I 學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 II 摘 要 本文研究工作是針對 Web 圖片搜索引擎 的 應(yīng)用背景,以構(gòu)建 大型 Web 圖片搜索引擎為目標(biāo), 提出基于文本檢索方式的 Web 圖片搜索引擎設(shè)計(jì)方案。得到如下結(jié)論: JPG 重要性大于 GIF; a標(biāo)記來源圖片的重要性大于 img標(biāo)記的圖片; a引用次數(shù)越高的圖片重要性越高,而 img引用次數(shù)高的圖片需要經(jīng)過過濾才能保證重要性較高。由于文本的直觀性和簡單性,文本的信息即包含于本身;而圖片的信息可以通過圖片本身的內(nèi)容傳達(dá)出來,也可 以通過相關(guān)文字的描述傳達(dá)出來,于是圖片便有了雙重的信息載體。在 Inter 上,通常圖片和文本被有機(jī)的組織在一起,最常見的組織形式就是 HTML 網(wǎng)頁,于是通過 HTML 挖掘可以獲取到大量的關(guān)于圖片的信息。 學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 3 圖片檢索系統(tǒng)概述 系統(tǒng)應(yīng)用領(lǐng)域 隨著圖片使用的日趨廣泛和圖片搜索技術(shù)的不斷發(fā)展,圖片檢索系統(tǒng)的應(yīng)用范圍變得越來越廣。 出版領(lǐng)域。目錄式檢索方式經(jīng)常需要人工來進(jìn)行大部分的分類工作,因此代價是相當(dāng)高的。 自動提取方法的難點(diǎn)在于如何為圖片提取正確的文字信息。該類數(shù)據(jù)庫具有集中式管理的特點(diǎn),信息往往比較規(guī)范,建立索引和檢索過程都相對簡單,可以使用現(xiàn)有的關(guān)系數(shù)據(jù)庫來實(shí)現(xiàn)。當(dāng) 時的研究多集中在數(shù)據(jù)建模、多維索引、查詢評估等數(shù)據(jù)庫技術(shù)上。例如當(dāng)分析出上半部分為白色, 下半部分為藍(lán)色的圖景時,能夠理解為“海平面”。同時,還有很多研究性的圖片搜索引擎,具有代表意義幾個是: ImageRover、 WebSeer、 WebSeek、 ImageSpace、 PicToSeek、 WebMARS等等。 ImageRover 通過 LSI 方法來計(jì)算圖片與文字之間的相關(guān)性,生成文字特征向量。系統(tǒng) 同時對圖片內(nèi)容進(jìn)行比較簡單的分析,能夠辨別出照片和其他圖像。 WebSeek 還提供了相關(guān)反饋機(jī)制,用戶可以通過對結(jié)果圖片按照相關(guān)度排序來提純進(jìn)一步 的檢索結(jié)果。 學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 8 百度圖片搜索 百度圖片搜索 [6]是由百度在線網(wǎng)絡(luò)技術(shù)有限公司( )開發(fā)的,是目前國內(nèi)最大的中文圖片搜索引擎。 已經(jīng)有大量的研究集中在基于內(nèi)容的圖片檢索上,并提出了大量的模型和算法。 本文在 第 4 章 中介紹了我們初步實(shí)現(xiàn)的一個系統(tǒng),提出一個 Web 圖片搜索引擎的實(shí)現(xiàn)框架,并分析其中各個模塊的工作和相互關(guān)系,并對系統(tǒng)的運(yùn)行結(jié)果進(jìn)行一定的效果和性能分析。首先Spider 擁有一個初始的 URL 列表,放到隊(duì)列中,根據(jù) URL 獲取到對應(yīng)的網(wǎng)頁,分析網(wǎng)頁中的 a href=… 結(jié)構(gòu),獲得新的 URL,插入到隊(duì)列中。目前比較常用的方式是按照 IP 地址的 hash 值范圍分配,會涉及到抓取主機(jī)之間的通訊問題。 ? 提高抓取網(wǎng)頁的質(zhì)量 既然不可能 抓取到所有的網(wǎng)頁,為了提高抓取的質(zhì)量,通常是優(yōu)先抓取“重要的”網(wǎng)頁。如果將所得到的結(jié)果不分主次的呈現(xiàn)給用戶,必然會導(dǎo)致很糟糕的效果。 T1~Tn 為詞項(xiàng)( term), n 是所有的文檔集中出現(xiàn)的詞項(xiàng)的總數(shù), WTi為詞項(xiàng) Ti 在文檔 D 中所表現(xiàn)出來的重要度(權(quán)值),其值由下面的公式給出: IDFTFWTi ?? TF( term frequency,詞頻):表示為 TF(D, T),最簡單的形式是 n(D, T),即詞項(xiàng) T 在文檔 D 中出現(xiàn)的次數(shù)。對于具體的應(yīng)用而言,可以利用待檢索對象 的其他特征作為該對象的向量,比如圖片,可以使用可視化特征或者其他相關(guān)特征來建立圖片的向量空間,從而,可以針對這些特征來進(jìn)行相似度計(jì)算。所以有些系統(tǒng)中提供了基于內(nèi)容相似的查詢(用戶提供一張圖片,查詢類似的圖片),這樣免除了一次映射, 對于查詢某些無法或很難利用詞語來描述的圖片來說,提供了一種較好的檢索方式,但目前的效果還不理想。 LSI 模型是對于 VSM 模型的一種改良,已經(jīng)被證明在很多應(yīng)用中具有顯著的改進(jìn)效果,能夠 在很大程度上彌補(bǔ) VSM 的不足。另外的一些計(jì)算方法有絕對詞頻加權(quán)法、平均詞頻加權(quán)法、相對頻率加權(quán)法、逆文檔頻率加權(quán)法以及多種加權(quán)法的綜合運(yùn)用。 實(shí)際上, LSI 的應(yīng)用遠(yuǎn)不止于相關(guān)性排序。 信息提取技術(shù) 上文提到, Web 圖片搜索引擎中圖片的信息提取有兩種主要方式:基于內(nèi)容的提取和基于文本的提取。前者是應(yīng)用相關(guān)的,涉及到知識庫,比如對于人臉的識別,這方面的技術(shù)在模式識別領(lǐng)域中討論的比較多;后者是獨(dú)立于應(yīng)用的,所以適用范圍要廣得多,他僅僅提取一些很基本(但重要)的可視特征,并不要求對這些特征進(jìn)行識別,這一點(diǎn) 對于基于內(nèi)容相似匹配的圖片檢索已經(jīng)足夠了。 Swain 等人提出了顏色索引方法,利用顏色直方圖的交和反投影來度量圖片之間的相似性 [20][40]。該方法只考慮圖片中對象的外層邊界,并對邊界進(jìn)行傅立葉變換,作為對象的形狀特征。統(tǒng)計(jì)方法通過對像素的分布進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)其中的分布規(guī)律。 .基于內(nèi)容的檢索技術(shù)有基于文本所不具有的特點(diǎn),其一大優(yōu)勢在于它分析圖片文件本身包含的信息,可以不依賴于圖片的來源。 其它類型的資源,比如 FTP,從中基本上只能得到路徑和文件名信息,而且這些信 息常常是無關(guān)的,因此基本上無法用于圖片的文字信息提取。 索引方式 簽名文件 簽名文件的本質(zhì)是將文檔利用簽名來表示,以此來減少查詢時需要訪問的數(shù)據(jù),查詢的本質(zhì)還是遍歷和匹配。 倒排文件 搜索引擎中使用最廣泛的索引技術(shù)就是倒排文件。 通常直接儲存每個詞項(xiàng)的簽名的文件尺寸還是比較大,所以很多種壓縮技術(shù)被應(yīng)用到其中,比如: Logic Blocked 壓縮方法 [18]。 學(xué)位論文 基于文本的 Web 圖片搜索引擎的研究 18 用于海量文本數(shù)據(jù)庫( Text Database)建立索引的方式主要有簽名文件和倒排文件 [18]。通過分析 HTML 中的標(biāo)記,可以利用一系列啟發(fā)式規(guī)則來獲得相關(guān)的圖片和文字。 Zhou[32]等提出了一種文本識別算法,利用 color clustering 和 connected ponent analysis 方法將輸入圖片的顏色空間經(jīng)過預(yù)處理量化為一系列的顏色類,然后標(biāo)示出每一個顏色類中類似文本的連接成分,最后將這些連接成分通過后繼處理轉(zhuǎn)化為文本。描述紋理的主要的方法有結(jié)構(gòu)方法,統(tǒng)計(jì)方法和頻譜分析方法 [40]。 形狀特征的描述通常有兩種常用的方式:基于邊界的描述和基于區(qū)域的描述。顏色提取的優(yōu)點(diǎn)在于對圖片的大小和方向不敏感,并且對于處理各種背景復(fù)雜的圖片時效果比 較穩(wěn)定,同時,顏色是也描述圖片的最簡單的特征。 和文本檢索一樣, 基于效率上的考慮,不可能在檢索的時候才去分析圖片的內(nèi)容,而必須對待檢索的圖片集進(jìn)行預(yù)處理,主要是提取其中的可視化信息,利用多維索引技術(shù)建立索引,從而使得檢索的時候只需要利用某種匹配算法在索引中查找即可。 圖片本身除了可以有文字信息之外,還有自身固有的可視 化特征,通過建立一個統(tǒng)一的關(guān)于特征的向量表示以后,可以利用 LSI 方法在多種特征之間建立起語義關(guān)系,比如文字和可視化特征的關(guān)系,從而能夠獲得更直觀意義上的圖片、文字和可視化特征之間的相互關(guān)系。此時文檔和詞之間的相關(guān)性度量被直觀的表示為 Xˊ 矩陣中文檔與詞對應(yīng)的單元上的值。 首先需要建立矩陣 X=T D,矩陣的行代表詞,列代表文檔,矩陣的單元代表詞在文檔中的權(quán)值。 針對以上問題, Deerwester 等人提出了 LSI 模型( Latent Semanti
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1