freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文改web中圖像的檢索技術(shù)研究(留存版)

  

【正文】 搜索效率。 向量空間模型 能夠?qū)崿F(xiàn)文檔 自動(dòng) 的分類(lèi)和對(duì)查詢(xún)結(jié)果的相似度排列,可以 有效提高檢索效率; 但 它的缺點(diǎn)是相似度的計(jì)算量大, 每當(dāng)有新文檔加入時(shí),就 必須重新計(jì)算詞的權(quán)值。采用這種層次的存儲(chǔ)結(jié)構(gòu),可以很快把查詢(xún)?cè)~的工作縮小到一個(gè)很小的范圍內(nèi),有利于分詞效率的提高。通過(guò)相關(guān) 的 反饋對(duì)用戶(hù)提交的查詢(xún) 進(jìn)行 修改, 使 檢索的性能比原先有了提高。當(dāng)相似度臨界值取 時(shí) 候 ,本搜索模型可以保證檢索精度 80%,而檢索完全度 60%。 為 了 檢驗(yàn)搜索模型,下載 了 含有圖像的 4000多個(gè)中文網(wǎng)頁(yè) ( 來(lái)源于 1000多個(gè) URLs),對(duì)這些 HTML文檔進(jìn)行 搜索 。 同時(shí),對(duì)于相同或相近專(zhuān)業(yè)和領(lǐng)域建立起動(dòng)態(tài)詞庫(kù),將由統(tǒng)計(jì)得到的詞不斷加入詞庫(kù)中,可以實(shí)現(xiàn)對(duì)詞典的動(dòng)態(tài)維護(hù)。并且,在這里,針對(duì)每一個(gè)雙字,需要記錄以該雙字為詞首的所有詞的最大長(zhǎng)度,實(shí)際中,可以保存除去該雙字部分的最大長(zhǎng)度 (記為 n)。 9 兩文檔之間的相似度可以用其對(duì)應(yīng)的向量之間的夾角余弦來(lái)表 示,即文檔 di, dj的相似度可以表示為 ????????? nkjknkiknkjkikjiddddddS i m12121))()()(()()(c o s),(????? 進(jìn)行查詢(xún)的過(guò)程中,先將查詢(xún)條件 Q進(jìn)行向量化,主要依據(jù)布爾模型 : 當(dāng) ti在查詢(xún)條件 Q 中時(shí),將對(duì)應(yīng)的第 i坐標(biāo)置為 1,否則置為 0,即 ??? ??? Qt Qtqiii 01 也就是說(shuō)當(dāng)兩詞條完全相同時(shí),這一項(xiàng)為 1,其余情況為 0。 (3)圖像的標(biāo)簽,使用一段短語(yǔ)說(shuō)明圖片的摘要信息,圖片無(wú)法顯示時(shí)用標(biāo)簽的文本取代圖片,顯示摘要信息。在能夠?qū)崿F(xiàn)對(duì)網(wǎng)頁(yè)中文本信息提取的同時(shí),如何再為用戶(hù)抽取所需的圖片資料是信息檢索中一個(gè)值得研究的問(wèn)題。 當(dāng)今,國(guó) 際上還沒(méi)有通用 基于內(nèi)容的編碼標(biāo)準(zhǔn)。有的搜索引擎會(huì)對(duì) 時(shí)常 更新的網(wǎng)頁(yè)和 訪問(wèn)人數(shù) 多的網(wǎng)頁(yè) 進(jìn)行更 加 頻繁的重建索引; (4)采集過(guò)程:采集 可分為 寬度優(yōu)先、深度優(yōu)先兩種算法;一般認(rèn)為寬度優(yōu)先對(duì)擴(kuò)大內(nèi)容覆蓋面有 幫助 ,深度優(yōu)先算法 可以 提供更多細(xì)節(jié)資料; (5)索引算法:有的搜索引 擎只 會(huì) 處理元標(biāo)記和一小部分文檔內(nèi)容,而 另外 有一些搜索引擎則是 會(huì) 對(duì)全文進(jìn)行索引; (6)結(jié)果顯示:有的搜索引擎只 會(huì) 顯示網(wǎng)頁(yè)標(biāo)題,有些 的話(huà) 則有更詳細(xì)的一些信息,比如 說(shuō) 網(wǎng)頁(yè)的內(nèi)容,更新日期等; (7)查詢(xún)算法:一個(gè)優(yōu)秀的查詢(xún)算法是 非常 重要的,最基本的布爾查詢(xún),短語(yǔ)查詢(xún),5 有 些 搜索引擎還 會(huì) 提供指定屬性的查詢(xún),比如 說(shuō) 可以指定對(duì)網(wǎng)頁(yè)作者、主題進(jìn)行查詢(xún)。檢索結(jié)果顯示簡(jiǎn)圖、圖像類(lèi)型(如 GIF、 JPG)、大小、最后 查找日期、檢索詞匹配數(shù)量、標(biāo)引使用關(guān)鍵詞、成功下載 可靠程度等,并 且 同時(shí)給出圖像文件的 URL和源站點(diǎn) URL。 這是 基于圖 片 本身特征 的檢索,適用于檢索 明確 目標(biāo)的查詢(xún)要求, 可是 目前這種 較為 成熟的檢索技術(shù)主要 是 應(yīng)用于圖 片 數(shù)據(jù)庫(kù)檢索。 引擎通過(guò)檢查擴(kuò)展名來(lái)判斷 這個(gè) 導(dǎo)向是否 是 圖 片 文件, 假若 文件擴(kuò)展名是 .png、 .jpg、 .gif等 , 則 說(shuō)明 是一個(gè)可顯示的圖 片文件 。查詢(xún)匹配 就是對(duì)用戶(hù)寫(xiě)入的關(guān)鍵字和網(wǎng)頁(yè)描述、標(biāo)題來(lái) 匹配,并非是通過(guò)對(duì)全文匹配進(jìn)行的。 由于 網(wǎng)絡(luò)現(xiàn)在的 問(wèn)題:內(nèi)容沒(méi)有 良好 的 架構(gòu) ; 網(wǎng)絡(luò)海量 信息 不斷的 增多 。 假如是自動(dòng)索引 ,機(jī)器人 在得到 一個(gè)頁(yè)面以后,需根據(jù)該頁(yè)面的 內(nèi) 容進(jìn)行索引, 依據(jù)它的關(guān)鍵字把它歸到一個(gè) 類(lèi) 中。 因此 對(duì)于 計(jì)算機(jī),圖像檢索 的 難度比文本的查詢(xún) 的 難度要高出很多 。以此同時(shí)它也支持對(duì)圖片的查詢(xún)。單擊 標(biāo)題可 以 得到原圖像,但需由該URL回溯才 可 找出源站點(diǎn)。試圖 把 傳統(tǒng)的文本檢索技術(shù) 用 于對(duì)多媒體信息的檢索上,因?yàn)榛谖谋镜臋z索技術(shù)發(fā)展已經(jīng) 很 成熟。 (5)對(duì)用戶(hù)查詢(xún)接口的研究 這涉及到用戶(hù)對(duì)圖像內(nèi)容感知表達(dá)、交互方式 設(shè)計(jì)、用戶(hù) 要 如何形成并提交查詢(xún)等方面。為了處理 Web的中文數(shù)據(jù),還必須使用一系列中文自然語(yǔ)言處理技術(shù)。 8 文本的權(quán)值比較 以上討論了網(wǎng)頁(yè)中對(duì)圖像信息的描述,在圖像的檢索中,首先是要建立描述圖片內(nèi)容特征的查詢(xún)語(yǔ)句,然后比較、區(qū)分描述信息與查詢(xún)語(yǔ)句之間的異同,獲取需要檢索的圖像。 分詞技術(shù)和匹配方法 1. 常用的切詞算法如下: (1)最大正向匹配法 基本思想是:設(shè) D 為詞典, MAX 表示 D 中的最大詞長(zhǎng), str 為待切 分的字串。 (2)匹配方法 由于詞庫(kù)中的最大詞長(zhǎng)通常大于所切分出的詞長(zhǎng),為了提高切分的效率,不采用逐次減一個(gè)字的方法,而是使用正向逐一增 長(zhǎng)的方法。 不過(guò),大多數(shù) 的 反饋并不 具備記憶能力,每次反饋 的結(jié)果只能 用于 本次查詢(xún)。 13 為決定 ITW, IAW, ICW, PTW在相似度 的 計(jì)算中的權(quán)值,測(cè)試 了 從 ~ 系數(shù)。從圖 1和圖 2又可以得 到 ,當(dāng)α =β =0無(wú)反饋 的 時(shí) 候 檢索 精準(zhǔn)度 =48%,當(dāng)α = ,β = 或 精準(zhǔn)度 =61%,引入反饋系統(tǒng)使檢索精度 可以 提高了 13%左右 。 設(shè)已對(duì) C1?? Cn 進(jìn)行切分,由切分算法和歧義處理算法得到 C1?? Ci 為一個(gè)詞,Cj?? Cn為一個(gè)詞, Ci與 Cj之間皆為單字詞,即 C1?? Ci和 Cj?? Cn是相鄰最近的兩個(gè)多字詞,則將 Ci+1?? Cj1作為一個(gè)多字詞進(jìn)行詞頻統(tǒng)計(jì),在對(duì)文章全部切分完畢之后,若 Ci+1?? Cj1的出現(xiàn)次數(shù)達(dá)到 f時(shí),則將其看作一個(gè)詞,否則,將其拆分為單字詞。每一個(gè)可成詞的單字對(duì)應(yīng)一系列第二層結(jié)點(diǎn),用來(lái)存儲(chǔ)所有以該字為詞首的雙字(包括上述兩種情況 )。 TFIDF 公式有很多變種,下面是一個(gè)常用的 TFIDF 公式: ?????? ni iiiiinNdtfnNdtfd122 )(l o g))(() o g ()()(? 根據(jù)公式,文檔集中包含某一詞條的文檔越多,說(shuō)明它區(qū)分文檔類(lèi)別屬性的能力越低,其權(quán)值越??;另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說(shuō)明它區(qū)分文檔內(nèi)容屬性的能力越強(qiáng),其權(quán)值越大。 (2)圖像的標(biāo)題,通常用一個(gè)關(guān)鍵詞表示圖像信息。 第二章 基于 Web 的圖像搜索 在網(wǎng)絡(luò)技術(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1