freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)論文改web中圖像的檢索技術(shù)研究-wenkub

2023-05-25 05:56:03 本頁(yè)面
 

【正文】 文檔所在的 URL 地 址。文檔提取 的機(jī)制、索引策略這些 對(duì) 搜索引擎 ( web) 的有效性有巨 大的聯(lián)系。一般站點(diǎn)都會(huì)有 個(gè) 文件來(lái)標(biāo)注 服務(wù)器不希望 機(jī)器人 訪問(wèn)的區(qū)域, 機(jī)器人都必須遵守這 規(guī)定。查詢匹配 就是對(duì)用戶寫(xiě)入的關(guān)鍵字和網(wǎng)頁(yè)描述、標(biāo)題來(lái) 匹配,并非是通過(guò)對(duì)全文匹配進(jìn)行的。 搜索引擎的工作原理 最 初的搜索引擎結(jié)構(gòu) ,是讓 Spider 不停的 從 Web 收集數(shù)據(jù),存儲(chǔ)在搜索引擎 數(shù)據(jù)庫(kù) 當(dāng)中。 依照 現(xiàn)有的搜索引擎和 國(guó)內(nèi)外 有關(guān)研究 人員 的種種資料表明, 現(xiàn)在 的網(wǎng)絡(luò)資源和搜索引擎 的特點(diǎn) 如下 : (1)搜索的數(shù)據(jù)種類多樣,如視頻、圖片、文字 等。 但由于 網(wǎng)絡(luò) 本身 架構(gòu)、管理 的 種種問(wèn)題,想 在 網(wǎng)絡(luò)精準(zhǔn) 、 高效 地找到 所需 的圖像,卻變成了件非常不 易之 事。 由于 網(wǎng)絡(luò)現(xiàn)在的 問(wèn)題:內(nèi)容沒(méi)有 良好 的 架構(gòu) ; 網(wǎng)絡(luò)海量 信息 不斷的 增多 。存取協(xié)議也是 種類繁多 ,如 HTTP、FTP、 News 等 等 ; (2)索引數(shù)據(jù)量 巨 大, 從而導(dǎo)致 不可能有某 一 個(gè)數(shù)據(jù)庫(kù) 可以 包括整個(gè) 網(wǎng)絡(luò) 的索引,當(dāng)下 最大的搜索引擎, 其索引也僅僅 覆蓋了 網(wǎng)絡(luò) 的一小部分 而已 ; (3)資源消耗過(guò)大,系統(tǒng)需 將 HTML 文檔 傳送 到本地之后 再 進(jìn)行分析, 占用昂貴的網(wǎng)絡(luò)和 CPU 資源, 從而 增加被搜索結(jié)點(diǎn)的 壓力 。用戶靠搜索引擎服務(wù)器 的 Web 接口,發(fā) 出搜索請(qǐng)求, 讓 Web Server 通過(guò) CGI或 者其它技術(shù)訪問(wèn)數(shù)據(jù)庫(kù),并且將用戶搜索請(qǐng)求變 成相 對(duì) 應(yīng)的數(shù)據(jù)存取語(yǔ)句, 發(fā)送給引擎處理,然后把 結(jié)果通過(guò)網(wǎng)頁(yè)顯示 反饋 給用戶。 對(duì)網(wǎng)頁(yè)進(jìn)行自動(dòng)的索引 是 第二種 ,這類 方法 能自動(dòng)實(shí)現(xiàn)文檔分類,這種 方法是 采用信息提取技術(shù)。 假如是自動(dòng)索引 ,機(jī)器人 在得到 一個(gè)頁(yè)面以后,需根據(jù)該頁(yè)面的 內(nèi) 容進(jìn)行索引, 依據(jù)它的關(guān)鍵字把它歸到一個(gè) 類 中。高級(jí)搜索選項(xiàng)包括:布爾方法、短語(yǔ)匹配、 自然語(yǔ)言 的處理。 此外有些關(guān)于某個(gè)主題 專門的 搜索引擎, 只 針對(duì)某 個(gè)主題的內(nèi)容 來(lái)進(jìn)行檢索和處理,如此 一來(lái) 信息的取全率、 精 準(zhǔn)度也 相對(duì)會(huì) 較高。 (2)人工干預(yù)找出圖 片 。 因此 對(duì)于 計(jì)算機(jī),圖像檢索 的 難度比文本的查詢 的 難度要高出很多 。當(dāng) 找 到 圖像文件后, 搜索引擎通過(guò)查看文件名或 者 路徑名 來(lái) 確定文件內(nèi)容, 當(dāng)然 也可以通過(guò)查看圖 片 標(biāo)題來(lái)匹配檢索 關(guān)鍵 詞。這種查詢方 法 是比較準(zhǔn)確的, 大都 可以獲得 蠻 好的查準(zhǔn)率,但 是 需人工參 加 ,勞動(dòng)強(qiáng)度 高 , 因此 限制了可處理 圖像 的 數(shù)量。在圖 片 搜索引擎中應(yīng)用這 類 檢索技術(shù)還有 困難,但 是 有部分圖像搜索引擎 開(kāi)始 嘗試 使用 這種檢索方法。以此同時(shí)它也支持對(duì)圖片的查詢。 能 夠 幫你在 萬(wàn)維網(wǎng)上搜索你所需的網(wǎng)頁(yè),文本 ,圖像,視頻音頻。 Scour 工作原理是在文件名、路徑名 、 ALT 標(biāo)簽中搜索 關(guān)鍵 詞。 主要缺 點(diǎn) 是標(biāo)引 的 深度 太淺 ,查準(zhǔn)率 比 較低,但查全率 比 較好。單擊 標(biāo)題可 以 得到原圖像,但需由該URL回溯才 可 找出源站點(diǎn)。它根據(jù)文件 的擴(kuò)展名識(shí)別圖像,在描述詞、文件名、目錄名、ALT 字段中查詢 到檢索詞。 搜索引擎基本要點(diǎn) (1)索引文檔 容量:當(dāng)今最大的搜索引擎有可能包含超 100,000,000 個(gè) 的 鏈接,但是 這 個(gè) 也只是整個(gè) Web網(wǎng)上 很 小 的一 部分。另外有 些 搜索引擎還采用了相關(guān)度 的 反饋、概念查詢等算法; (8)用戶界面: 大多數(shù) 搜索引擎都提供了簡(jiǎn)單 和高級(jí)查詢兩個(gè)界面。試圖 把 傳統(tǒng)的文本檢索技術(shù) 用 于對(duì)多媒體信息的檢索上,因?yàn)榛谖谋镜臋z索技術(shù)發(fā)展已經(jīng) 很 成熟。相 對(duì)而言,盡管圖像檢索已經(jīng)出現(xiàn)了諸如直方圖、顏色矩 等多種表征圖像特 點(diǎn) 的方法,但是 如果 要突破對(duì)低層次特征的分析,實(shí)現(xiàn)更 加 高語(yǔ)義上的檢索,實(shí)現(xiàn)難度 比較 大,進(jìn)展 緩 慢。 現(xiàn)有 的圖像搜索引擎在信息的自動(dòng)加工和標(biāo)引方面都 有 提高 空間 ,需要開(kāi)發(fā)出計(jì)算機(jī)自動(dòng)識(shí)別 、 標(biāo)引圖像的算法和技術(shù), 用以完善現(xiàn)有的檢索功能,并與已有 成熟的圖像庫(kù)檢索技術(shù)相 融合 ,這是今后 需要 研究的一個(gè)課題。 20 世紀(jì) 90年代初,國(guó)際上就 已經(jīng)開(kāi) 始 對(duì)基于內(nèi)容的圖像信息檢索 這 一 方面的研究。 (5)對(duì)用戶查詢接口的研究 這涉及到用戶對(duì)圖像內(nèi)容感知表達(dá)、交互方式 設(shè)計(jì)、用戶 要 如何形成并提交查詢等方面。這里 會(huì) 涉及到如何把用戶的查詢表達(dá)轉(zhuǎn)換 成 可以執(zhí)行檢索的特征矢量,如何從交互過(guò)程中獲取用戶的內(nèi)容感知, 方便 選擇合適的檢索 特征等問(wèn)題。未來(lái)的圖像檢索技術(shù)將是網(wǎng)絡(luò)技術(shù)和基于內(nèi)容的圖像庫(kù)檢索技術(shù)的 融合 。 現(xiàn)有的檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索,往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象,特別是在網(wǎng)絡(luò)信息時(shí)代,利用關(guān)鍵詞匹配很難滿足人們檢索的要求。為了處理 Web的中文數(shù)據(jù),還必須使用一系列中文自然語(yǔ)言處理技術(shù)。 文本與圖像之間的關(guān)系 在文本檢索中,搜索引擎主要考慮 Web 頁(yè)中相關(guān)文字信息以及它的語(yǔ)義,這些文本信息反映 出網(wǎng)頁(yè)的內(nèi)容,但不完全與網(wǎng)頁(yè)中圖片的內(nèi)容一致。經(jīng)過(guò)對(duì) HTML網(wǎng)頁(yè)格式的分析與對(duì)大量實(shí)際網(wǎng)頁(yè)的研究,可知以下幾個(gè)方面的標(biāo)記與文本和圖像內(nèi)容有著最為密切的聯(lián)系。 (4)網(wǎng)頁(yè)的標(biāo)題,該標(biāo)題反映出網(wǎng)頁(yè)的中心內(nèi)容,作為表現(xiàn)網(wǎng)頁(yè)內(nèi)容的圖片與網(wǎng)頁(yè)的標(biāo)題之間也有著一定的聯(lián)系。 8 文本的權(quán)值比較 以上討論了網(wǎng)頁(yè)中對(duì)圖像信息的描述,在圖像的檢索中,首先是要建立描述圖片內(nèi)容特征的查詢語(yǔ)句,然后比較、區(qū)分描述信息與查詢語(yǔ)句之間的異同,獲取需要檢索的圖像。所以在比較、區(qū)分各類文本信息以決定是否符合檢索要求時(shí),它們所占的權(quán)值應(yīng)該是有所不同的。 檢索模型與相似度 在用向量空間模型進(jìn)行檢索的時(shí)候,首先 會(huì) 把描述網(wǎng)頁(yè)中的圖片的文字信息看作是有序的詞條序列,這樣把以上歸納的信息分別稱為: ICW, ITW, IAW, PTW??梢钥闯鑫臋n含有完全相同的詞條時(shí),相似度 =1;而其中無(wú)相同時(shí)的詞條時(shí),相似度 =0。 分詞技術(shù)和匹配方法 1. 常用的切詞算法如下: (1)最大正向匹配法 基本思想是:設(shè) D 為詞典, MAX 表示 D 中的最大詞長(zhǎng), str 為待切 分的字串。 統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為 1/169,單純使用逆向最大匹10 配的錯(cuò)誤率為 1/245,它切分的準(zhǔn)確率上比正向匹配法有很大提高 。 2. 匹配方法: (1)詞典存儲(chǔ)
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1