freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

web圖片搜索引擎設(shè)計-文庫吧

2025-07-09 16:18 本頁面


【正文】 和結(jié)果顯示系統(tǒng)工作過程 1. 抓取網(wǎng)頁和圖片 2. 從網(wǎng)頁中提取圖片相關(guān)的文字信息 3. 利用圖片生成縮略圖 4. 對提取到的文字信息建倒排索引 5. 提供查詢 核心 ——圖片信息提?。?Extractor) ? 信息來源 ? HTML文檔用于組織文字和圖片等 ? 通過分析 HTML文檔找到圖片和相關(guān)的文字 ? 提取方法 ? 不能確知網(wǎng)頁作者組織信息的方法,所以利用啟發(fā)式規(guī)則 ? 將最可能與某圖片相關(guān)的位置的文字作為圖片的文字描述信息 常用提取模式 ? img標記 ? 從 src獲取圖片來源 ? 從 alt獲取相關(guān)文字信息(注意可能為文件名) ? 獲得 width和 height, 用于以后的過濾 常用提取模式(續(xù)) ? a標記 ? 從 href獲得 URL, 判斷是否為圖片(簡單的根據(jù)擴展名,不處理動態(tài)內(nèi)容) ? 從 title獲得相關(guān)文字信息 ? 從 anchor_text獲得圖片的文字信息(通常最準確) 常用提取模式(續(xù)) ? 網(wǎng)頁的標題 ? 圖片與所在網(wǎng)頁相關(guān),因此和網(wǎng)頁的標題相關(guān) ? 提取 title下的文字。有時 title下還會嵌套標記,需要去除。有時 title使用缺省的名字(比如 new page或者 Untitled Document), 需要過濾 常用提取模式(續(xù)) ? 鏈接到圖片所在網(wǎng)頁的文本 ? 和網(wǎng)頁的標題一樣,這是對網(wǎng)頁的描述,所以 Some_info可能和 ? 需要跨頁面的信息提取 a href=“”Some_info/a 常用提取模式(續(xù)) ? 網(wǎng)頁的 meta標記 ? 也是對網(wǎng)頁內(nèi)容的描述 ? 可以提取其中的 keywords和 description的值 常用提取模式(續(xù)) ? 圖片的 URL ? 圖片的 URL可能含有相關(guān)信息( path和file_name) ? 判斷 path和 file_name是否為中文,或者為英文單詞,是則可能有意義 ? 不考慮站點的 domain_name, 太泛 常用提取模式(續(xù)) ?
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1