freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

情報分析技術(shù)課件第二講(4)_搜索引擎發(fā)展趨勢(編輯修改稿)

2024-11-14 14:59 本頁面
 

【文章內(nèi)容簡介】 信息檢索與信息抽取 中國科技信息研究所 化柏林 23/50 ?信息檢索的粒度要比信息抽取的粒度大 , 信息檢索強調(diào)的是對檢索入口進行控制 , 并不對檢索出口進行控制 , ?信息檢索策略的調(diào)整只能決定檢索結(jié)果的多少 ,并不能決定每條檢索結(jié)果的大與小 。 ?我們只能通過檢索策略的調(diào)整來決定檢索結(jié)果的記錄數(shù) , 而不能對某條記錄的內(nèi)容進行抽取 。 文獻自動綜述 中國科技信息研究所 化柏林 ? 如想了解搜索引擎 , 將不再顯示所有含有搜索引擎的成千上萬篇文章 , ? 而是一篇綜合了所有關(guān)于搜索引擎的文章 ,文章會有 發(fā)展歷史 , 主要分類 , 使用技巧與方法 , 關(guān)鍵技術(shù)實現(xiàn) , 發(fā)展趨勢 等多個主題 , ? 相當于百科全書的形式來組織關(guān)于搜索引擎的所有知識點 。 ? 這樣由閱讀多篇文章變成了閱讀一篇文章的不同部分 , 實現(xiàn)了內(nèi)容的濾重與重組 。 三代搜索引擎的分析 ?即使查到了相應的文獻 , 而在文檔中有許多我們不需要的信息 , 通過信息抽取把想要的信息單元抽取出來 , 過濾掉其它信息 。 ?利用信息抽取技術(shù)就會直接出來一個二維列表 , 也就是只需要閱讀一個網(wǎng)頁 , 所以也稱列表式搜索 。 中國科技信息研究所 化柏林 ?四代搜索引擎將深入語義層面,深入理解句子的意思,理解圖像的含義、音頻視頻的內(nèi)容,這時對于不同媒體格式的數(shù)據(jù)可以達到統(tǒng)一。 ?不僅要分析詞的義項、分析句子的語義,應該還能夠?qū)φZ篇進行語義分析 ?這個時期可以進行觀點型搜索、流派型搜索,如查持有 “ 數(shù)據(jù)挖掘不同于知識發(fā)現(xiàn),而是知識發(fā)現(xiàn)的一個階段 ” 觀點的文章或與其觀點不同的文章。 四代搜索引擎的分析 中國科技信息研究所 化柏林 四代搜索引擎的分析 中國科技信息研究所 化柏林 因為越過了符號系統(tǒng),深入到語義層面,所以跨語言檢索也將有長足的發(fā)展, “ Love lives in cottages as well as in courts.”對于這樣一個句子, “ 愛情不分貧富。 ” 是比較地道的譯文,但我們在目前的搜索引擎中輸入 “ 貧富 ” 可能很難能查到含有上述英文句子的網(wǎng)頁。 可它畢竟表達出了貧富的意思,因此真正的跨語言檢索是需要同族匹配、提問翻譯、文檔翻譯和中間語言轉(zhuǎn)換等技術(shù)。 四代搜索引擎的分析 中國科技信息研究所 化柏林 多種媒體格式的數(shù)據(jù)用統(tǒng)一的語義來表示,語義的表示仍然是個難題, 如 “ 竹橫麻豎,青黃交錯軟硬簾;碳去鹽歸,黑白分明山水貨 ” 分別描述的是兩幅勞動的場景,除了有顏色、紋理等圖像特征外,還有質(zhì)地、取源等圖像難以分析的內(nèi)容特征,而把場景和上述對聯(lián)用統(tǒng)一的語義來表示的確有點困難。 五代搜索引擎的分析 中國科技信息研究所 化柏林 ? 將穿越語義,在充分理解各種語義的基礎(chǔ)上,能夠分析文獻的寫作手法、修辭方式,能夠推敲語言的妙用。 ? 搜索引擎能夠分析出不同媒體格式所帶來的不同效果。 ? 強調(diào)語用是五代搜索引擎的主要特征, – 如查詢所有與 “ 孔乙已大約的確死了 ” 使用同一寫作手法的句子, – 查詢一二句描寫自然景色三四句抨擊社會現(xiàn)象的七言律詩。 ? 這樣的搜索就穿越了語義而達到了語用的層面,不僅僅是語義搜索,而是語用搜索。 I npu t 形態(tài)分析 語用分析 結(jié)構(gòu)分析 語義分析 靜態(tài) U R L 動態(tài) U R L 免費注冊數(shù)據(jù) 私有異構(gòu)數(shù)據(jù) 虛擬現(xiàn)實 出入口異媒體 出入口同媒體 詞對單媒體 計算詞典 熟語料庫 專家知識庫 常識知識庫 搜索范圍 出入口 分析層面 資源支撐 I n p u t P r o c e s s O u t p u t 搜索引擎的出入口 中國科技信息研究所 化柏林 ? 從檢索出入口來看 , 二代搜索引擎輸入的是文本 , 輸出的是文本 、 圖像 、 音頻 、 視頻 。 ? 對于非文本的搜索主要是輸入描述性的詞語 ,而這些詞是從文件名中或文件說明中抽取出來的詞 , 所以從本質(zhì)上講 , 去數(shù)據(jù)庫里還是用文本來匹配文本的搜索 , 只不過返回的結(jié)果是圖片或音頻視頻而已 。 ? 二代搜索引擎的
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1