freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

文本信息提取技術(shù)概述(完整版)

  

【正文】 找平衡 突破信息檢索的局限性 (由人來(lái)閱讀、理解、提取 ) ? 自動(dòng) 查找、理解和提?。?“ 有限技術(shù)的無(wú)窮運(yùn)用 ” 202203031352 Typical Process Specified Information Understanding Document Base Filled Templates Info: event_frame ……….. …………. ………. (As a DBMS Interface) 202203031352 A Conceived Process Specified Information Understanding Document Base Filled Templates Info: event_frame ……….. …………. ………. (As a DBMS Interface) “有了數(shù)據(jù)庫(kù)之后,就什么都好辦了。 ? 當(dāng)前,由 MUC定義的概念、模型和技術(shù)規(guī)范在國(guó)際上對(duì)整個(gè)信息提取領(lǐng)域起著主導(dǎo)的作用。 202203031352 信息提取涉及到兩個(gè)方面的因素 (1)用戶(hù)指定感興趣的信息特性,以及待分析的文本集(數(shù)據(jù)源); (2)系統(tǒng)過(guò)濾文本集并以一定的格式輸出匹配的信息 (關(guān)系記錄 )。 1/2/0。普羅迪4日晚召開(kāi)了由意外長(zhǎng)、內(nèi)政和國(guó)防部長(zhǎng)參加的緊急會(huì)議,商討應(yīng)付庫(kù)爾德難民問(wèn)題的對(duì)策。202203031352 孫 斌 北京大學(xué)計(jì)算機(jī)系計(jì)算語(yǔ)言所 () 文本信息提取技術(shù) (概述 ) 202203031352 內(nèi)容 ( 1)信息提取的含義、目標(biāo) ( 2)信息提取技術(shù)中若干相關(guān)基礎(chǔ)問(wèn)題 ( 3) (中文 )信息提取系統(tǒng)的流程與設(shè)計(jì) ( 4) Web信息提取 202203031352 “ 信息提取 ” 的含義 202203031352 舉例說(shuō)明:什么是信息提取 ?設(shè)想有一個(gè)用戶(hù),他關(guān)心 《 人民日?qǐng)?bào) 》中出現(xiàn)的一類(lèi)特定的信息,即會(huì)議信息。會(huì)前,普羅迪說(shuō), “ 在經(jīng)過(guò)最初的混亂后,歐洲國(guó)家的行動(dòng)已經(jīng)大大加強(qiáng) ” ,今后幾天內(nèi)將在此問(wèn)題上進(jìn)行系統(tǒng)合作。 1/3/2。 202203031352 與相關(guān)信息處理技術(shù)存在實(shí)質(zhì)差異: ?信息檢索 (Information Retrieval) : 只是找出滿(mǎn)足一定檢索條件 (query)的整篇文檔或段落,而人們?nèi)匀槐仨氶喿x所找到的每一個(gè)文檔或段落才能獲得所需要的信息。 202203031352 MUC的 IE任務(wù)定義 ?5個(gè)典型的提取階段: (MUC7 IE Task Definition Version ) NE (Named Entities) ER (Entity Relations) Template Scenario (Event Structures) Coreference (Identity descriptions) Template Merger ?具體提取哪些 NE, ER, Events 以及做哪些 Coref, Merger 是任務(wù)相關(guān)的 (每次MUC獨(dú)立定義 )?!? 202203031352 并非那么簡(jiǎn)單的問(wèn)題 /答案 ?什么是 “ 信息 ” ? ——尤其是 “ 可提取的文本信息 ” ? ?到底有多少類(lèi)別 /不同層次的信息? ?如何定義 /形式化表示你想要的 “ 信息 ” ? ?機(jī)器需要預(yù)備什么 “ 信息 ” 才能自動(dòng)進(jìn)行 “ 提取 ” ? 202203031352 什么是信息 (最小數(shù)據(jù)量 ) ? Information Theory: “信息是對(duì)未知的度量 ” . 無(wú)知者的話(huà): “ 我愚昧,故我 (need)信息 ” . ?設(shè)概率空間 (?, ?, P),則事件 A? ?的信息 (數(shù)據(jù) bit)量為 ? (條件 )后驗(yàn)事件 A|B與 A的信息量之差稱(chēng)為事件 A, B的 “ 互信息 ” : .)(1l o g)( APAI ?( 自信息 ) )(1l o g)|(1l o g)|(APBAPBAI ??.)( )()(lo g BAP BPAP ??202203031352 信息的至少三個(gè)層次 ?“語(yǔ)法信息 ” (符號(hào)信息 /形式信息 /… ) 概率空間 (?, ?, P)只涉及到形式符號(hào)本身 (., CFGs, 詞頻、共現(xiàn) )。 , P39。 , P39。( , ypxp xypxypYXI YyXx ? ???)} .。1, 2, … n 39。 202203031352 The Outline of A Chinese Word Knowledgebase 現(xiàn) 代 漢 語(yǔ) 語(yǔ) 法 信 息 詞 典 庫(kù) 名 記錄數(shù) 屬性字段數(shù)總庫(kù) 7 3 8 7 713名詞 3 5 2 0 131時(shí)間詞 56516處所詞 18315方位詞 19421數(shù)詞 16526量詞 45624區(qū)別詞 75713代詞 20519 人稱(chēng)代詞分庫(kù) 498 指示代詞分庫(kù) 15715動(dòng)詞 1 4 4 9 647 體賓動(dòng)詞分庫(kù) 7 6 3 027 謂賓動(dòng)詞分庫(kù) 1 3 2 18 雙賓動(dòng)詞分庫(kù) 18512 動(dòng)結(jié)式分庫(kù) 3 1 7 810庫(kù) 名 記錄數(shù) 屬性字段數(shù) 動(dòng)趨式分庫(kù) 6 1 9 532 離合詞分庫(kù) 3 4 2 08形容詞 2 8 5 733狀態(tài)詞 98618副詞 1 1 7 422介詞 10828連詞 20315助詞 3812語(yǔ)氣詞 5313前接成分 119后接成分 439成語(yǔ) 5 2 6 415簡(jiǎn)稱(chēng)略語(yǔ) 40014習(xí)用語(yǔ) 3 0 3 115語(yǔ)素 7 2 2 314標(biāo)點(diǎn)符號(hào) 5217總計(jì)579202203031352 語(yǔ)言分析技術(shù) ?信息提取系統(tǒng)的目的在于獲取指定的信息,因而往往不需要進(jìn)行完整的語(yǔ)言分析和理解。 Runtime Efficiency is the major gain。tag), 從候選詞的標(biāo)記路徑上選擇一條概率最大的路徑 。 XML “語(yǔ)義標(biāo)簽 ” 、 Semantic Web。 超鏈 “ 上下文 ” 提示信息 。 ?信息提取系統(tǒng)通常有數(shù)十~數(shù)百個(gè)模式 :性能瓶頸 常規(guī)的匹配方法 (KMP, BM):為每個(gè)模式 n構(gòu)造一個(gè) DFA,逐個(gè)地匹配原文 m;最好為線(xiàn)性復(fù)雜度O(m+n)。 ?核心思想: 根據(jù)系統(tǒng)中各個(gè)基本處理過(guò)程對(duì)數(shù)據(jù)結(jié)構(gòu)和類(lèi)型的一組類(lèi)型需求 (a set of types satisfying a group of requirements),抽象出相應(yīng)的一個(gè)基本概念 (concept)作為抽象 /隔離界面;根據(jù)概念的數(shù)據(jù)要求設(shè)計(jì)通用、高效、類(lèi)型安全的算法。 ?在語(yǔ)法分析階段的一個(gè)主要問(wèn)題是代表信息所包含的事件、消息或事實(shí)的有關(guān)名詞性短語(yǔ)和動(dòng)詞性短語(yǔ)的識(shí)別問(wèn)題。 202203031352 中文信息提取系統(tǒng)設(shè)計(jì) 202203031352 基本目標(biāo) ?嘗試中文 IE所需的各項(xiàng)基本 /關(guān)鍵技術(shù)的實(shí)現(xiàn) 把 MUC定義的技術(shù)都在中文上面試制一遍; ?盡量發(fā)揮出我們自己的特色 考慮通用的 /可移植的 IE系統(tǒng)該怎么去做;結(jié)合漢語(yǔ)的特殊性,利用一些基礎(chǔ)的漢語(yǔ)研究成果; ?以實(shí)際應(yīng)用 (潛在 )需求為導(dǎo)向 還是希望能夠?qū)е掠杏玫南到y(tǒng),并不純是為了學(xué)術(shù) 202203031352 W or d Buf f er ( Se l ect ed p at h o n w o rd l at t i ce ) U ni t s of T ext S t r eam ( D i s co u rs es s ep ar . b
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1