【正文】
需的各項(xiàng)基本 /關(guān)鍵技術(shù)的實(shí)現(xiàn) 把 MUC定義的技術(shù)都在中文上面試制一遍; ?盡量發(fā)揮出我們自己的特色 考慮通用的 /可移植的 IE系統(tǒng)該怎么去做;結(jié)合漢語(yǔ)的特殊性,利用一些基礎(chǔ)的漢語(yǔ)研究成果; ?以實(shí)際應(yīng)用 (潛在 )需求為導(dǎo)向 還是希望能夠?qū)е掠杏玫南到y(tǒng),并不純是為了學(xué)術(shù) 202203031352 W or d Buf f er ( Se l ect ed p at h o n w o rd l at t i ce ) U ni t s of T ext S t r eam ( D i s co u rs es s ep ar . b y emp t y l i n es ) W or d L at t i ce ( Se g ch art s o f each s en t en ce ) P hr as e B uf f er ( Se l ect ed p h ras es w i t h h ead w o rd s ) I ns t ance B uf f er (Mat ch ed ev en t p at t ern s ) I npu t D ocu m ent s T oke n B uf f er ( Si n g l e C ch ar , n u mb er , d at e,A SCI I ) T ext Ext r act i on T oke ni zat i on H as h Sear ch A ny m at ch? D B R ecor ds 詞典 T agg i ng R ul es P at t er ns I ns t . Mer ger amp。1, 2, … n 39。1, 2, … m 39。1, 2, … l 39。 , P39。( , ypxp xypxypYXI YyXx ? ???)} .。1, 2, … n 39。1, 2, … m 39。1, 2, … l 39。 , P39。1, 2, … n 39。1, 2, … m 39。1, 2, … l 39。 , P39。 Person, Org, Post, Time, Location, …… 二元關(guān)系分類: Is_a(), Has_a()/Part_of(), Employee_of(), Product_of(), … 事件分類: … ?實(shí)體名詞的語(yǔ)義分類是一個(gè)關(guān)鍵 ——二元關(guān)系在此分類集合上構(gòu)造;精神活動(dòng)類名詞基本與 IE無(wú)關(guān)。 ?自然地, IE是基于 “ 語(yǔ)義信息 ” : 通過(guò) “ 語(yǔ)義關(guān)系 ” 組裝命名實(shí)體 202203031352 信息提取的 “ 8字方針 ” ?識(shí)別 (命名 )實(shí)體,確定 (語(yǔ)義 )關(guān)系 ?把文本看作是{ (2/3/… 元 )實(shí)體關(guān)系}的集合 ( IR:把文本看作是{詞 /符號(hào)串}的集合 /概率空間) ? Welldefined IE demands a welldefined (putable/decidable/recognizable) inforepresentation. 202203031352 物質(zhì)結(jié)構(gòu)規(guī)律 小常識(shí) 原子 分子 物質(zhì) 202203031352 物質(zhì)結(jié)構(gòu)規(guī)律 小常識(shí) 原子 分子 物質(zhì) Nu c lei(p , n ) + E lec tr o n s 202203031352 物質(zhì)結(jié)構(gòu)規(guī)律 小常識(shí) 原子 分子 物質(zhì) Nu c lei(p , n ) + E lec tr o n s Q uark s 202203031352 物質(zhì)結(jié)構(gòu)規(guī)律 小常識(shí) 原子 分子 物質(zhì) Nu c lei(p , n ) + E lec tr o n s Q uark s Superstrings 202203031352 信息組成方式 命名實(shí)體 NE (Nam e d E n ti ti e s) 實(shí)體關(guān)系 ER (E n ti t y Rela ti o n s ) 消息模板實(shí)例 ( T e m p late In stan c e s ) 202203031352 信息組成方式 命名實(shí)體 NE (Nam e d E n ti ti e s) 實(shí)體關(guān)系 ER (E n ti t y Rela ti o n s ) 消息模板實(shí)例 ( T e m p late In stan c e s ) 漢 字 202203031352 命名實(shí)體 NE (Nam e d E n ti ti e s) 實(shí)體關(guān)系 ER (E n ti t y Rela ti o n s ) 消息模板實(shí)例 ( T e m p late In stan c e s ) 漢 字 IE是“化學(xué)變化”:原子一級(jí)的重新組合。 ?“語(yǔ)用信息 ” 概率空間 (?, ?, P)涉及到符號(hào)的用法 /使用環(huán)境因素 ?!? 202203031352 并非那么簡(jiǎn)單的問(wèn)題 /答案 ?什么是 “ 信息 ” ? ——尤其是 “ 可提取的文本信息 ” ? ?到底有多少類別 /不同層次的信息? ?如何定義 /形式化表示你想要的 “ 信息 ” ? ?機(jī)器需要預(yù)備什么 “ 信息 ” 才能自動(dòng)進(jìn)行 “ 提取 ” ? 202203031352 什么是信息 (最小數(shù)據(jù)量 ) ? Information Theory: “信息是對(duì)未知的度量 ” . 無(wú)知者的話: “ 我愚昧,故我 (need)信息 ” . ?設(shè)概率空間 (?, ?, P),則事件 A? ?的信息 (數(shù)據(jù) bit)量為 ? (條件 )后驗(yàn)事件 A|B與 A的信息量之差稱為事件 A, B的 “ 互信息 ” : .)(1l o g)( APAI ?( 自信息 ) )(1l o g)|(1l o g)|(APBAPBAI ??.)( )()(lo g BAP BPAP ??202203031352 信息的至少三個(gè)層次 ?“語(yǔ)法信息 ” (符號(hào)信息 /形式信息 /… ) 概率空間 (?, ?, P)只涉及到形式符號(hào)本身 (., CFGs, 詞頻、共現(xiàn) )。 202203031352 IE的背景與動(dòng)機(jī) ?作為一門(mén)應(yīng)用性的語(yǔ)言處理技術(shù),信息提取近年來(lái)正受到越來(lái)越多的重視。這種趨勢(shì)還同計(jì)算機(jī)處理能力不斷提高和文本數(shù)據(jù)積累不斷增大密切相關(guān)。 GP is much better, but limited to source code reuse。 202203031352 MUC的 IE任務(wù)定義 ?5個(gè)典型的提取階段: (MUC7 IE Task Definition Version ) NE (Named Entities) ER (Entity Relations) Template Scenario (Event Structures) Coreference (Identity descriptions) Template Merger ?具體提取哪些 NE, ER, Events 以及做哪些 Coref, Merger 是任務(wù)相關(guān)的 (每次MUC獨(dú)立定義 )。對(duì)每一條消息,由專業(yè)人員人工給出標(biāo)準(zhǔn)答案,然后將參測(cè)系統(tǒng)的輸出結(jié)果與標(biāo)準(zhǔn)答案比較,按一定的評(píng)價(jià)指標(biāo)給出所有系統(tǒng)的評(píng)測(cè)結(jié)果,其中最主要的指標(biāo)是準(zhǔn)確率、查全率等。 ? 其主要的評(píng)測(cè)項(xiàng)目是從新聞報(bào)道中提取特定的信息,填入某種數(shù)據(jù)庫(kù)中。 202203031352 MUC (Message Understanding Conferences) ? 美國(guó)政府支持的一個(gè)專門(mén)致力于真實(shí)新聞文本理解的例會(huì),至今已舉行 7屆。 202203031352 與相關(guān)信息處理技術(shù)存在實(shí)質(zhì)差異: ?信息檢索 (Information