【正文】
把 MUC定義的技術(shù)都在中文上面試制一遍; ?盡量發(fā)揮出我們自己的特色 考慮通用的 /可移植的 IE系統(tǒng)該怎么去做;結(jié)合漢語的特殊性,利用一些基礎(chǔ)的漢語研究成果; ?以實際應(yīng)用 (潛在 )需求為導(dǎo)向 還是希望能夠?qū)е掠杏玫南到y(tǒng),并不純是為了學(xué)術(shù) 1213C W or d Buf f er ( Se l ect ed p at h o n w o rd l at t i ce ) U ni t s of T ext S t r eam ( D i s co u rs es s ep ar . b y emp t y l i n es ) W or d L at t i ce ( Se g ch art s o f each s en t en ce ) P hr as e B uf f er ( Se l ect ed p h ras es w i t h h ead w o rd s ) I ns t ance B uf f er (Mat ch ed ev en t p at t ern s ) I npu t D ocu m ent s T oke n B uf f er ( Si n g l e C ch ar , n u mb er , d at e,A SCI I ) T ext Ext r act i on T oke ni zat i on H as h Sear ch A ny m at ch? D B R ecor ds 詞典 T agg i ng R ul es P at t er ns I ns t . Mer ger amp。1, 2, … n 39。1, 2, … m 39。1, 2, … l 39。 , P39。( , ypxp xypxypYXI YyXx ? ???)} .。1, 2, … n 39。1, 2, … m 39。1, 2, … l 39。 , P39。1, 2, … n 39。1, 2, … m 39。1, 2, … l 39。 , P39。 Person, Org, Post, Time, Location, …… 二元關(guān)系分類: Is_a(), Has_a()/Part_of(), Employee_of(), Product_of(), … 事件分類: … ?實體名詞的語義分類是一個關(guān)鍵 ——二元關(guān)系在此分類集合上構(gòu)造;精神活動類名詞基本與 IE無關(guān)。 ?自然地, IE是基于 “ 語義信息 ” : 通過 “ 語義關(guān)系 ” 組裝命名實體 1213C 信息提取的 “ 8字方針 ” ?識別 (命名 )實體,確定 (語義 )關(guān)系 ?把文本看作是{ (2/3/… 元 )實體關(guān)系}的集合 ( IR:把文本看作是{詞 /符號串}的集合 /概率空間) ? Welldefined IE demands a welldefined (putable/decidable/recognizable) inforepresentation. 1213C 物質(zhì)結(jié)構(gòu)規(guī)律 小常識 原子 分子 物質(zhì) 1213C 物質(zhì)結(jié)構(gòu)規(guī)律 小常識 原子 分子 物質(zhì) Nu c lei(p , n ) + E lec tr o n s 1213C 物質(zhì)結(jié)構(gòu)規(guī)律 小常識 原子 分子 物質(zhì) Nu c lei(p , n ) + E lec tr o n s Q uark s 1213C 物質(zhì)結(jié)構(gòu)規(guī)律 小常識 原子 分子 物質(zhì) Nu c lei(p , n ) + E lec tr o n s Q uark s Superstrings 1213C 信息組成方式 命名實體 NE (Nam e d E n ti ti e s) 實體關(guān)系 ER (E n ti t y Rela ti o n s ) 消息模板實例 ( T e m p late In stan c e s ) 1213C 信息組成方式 命名實體 NE (Nam e d E n ti ti e s) 實體關(guān)系 ER (E n ti t y Rela ti o n s ) 消息模板實例 ( T e m p late In stan c e s ) 漢 字 1213C 命名實體 NE (Nam e d E n ti ti e s) 實體關(guān)系 ER (E n ti t y Rela ti o n s ) 消息模板實例 ( T e m p late In stan c e s ) 漢 字 IE是“化學(xué)變化”:原子一級的重新組合。 ?“語用信息 ” 概率空間 (?, ?, P)涉及到符號的用法 /使用環(huán)境因素 ?!? 1213C 并非那么簡單的問題 /答案 ?什么是 “ 信息 ” ? ——尤其是 “ 可提取的文本信息 ” ? ?到底有多少類別 /不同層次的信息? ?如何定義 /形式化表示你想要的 “ 信息 ” ? ?機器需要預(yù)備什么 “ 信息 ” 才能自動進行 “ 提取 ” ? 1213C 什么是信息 (最小數(shù)據(jù)量 ) ? Information Theory: “信息是對未知的度量 ” . 無知者的話: “ 我愚昧,故我 (need)信息 ” . ?設(shè)概率空間 (?, ?, P),則事件 A? ?的信息 (數(shù)據(jù) bit)量為 ? (條件 )后驗事件 A|B與 A的信息量之差稱為事件 A, B的 “ 互信息 ” : .)(1l o g)( APAI ?( 自信息 ) )(1l o g)|(1l o g)|(APBAPBAI ??.)( )()(lo g BAP BPAP ??1213C 信息的至少三個層次 ?“語法信息 ” (符號信息 /形式信息 /… ) 概率空間 (?, ?, P)只涉及到形式符號本身 (., CFGs, 詞頻、共現(xiàn) )。 1213C IE的背景與動機 ?作為一門應(yīng)用性的語言處理技術(shù),信息提取近年來正受到越來越多的重視。這種趨勢還同計算機處理能力不斷提高和文本數(shù)據(jù)積累不斷增大密切相關(guān)。 GP is much better, but limited to source code reuse。 1213C MUC的 IE任務(wù)定義 ?5個典型的提取階段: (MUC7 IE Task Definition Version ) NE (Named Entities) ER (Entity Relations) Template Scenario (Event Structures) Coreference (Identity descriptions) Template Merger ?具體提取哪些 NE, ER, Events 以及做哪些 Coref, Merger 是任務(wù)相關(guān)的 (每次MUC獨立定義 )。對每一條消息,由專業(yè)人員人工給出標準答案,然后將參測系統(tǒng)的輸出結(jié)果與標準答案比較,按一定的評價指標給出所有系統(tǒng)的評測結(jié)果,其中最主要的指標是準確率、查全率等。 ? 其主要的評測項目是從新聞報道中提取特定的信息,填入某種數(shù)據(jù)庫中。 1213C MUC (Message Understanding Conferences) ? 美國政府支持的一個專門致力于真實新聞文本理解的例會,至今已舉行 7屆。 1213C 與相關(guān)信息處理技術(shù)存在實質(zhì)差異: ?信息檢索 (Information Retrieval) : 只是找出滿足一定