【文章內(nèi)容簡(jiǎn)介】
y lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic pain clinic General Surgical pain clinic mastectomy left open capsulotomy removal of her prosthesis management management recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic pain clinic General Surgical pain clinic mastectomy left open capsulotomy removal of her prosthesis management management recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic pain clinic General Surgical pain clinic mastectomy left open capsulotomy removal of her prosthesis management management 也可跨越多個(gè)文檔 放射報(bào)告、病理學(xué)報(bào)告,或 其它敘述性報(bào)告 來(lái)自于藥品或?qū)嶒?yàn)中的信息 從文本中抽取關(guān)鍵信息 自動(dòng)實(shí)現(xiàn)相關(guān)事件的鏈接? What happened amp。 why ? What was done amp。 why ? Interventions Problems Problem Site Locations Time recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic General Surgical pain clinic mastectomy left open capsulotomy removal of her prosthesis management pain clinic mastectomy caused_by bony lymphoedema 形成病歷 CLEFRMHEntryKey: 52A4F6DB2B46E Female 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinib Meds: unclear Hospital EPR EPR Drugs Refer Tools Help Protocol 354 Staging CT BP Haem Chem Immu Bact Xray ECG USS Coryza: chest NAD: reassure URTI: wheezy: amoxycillin Anxiety: lump under arm: staging scan PEFR : 300 : PEFR : 400: CXR requested CXR Basal Consolidation: : erythromycin : Chest clear : Depression: recurrence: Paroxetine WCC OK : : rpt Rx paroxetine Pain L arm: : coproxamol Viral URTI: PEFR 350: salbutamol WCCAbnormal : : : BP, ECG NAD : Results Letters Appt Drugs 形成一個(gè)非常簡(jiǎn)短的病歷摘要 在首頁(yè)上形成一個(gè)摘要 只有通過(guò)許可的人才可看到人名等信息 RMH EntryKey: 6EMaria SklodowskaCuri 病歷摘要 ?信息抽取 ( Information Extraction, IE) 信息抽取是一個(gè)輸入 /輸出過(guò)程 ?輸入:未知文本信息 ?輸出:固定格式、無(wú)二意性數(shù)據(jù) (信息 ) 這些被抽取出來(lái)的數(shù)據(jù)可以 ?直接顯示給用戶 ?存儲(chǔ)于數(shù)據(jù)庫(kù)或電子表格中以供隨后分析 ?被用于索引系統(tǒng),以便于將來(lái)進(jìn)行檢索訪問(wèn) ?IE目標(biāo) 將信息點(diǎn)從各種各樣的文檔中抽取出來(lái),以統(tǒng)一的形式集成在一起,形成結(jié)構(gòu)化信息。 信息抽取系統(tǒng)將把互聯(lián)網(wǎng)變成巨大的數(shù)據(jù)庫(kù)。 ?IE特點(diǎn) 并不試圖全面理解整篇文檔,只是對(duì)文檔中包含相關(guān)信息的部分進(jìn)行分析。 至于哪些信息是相關(guān)的,將由系統(tǒng)設(shè)計(jì)時(shí)定下的領(lǐng)域范圍而定。 IE系統(tǒng)關(guān)鍵組成部分是一系列的抽取規(guī)則或模式,其作用是確定需要抽取的信息。 ?信息檢索和信息抽取對(duì)比 信息檢索是從大量文獻(xiàn)集(數(shù)據(jù)庫(kù))中找出相關(guān)子集的過(guò)程 ?信息檢索和信息抽取對(duì)比 信息抽取是抽取真正適合用戶的那些信息片段(相關(guān)事實(shí)),并提供給用戶。 ?與自動(dòng)文摘、文本理解比較 自動(dòng)文摘和文本理解是廣域的 IE是特定域的(“特定”程度需要用戶協(xié)助確定) ?IE的歷史 信息抽取技術(shù)的前身是文本理解,即把握整篇文檔的精確內(nèi)容。文本理解系統(tǒng)通常只在很窄的知識(shí)領(lǐng)域范圍內(nèi)運(yùn)行良好,向其他新領(lǐng)域移植的性能卻很差。 IE不求整篇理解,只求片斷抽取。過(guò)去幾年IE研究成果豐碩,英語(yǔ)和日語(yǔ)姓名識(shí)別的成功率達(dá)到了人類專家的水平。 ?評(píng)價(jià)指標(biāo) IE技術(shù)的評(píng)測(cè)起先采用經(jīng)典的信息檢索 (IR)評(píng)價(jià)指標(biāo),即回召率 (Recall)和查準(zhǔn)率 (Precision), 但稍稍改變了其定義。 ?準(zhǔn)確率 P=抽出的正確信息點(diǎn)數(shù) /所有抽出的信息點(diǎn)數(shù) ?覆蓋率 R=抽出的正確信息點(diǎn)數(shù) /所有正確的信息點(diǎn)數(shù) . ?綜合算法: 其中 ?是一個(gè)預(yù)設(shè)值,決定對(duì) P側(cè)重還是對(duì) R側(cè)重。通常設(shè)定為 1 。這樣用 F一個(gè)數(shù)值就可很看出系統(tǒng)的好壞 ?信息抽取分類 結(jié)構(gòu)化文本抽取 半結(jié)構(gòu)化文本抽取 自由式文本抽取 ?結(jié)構(gòu)化文本的抽取 結(jié)構(gòu)化文本是一種數(shù)據(jù)庫(kù)里的文本信息,或者是根據(jù)事先規(guī)定的嚴(yán)格格式生成的文本。 從這樣的文本中抽取信息是非常容易的,準(zhǔn)確度也高,通過(guò)描述其格式即可達(dá)到目的。 ?半結(jié)構(gòu)化文本的抽取 自然語(yǔ)言理解方法、 結(jié)構(gòu)化文本抽取方法對(duì)半結(jié)構(gòu)文本 不一定有效,抽取模式通常依賴字符和象 html標(biāo)記那樣的分隔標(biāo)志,句法和語(yǔ)義信息的作用則非常有限。 ?自由式文本的抽取 從自由文本中析取有限的信息。例如,從報(bào)道恐怖襲擊活動(dòng)的新聞中析取襲擊者、所屬組織、地點(diǎn)、受害者等信息。 處理自由文本的 IE系統(tǒng)通常使用自然語(yǔ)言處理技巧,其抽取規(guī)則主要建立在詞或詞間句法關(guān)系基礎(chǔ)之上。 處理步驟 ?句法分析、語(yǔ)義標(biāo)注、專有對(duì)象的識(shí)別(如人物、公司)和基于規(guī)則的抽取。 IE相關(guān)的研究活動(dòng) MUC(Message Understanding for Comprehension) MET(Multilingual Entity Task Evaluation) ACE(Automatic Content Extraction) DUC(Document Understanding Conferences) MUC (Message Understanding for Comprehension