【正文】
CAppoint CPerson CPerson CResign 北京科技大學碩士學位論文 9 圖 2. 6 Exdisco 的 IE 模式學習流程 基于 WordNet和語料標 注的 IE 模式學習系統(tǒng) 基于 WordNet 和語料標注的 IE 模式獲取系統(tǒng)的典型代表系統(tǒng)是 TIMES。 第二階段,對于第一階段學習出來的多個 Concept Node,利用 CIRCUS 句法分析器對這些 Concept Node 進行領域相關性打分 。CRYSTAL 則向自動化更靠近了一步,它的輸入可描述為“標注實例 +語義層次詞典”,無須人工監(jiān)督過程即可完成學習過程。 基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻中的應用 4 圖 2. 1 AutoSlog 采用的 語言表達模式及 IE 模式 這里的語言模式集和 IE 模式的不同之處在于:語言模式是領域無關的,是由人工預先給定的。基于人工語料分類的 IE 模式學習系統(tǒng),如AutoSlogTS 等 。 首先對文本進行 預處理,然后對分詞后的文本 聚類 , 將分詞后的短語 劃分為不同的類別, 則每個類別為 一個模式集。面對海量文本形式的醫(yī)案,目前普遍采用手工填寫結(jié)構(gòu)化采集模板的方法結(jié)構(gòu)化病 案信息,不僅耗費大量人力物力,而且不能反應各個專家的特點。 論文題目: 基于模式 的 語義信息抽取及 應用 研究 基于模式 的 語義信息抽取及應用研究 Semantic information extraction technology and application based on patterns Master Degree Candidate: Wang Shuang Supervisor: Sun Yi School of Computer amp。 從 而可以通過 研究這些醫(yī)案,進而了解中醫(yī)學的方法和理論 , 從而快速、全面 地 了解 中醫(yī)理論和技術(shù)。本文根據(jù)中文自身的特點, 考慮到模式即為在文本中經(jīng)常出現(xiàn)的句法結(jié)構(gòu) , 同時借鑒 英文文本的模式獲取方法 , 提出一種基于聚類的 模式獲取 方法,實現(xiàn)了 從中醫(yī) 醫(yī)案 中自動獲取模式。根據(jù) IE模式獲取系統(tǒng)需要用戶輔助工作 方式 的不同,可以把這些系統(tǒng)分為四個類別: 它們?yōu)?基于人工語料標注的 IE模式學習系統(tǒng),如 AutoSlog、PALKA、 CRYSTAL、 LIEP 等 。圖 列出了 針對恐怖活動事件用到 的語言模式,以及與它們對應的一條 IE 模式。如 AutoSlog,其輸入可描述為“標注實例 +啟發(fā)規(guī)則”,雖然該系統(tǒng)仍在一定程度上依賴于領域?qū)I(yè)和語言學知識,但已大大減少了手工的參與,原先需1500 人小時構(gòu)建的概念節(jié)點, AutoSlog 只要 5 人小時進行監(jiān)督即可完成。根 據(jù) AutoSlog 中用到的語言模式“ Subjectpassiveverb”和“ passiveverb prep (np)”,生成兩個Concept Node“ x was bombed” 和“ bombed by y”。該模式的含義是 : 當符合各自語義約束和語法約束 的二個元組都出現(xiàn)在同一個從句中的時候,則說明該從句描述了一個“管理職位繼任”事件類別中的“辭職”事件。后續(xù)循環(huán)中,模式的領域相關度的計算依賴于其所出現(xiàn)在的文檔的相關度,即i 1 i( p )( p ) (1 / H ( p ) ) * R e l ( d )dhs c o r e ? ?? ?,其中, Rel’ (d)是第 i次循環(huán)時文檔 d 的相關度。第四列“ headword”列出了左邊的短語的中心詞,規(guī)定短語的最后一個詞為中心詞。信息的識別是信息挖掘的前提 , 比如病人姓名、病人出初時間、方藥信息,基本癥狀信息等。 診查:腹膨隆,左少腹劇烈壓痛三天,皮蒼黃,青筋微露,雙下肢凹陷性浮腫,頸胸部有少許散在蜘蛛痣,肝腫大脅下 6 厘米,脾腫大脅下 14 厘米,精神不振,言語低微,面容暗黃,時感惡心、嘔吐。另外, 經(jīng)常出 現(xiàn)一些 縮寫詞, 以簡化書寫過程。這樣導致了對中醫(yī)醫(yī)案文本處理存在諸多困難。在中醫(yī)學的發(fā)展中,一些早期著作中的大量表述被長期沿用并逐漸術(shù)語化,以至于在當今的醫(yī)案中仍大量存在,比如“陰虛津虧、風熱疫毒”等,使得中醫(yī)醫(yī)案具有明顯的半文言特性。 按語:本案先因慢性肝炎而致右脅隱痛、飲食欠佳;復傷于冷食,脾胃受損,泄瀉不已,久則脾不運化,濕濁停聚,進一步阻滯氣機。 一份醫(yī)案的幾種類型信息在文本中特定的位置存在,它們由上到下分布。 本文在借鑒已有的面向英文文本的信息抽取系統(tǒng)的成功經(jīng)驗, 提出一種基于聚類的信息抽取模式自動生成方法, 相關內(nèi)容 將在第 四章 做 詳細介紹。 2)系統(tǒng)對該語句進行分詞、詞性標注、命名實體識別和部分句法分析,并以每個短語最后的一個詞作為短語的中心詞。模式的第二部分為滿足條件時規(guī)則采取的動作。圖 2. 5 列出了 人工給出的兩個種子模式,該 IE 模式用于管理職位繼任事件。整個過程可以分為兩個階段。上圖中列出的其它語言模式和與 每條語言模式相對應的 IE 模式案例可按類似的方法解釋。 AutoSlog 是世界上第一個成功實現(xiàn)利用機器學習的方法獲取信息抽取模式的系統(tǒng),由 Massachusetts 開發(fā)。構(gòu)建動詞庫、模式庫。該系統(tǒng)提供了一個方法以供用戶使用,能夠很好的實現(xiàn)對中醫(yī)醫(yī)案信息的抽取。 我還要感謝幫助和鼓勵過我的每一位同學,他們是韋仕偉、于留寶、付彬、華鎮(zhèn)。感謝在這 近 三年時間里給予我知識的老師們,正是由于他們的辛勤施教,使我學到了許多寶貴的知識,能夠順利完成學業(yè)。 關鍵詞: 自然語言處理,信息抽取,模式生成,模式匹配 北京科技大學碩士學位論文 V Semantic information extraction technology and application based on patterns Abstract Traditional Chinese medicine as a Chinese traditional medicine has important social value .Medical records as the doctor clinical thinking and treatment based on syndrome differentiation process records, is a concrete reflection of prehensive application forms of traditional Chinese medicine. Pattern matching is a monly used method in information extraction system, how to generate the model is the key problem in the field of information extraction. This paper presents a method of clustering based machine learning, the system can automatic pattern acquisition from text. The application of this method in traditional Chinese medical experiments in the literature, has achieved a good result. According to the characteristics of text information of medical records, Study is conducted for the automatic extraction of Chinese medical recordinformation based on many aspects, from different angles, a medical information automatic extraction system ofpattern matching.. The main work of this paper include the following aspects: 1. Summary of information extraction and related techniques, The main contents include the related concepts introduced, Technical terminology explanation, also includes the analysis of all kinds oftechnology. 2. Focus on the information extraction problem based on the pattern of traditional Chinese Medicine, Construction of pattern library. 3. The design and implementation of a prototype system based on information extraction of traditional Chinese medicine. The system provides a method for the user to use, can be achieved on the traditional Chinese medicine information extraction is very good. Key Words: Natural Language Processing , Information Extraction, Pattern Acquisition, Pattern Matching (用英文逗號“ ,”分隔) 北京科技大學碩士學位論文 VII 目 錄 致 謝 ............................................................................................................... I 摘 要 .............................................................................................................III Abstract..........................................................................................................V 插圖和附表清單 ............................................................................................ XI 1 緒論 ............................................................................................................. 1 課題背景 ........................................................................................... 1 課題的來源,目的和意義 ...................................................... 1 課題的研究內(nèi)容 ..................................................................... 1 論文的主要工作 ................................................................................ 2 本文的組織結(jié)構(gòu) ................................................................................ 2 2 信息抽取模式學習系統(tǒng)綜述 ....................................................................... 3 信息抽取模式學習系統(tǒng)分類 ............................................................. 3 基于人工語料標注的 IE 模式學習系統(tǒng) ............................................ 3 基于人工語料標注的 IE模式學習系統(tǒng)的原理 ...................... 3 基于人工語料分類的 IE 模式學習系統(tǒng) .................................