freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于模式的語(yǔ)義信息抽取及應(yīng)用研究畢業(yè)論文-閱讀頁(yè)

2025-07-25 12:54本頁(yè)面
  

【正文】 基礎(chǔ)。本文的主要工作包括以下幾個(gè)方面: 綜述信息抽取及相關(guān)技術(shù)方法,主要內(nèi)容包括相關(guān)概念的介紹,技術(shù)專(zhuān)有名詞的解釋說(shuō)明,還包括對(duì)各種技術(shù)的分析。實(shí)現(xiàn)了利用機(jī)器學(xué)習(xí)方法自動(dòng)獲取模式,利用模 式識(shí)別文本中的人名、地名、時(shí)間以及實(shí)體間關(guān)系信息。該系統(tǒng)提供了一個(gè)方法以供用戶(hù)使用,能夠很好的實(shí)現(xiàn)對(duì)中醫(yī)醫(yī)案信息的抽取。 本課題研究目標(biāo)是從中醫(yī)傳承的臨床需求出發(fā), 匯聚中醫(yī)學(xué)、認(rèn)知科學(xué)、信息技術(shù),研發(fā) 中醫(yī) 醫(yī)案信息抽取系統(tǒng),即 臨床醫(yī)案收集、儲(chǔ)存、分析、管理為一體的系統(tǒng),實(shí)現(xiàn)臨床患者病案采集、數(shù)據(jù)存儲(chǔ) 、結(jié)構(gòu)化處理等功能 。研發(fā)信息抽取系統(tǒng),實(shí)現(xiàn)系統(tǒng)自動(dòng)識(shí)別出醫(yī)案文本中特定語(yǔ)義信息。利 用信息抽取的辦法,將形式多樣、內(nèi)容豐富繁雜的中醫(yī)醫(yī)案以統(tǒng)一、完整結(jié)構(gòu)化的形式提取出來(lái),有效而搶救性地整理和保留了臨床經(jīng)驗(yàn),將無(wú)形的經(jīng)驗(yàn)變成有形的可供大家共享的知識(shí),這對(duì)我國(guó)中醫(yī)藥領(lǐng)域的傳承意義重大。本文根據(jù)中文自身的特點(diǎn), 考慮到模式即為在文本中經(jīng)常出現(xiàn)的句法結(jié)構(gòu) , 同時(shí)借鑒 英文文本的模式獲取方法 , 提出一種基于聚類(lèi)的 模式獲取 方法,實(shí)現(xiàn)了 從中醫(yī) 醫(yī)案 中自動(dòng)獲取模式。將同一模式集中的模式實(shí)例進(jìn)行合并, 就可以得到最終的信息抽取模式。 本文嘗試采用基于模式匹配的正則匹配算法。 論文的主要工作 本文的主要工作包括以下幾個(gè)方面: 1)綜述信息抽取及相關(guān)技術(shù)方法,主要內(nèi)容 包括相關(guān)概念的介紹,技術(shù)專(zhuān)有名詞的解釋說(shuō)明,還包括對(duì)各種技術(shù)的 分析。構(gòu)建動(dòng)詞庫(kù)、模式庫(kù)。該系統(tǒng)提供了一個(gè)方法以供用戶(hù)使用,能夠很好的實(shí)現(xiàn)對(duì)中醫(yī)醫(yī)案信息的抽取。 第二章給出了模式自動(dòng)生成的學(xué)習(xí)方法以及它們的優(yōu)缺點(diǎn)。 第四章介紹了模式自動(dòng)生成方法的思想和具體步驟,并給出了實(shí)驗(yàn)結(jié)果。根據(jù) IE模式獲取系統(tǒng)需要用戶(hù)輔助工作 方式 的不同,可以把這些系統(tǒng)分為四個(gè)類(lèi)別: 它們?yōu)?基于人工語(yǔ)料標(biāo)注的 IE模式學(xué)習(xí)系統(tǒng),如 AutoSlog、PALKA、 CRYSTAL、 LIEP 等 。基于種子模式的自舉 IE 模式學(xué)習(xí)系統(tǒng),如 ExDisco 等 。下面 分別 介紹這四類(lèi)系統(tǒng)的工作原理。 例如 AutoSlog、 PALAK、 CRYSTAL、 LIEP。 AutoSlog 是世界上第一個(gè)成功實(shí)現(xiàn)利用機(jī)器學(xué)習(xí)的方法獲取信息抽取模式的系統(tǒng),由 Massachusetts 開(kāi)發(fā)。對(duì)于一個(gè)特定的 IE 任務(wù),系統(tǒng)的輸入是人工標(biāo)注的訓(xùn)練語(yǔ)料 ,一套語(yǔ)言模式集(領(lǐng)域無(wú)關(guān)) 和一個(gè)相關(guān)領(lǐng)域的語(yǔ)義詞典。另外,整個(gè)統(tǒng)的實(shí)現(xiàn)需要 CIRCUS 句法分析器的輔助支持, CIRCUS 句法分析器的功能是自動(dòng)識(shí)別句子中的主語(yǔ)、謂語(yǔ)和賓語(yǔ)等。 語(yǔ)言模式集(領(lǐng)域無(wú)關(guān)) 由人工設(shè)計(jì)而成。圖 列出了 針對(duì)恐怖活動(dòng)事件用到 的語(yǔ)言模式,以及與它們對(duì)應(yīng)的一條 IE 模式。而 IE 模式是由該系統(tǒng)自動(dòng)生成的,是給出的語(yǔ)言模式實(shí)例化的結(jié)果。 語(yǔ)言模式“ subject activeverb”的含義是 :一個(gè)充當(dāng)主語(yǔ)的語(yǔ)法成分后面緊跟著一個(gè)主 動(dòng)形式的動(dòng)詞短語(yǔ)。 對(duì)應(yīng)于該語(yǔ)言模式 的一個(gè) IE 模式“ victimwas murdered”的含義是 :句子經(jīng)過(guò) CIRCUS 句法分析器 處理后,“ was murdered”充當(dāng)動(dòng)詞短語(yǔ) ,動(dòng)詞短語(yǔ)的左側(cè)是主語(yǔ)語(yǔ)法成份,則此主語(yǔ)作為bombing 事件的 victim角色。上圖中列出的其它語(yǔ)言模式和與 每條語(yǔ)言模式相對(duì)應(yīng)的 IE 模式案例可按類(lèi)似的方法解釋。 AutoSlog[13]和 PALKA[13]等是最早向知識(shí)獲取自動(dòng)化邁進(jìn)的系統(tǒng)之一。但這些系統(tǒng)仍較多的依賴(lài)于手工的參與,可認(rèn)為這些系統(tǒng)僅是一種半自動(dòng)化的知識(shí)獲取系統(tǒng)。這些系統(tǒng)的特點(diǎn)是依賴(lài)手工標(biāo)記過(guò)的數(shù)據(jù)或通過(guò)與用戶(hù)的交互過(guò)程,利用加工過(guò)的語(yǔ)料,學(xué)習(xí)語(yǔ)言的模式規(guī)則,是一種典型的機(jī)器輔助式知識(shí)獲取。如 AutoSlog,其輸入可描述為“標(biāo)注實(shí)例 +啟發(fā)規(guī)則”,雖然該系統(tǒng)仍在一定程度上依賴(lài)于領(lǐng)域?qū)I(yè)和語(yǔ)言學(xué)知識(shí),但已大大減少了手工的參與,原先需1500 人小時(shí)構(gòu)建的概念節(jié)點(diǎn), AutoSlog 只要 5 人小時(shí)進(jìn)行監(jiān)督即可完成。 圖 2. 2 一個(gè)標(biāo)注后的語(yǔ)句及 AutoSolg 從中學(xué)出的一個(gè)概念節(jié)點(diǎn) Sentence: In La Oroya, Junin department, in the central Peruvian mountain range , public buildings (bombing,TARGET) were bombed and a car was detonated. CONCEPT NODE Name: targetsubjectpassiveverbbombed Trigger: bombed Variable Slots: (target(SUBJECT*l)) Constraints: (class PHYS 一 TARGET *SUBJECT*) Constant Slots: (type bombing) Enabling Conditions: ( passive) 基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻(xiàn)中的應(yīng)用 6 圖 2. 3 PALKA 的 一個(gè) FPstructure 的例子 基于人工語(yǔ)料分類(lèi)的 IE 模式學(xué) 習(xí)系統(tǒng) 該類(lèi)系統(tǒng)的典型代表是 AutoSlogTS,它是有 Riloff 于 1996 年發(fā)明的。 該類(lèi)系統(tǒng)的工作原理是: 由人工將語(yǔ)料 分為領(lǐng)域相關(guān)和領(lǐng)域不相關(guān) 兩類(lèi) ,系統(tǒng)根據(jù)這種分類(lèi)方式學(xué)習(xí)出 IE 模式。 AutoSlogTS 系統(tǒng)的輸入是用戶(hù)給出的領(lǐng)域相關(guān)和不相關(guān)文檔集及 AutoSlog 中用到的語(yǔ)言模式。整個(gè)過(guò)程可以分為兩個(gè)階段。 例如句子“ World trade center was bombed by terrorists”,經(jīng)過(guò) CIRCUS 句法分析器處理的結(jié)果為 :“ World trade center”充當(dāng)句子的主語(yǔ),“ was FPstructure = Meaning Frame+Phrasal PatternMeaning Frame: (BOMBING isa:(TERRORISTACTION) keywords:(explode, hurl, throw, explosion, bomb, explosive, dynamite, grenade...) agent:(ANIMATE) 。optional target:(PHYSICALOBJECT) 。optional effect:(STATE) 。根 據(jù) AutoSlog 中用到的語(yǔ)言模式“ Subjectpassiveverb”和“ passiveverb prep (np)”,生成兩個(gè)Concept Node“ x was bombed” 和“ bombed by y”。如果 Concept Node 的領(lǐng)域相關(guān)性較低 ,則去除這個(gè) Concept Node。 圖 2. 4 AutoSlogTS 學(xué) 習(xí) IE 模式的流程 基于 自舉 的 IE 模式學(xué)習(xí)系統(tǒng) 對(duì)于一個(gè)信息抽取任務(wù),該類(lèi)系統(tǒng)需要人工 提供幾個(gè)有代表性的種子模式,系統(tǒng)的輸出是從相關(guān)領(lǐng)域文本中學(xué)習(xí)出的 IE 模式,同時(shí)系統(tǒng)將相關(guān)領(lǐng)域文本做相關(guān)性分類(lèi)。下面以 ExDisco 為例,介紹基于種子自舉的 IE 模式學(xué)習(xí)系統(tǒng)的工作原理。圖 2. 5 列出了 人工給出的兩個(gè)種子模式,該 IE 模式用于管理職位繼任事件。 圖中的第一個(gè)模式表示“任命”事件。 圖中的第一個(gè)模式表示“離任”事件。 表中的第二 個(gè)模式是一個(gè)“辭職”事件模式。該模式的含義是 : 當(dāng)符合各自語(yǔ)義約束和語(yǔ)法約束 的二個(gè)元組都出現(xiàn)在同一個(gè)從句中的時(shí)候,則說(shuō)明該從句描述了一個(gè)“管理職位繼任”事件類(lèi)別中的“辭職”事件。TIMES 的工作原理是: 一個(gè)概念知識(shí)庫(kù) WordNet 的支持,它是領(lǐng)域無(wú)關(guān)的。人工指導(dǎo) 系統(tǒng)從語(yǔ)義和 語(yǔ)法兩個(gè)方面對(duì)語(yǔ)句做泛化處理,最終生成 IE 模式。 規(guī)則主要包含兩個(gè)部分。模式的第二部分為滿(mǎn)足條件時(shí)規(guī)則采取的動(dòng)作。 0)對(duì)于一個(gè)特定的 IE 領(lǐng)域任務(wù),給定:一個(gè)未經(jīng)分類(lèi)的文檔集 D;幾個(gè)種子 IE模式集 P。 1)根據(jù)給出的種子模式,系統(tǒng)劃分文檔集合為領(lǐng)域相關(guān)文檔集和領(lǐng)域不相關(guān)文檔集。 2)生成新的候選模式 將 D 中出現(xiàn)的每個(gè)從句都轉(zhuǎn)換成一個(gè)候選模式,計(jì)算出這些模式的領(lǐng)域相關(guān)度,并按照這些模式的領(lǐng)域相關(guān)度大小將它們排序。后續(xù)循環(huán)中,模式的領(lǐng)域相關(guān)度的計(jì)算依賴(lài)于其所出現(xiàn)在的文檔的相關(guān)度,即i 1 i( p )( p ) (1 / H ( p ) ) * R e l ( d )dhs c o r e ? ?? ?,其中, Rel’ (d)是第 i次循環(huán)時(shí)文檔 d 的相關(guān)度。 4)根據(jù)新生成的模式集合 P,對(duì)每個(gè)文檔重新進(jìn)行領(lǐng)域相關(guān)度計(jì)算。 基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻(xiàn)中的應(yīng)用 10 圖 2. 7TIMES 中的模式 例子 R1 中含有三個(gè)括號(hào)表示為子條件句, R1 的含義是:若語(yǔ)句滿(mǎn)足條件( 1)X1 是 pany_type 語(yǔ)義類(lèi),同時(shí)是 NG語(yǔ)法類(lèi)型( 2) X2 的中心詞為 need,同時(shí)是 NG 語(yǔ)法類(lèi)型( 3) X3 的中心詞為 speeialist,同時(shí)是 NG 語(yǔ)法類(lèi)型,則 X1作為事件的 COMPANY 角色。 TIMES 的 IE 模式學(xué)習(xí)流程 ,步驟如下圖所示: 圖 2. 8 TIMES 的 IE 模式學(xué)習(xí)流程 舉例說(shuō)明 TIMES 進(jìn)行 IE 模式學(xué)習(xí)的基本流程 0)假設(shè)信息抽取任務(wù)為:從工作信息文本中抽取出公司、職位和職位的地理位置這 三個(gè)目標(biāo)信息。 2)系統(tǒng)對(duì)該語(yǔ)句進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和部分句法分析,并以每個(gè)短語(yǔ)最后的一個(gè)詞作為短語(yǔ)的中心詞。 4)用戶(hù)對(duì)某些有歧義的中心詞進(jìn)行詞義消岐。 6)系統(tǒng)從語(yǔ)法和語(yǔ)義兩個(gè)方面對(duì)形成的特例模式進(jìn)行泛化,形成一個(gè)泛化模式。 第二列“ Target”表示出事件的重要角色,是第一列詞組充當(dāng)?shù)哪繕?biāo)類(lèi)型,若不能充當(dāng) IE目標(biāo)值為 None。第四列“ headword”列出了左邊的短語(yǔ)的中心詞,規(guī)定短語(yǔ)的最后一個(gè)詞為中心詞。第六列“ sense” 列出了中心詞的概念序號(hào)。 基于語(yǔ)料標(biāo)注的 IE 模式學(xué)習(xí)系統(tǒng) 、基于語(yǔ)料分類(lèi)的 IE模式學(xué)習(xí)系統(tǒng)和和基于 自舉 的 IE 模式學(xué)習(xí)系統(tǒng) ,這三個(gè)階段系統(tǒng)的發(fā)展使得對(duì)用戶(hù)輔助工作 要求越來(lái)越少,但 基于人工建立的 概念層次知識(shí) 庫(kù)是必不可少的。 試想,能否設(shè)計(jì)一種 IE 模式學(xué)習(xí)方法,只需人工定義 IE任務(wù),不需要人工提供種子模式、人工進(jìn)行語(yǔ)料分類(lèi)、人工進(jìn)行語(yǔ)料標(biāo)注,就能夠?qū)崿F(xiàn)自動(dòng)學(xué)出相應(yīng)的 IE 模式。 本文在借鑒已有的面向英文文本的信息抽取系統(tǒng)的成功經(jīng)驗(yàn), 提出一種基于聚類(lèi)的信息抽取模式自動(dòng)生成方法, 相關(guān)內(nèi)容 將在第 四章 做 詳細(xì)介紹。病案中包含著豐富的病證、用藥等相關(guān)知識(shí),是醫(yī)生診斷和治療疾病的依據(jù),是醫(yī)學(xué)科學(xué)研究中很有價(jià)值的資料。因此,如何有效的利用這些資源,成為一個(gè)亟待解決的重要問(wèn)題。 中醫(yī)醫(yī)案特征分析 中醫(yī)醫(yī)案結(jié)構(gòu)特征分析 計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)突飛猛進(jìn)的發(fā)展,改變了人們的生活。信息的識(shí)別是信息挖掘的前提 , 比如病人姓名、病人出初時(shí)間、方藥信息,基本癥狀信息等。信息抽取技術(shù)的出現(xiàn)有效 地 處理 了 該難題 。下面首先以一份有代表性的肝病病案為例,分析中醫(yī)病案的結(jié)構(gòu)及特征。通常每個(gè)段落對(duì)應(yīng)一部分信息,我 們把這稱(chēng)為段落主題。 一份醫(yī)案的幾種類(lèi)型信息在文本中特定的位置存在,它們由上到下分布。例如家族史、西醫(yī)檢查等信息可以不出現(xiàn)。 初診時(shí)間: 1974 年 4 月 8 日。但稍老則右脅隱痛,食欲欠佳。 診查:腹膨隆,左少腹劇烈壓痛三天,皮蒼黃,青筋微露,雙下肢凹陷性浮腫,頸胸部有少許散在蜘蛛痣,肝腫大脅下 6 厘米,脾腫大脅下 14 厘米,精神不振,言語(yǔ)低微,面容暗黃,時(shí)感惡心、嘔吐。 辨證:肝脾失調(diào),濕阻血瘀。 治則:調(diào)理肝脾,利濕化瘀。 上方藥服六劑,腹脹搭建,飲食轉(zhuǎn)佳,小便自如。 按語(yǔ):本案先因慢性肝炎而致右脅隱痛、飲食欠佳;復(fù)傷于冷食,脾胃受損,泄瀉不已,久則脾不運(yùn)化,濕濁停聚,進(jìn)一步阻滯氣機(jī)。 不過(guò)也可以沒(méi)有段落主題,例如圖 中的病人基本信息。特征 特征 3 表明病案的結(jié)構(gòu)具有主題特征,信息前具有標(biāo)題表 示其主題,主題有固定詞語(yǔ)表示。這為自然語(yǔ)言處理和信息抽取提供了較好的先決條件。另外, 經(jīng)常出 現(xiàn)一些 縮寫(xiě)詞, 以簡(jiǎn)化書(shū)寫(xiě)過(guò)程。 中藥名如生龍牡(生龍骨.生牡蠣)、二冬(麥門(mén)冬,天冬門(mén))、二地(生地,熟地)等。這一特征為 明顯的時(shí)序特性。比如:癆瘵、勞嗽、急癆、傳尸等均表示肺癆這種病。在中醫(yī)學(xué)的發(fā)展中,一些早期著作中的大量表述被長(zhǎng)期沿用并逐漸術(shù)語(yǔ)化,以至于在當(dāng)今的醫(yī)案中仍大量存在,比如“陰虛津虧、風(fēng)熱疫毒”等,使得中醫(yī)醫(yī)案具有明顯的半文言特性。另外,由于中醫(yī)學(xué)的研究與知識(shí)的 積累等的載體都是中文自然語(yǔ)言而非人工語(yǔ)言,因此對(duì)中醫(yī)學(xué)的研究必然要受到所使用語(yǔ)言載體的限制。 知識(shí)關(guān)系復(fù)雜: 中醫(yī)學(xué)發(fā)展 延伸 了幾千年,中醫(yī)理論知識(shí)龐大且豐富 。 目前自然語(yǔ)言處理只能處理一般的文本。這樣導(dǎo)致了對(duì)中醫(yī)醫(yī)案文本處理存在諸多困難。因此,在中文信息處理中,首先將遇到中文詞法分析的問(wèn)題。
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1