freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于模式的語義信息抽取及應(yīng)用研究畢業(yè)論文(參考版)

2025-07-05 12:54本頁面
  

【正文】 中文詞法分析是中文信息處理的基礎(chǔ)與關(guān)鍵。 中醫(yī)醫(yī)案語義 信息抽取 的 研究基礎(chǔ)及存在的問題 我們知道,漢語是以字為基本的書寫單位,與此同時與英語不同的是,詞語之間沒有明顯的區(qū)分標(biāo)記。 而上述的幾個方面表示了中醫(yī)醫(yī)案具有其特定的領(lǐng)域特點。 陰陽五行理論、經(jīng)絡(luò)理論 、氣血等學(xué)說匯聚一體, 形成了龐大且復(fù)雜的中醫(yī)理論體系結(jié)構(gòu) ,同時還衍生出許多相關(guān)學(xué)科,致使中醫(yī)學(xué)概念之間復(fù)雜,知識表示困難。 模糊性,量化困難:由于中醫(yī)學(xué)整體論治的特點,使得中醫(yī)理論與實踐有模糊性的一面,治病主要憑經(jīng)驗,證的輕重程度還未能得到科學(xué)的量化,所有這些問題都必須在宏觀上、整體上加以解決。 基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻(xiàn)中的應(yīng)用 16 具有 自然語言與醫(yī)學(xué)雙重特性:中醫(yī)學(xué) 作為醫(yī)學(xué)的一門學(xué)科,具有醫(yī)學(xué)自身的特征。 中醫(yī)領(lǐng)域 本身的特點 中醫(yī)醫(yī)案作為記錄醫(yī)生臨床治療過程的方法和手段,在中醫(yī)領(lǐng)域,其具有一些特定的特點, 分為以下幾個方面: 半文言特性:中醫(yī)學(xué)的形成與發(fā)展已有數(shù)千年的歷史,是中華民族在長期的生活、生產(chǎn)及醫(yī)療實踐中的經(jīng)驗總結(jié),因此與中國古代文化互相交融滲透。 概念不統(tǒng)一 : 一個概念可以有多種名稱來表示 ,存在這種現(xiàn)象主要因 為中醫(yī)中的醫(yī)學(xué)概念名稱 缺乏一個統(tǒng)一的規(guī)范命名系統(tǒng),致使 一個概念 有多種名稱來表示。 時序性:中醫(yī)醫(yī)案一般由 初診、二診等多診信息 組成 , 記錄了整個診療過程中病人病情的發(fā)展變化。 例 如 將泌尿道感染稱為泌感、將高血壓性心臟病稱為高心病 , 將急性支氣管炎稱為急支 。 口語特性:中醫(yī)病案一般是 根據(jù)醫(yī)生的語言習(xí)慣對各項信息進(jìn)行描述,格式上 并 沒有 做出 嚴(yán)格 具體 的要求, 表達(dá)方式靈活多樣。 中醫(yī)醫(yī)案內(nèi)容特征分析 通過分析研究大量的中醫(yī)醫(yī)案,同時學(xué)習(xí)中醫(yī)學(xué)基礎(chǔ)原理,我們總結(jié)中醫(yī)醫(yī)案在內(nèi)容和表達(dá)方式下存在如下特征: 通過對大量中醫(yī)病案的分析及中醫(yī)學(xué)發(fā)展歷史的研究,中醫(yī)病案在內(nèi)容和表達(dá)方式上具有如下特征: 句法簡單:在中醫(yī)病案中,通常以 句式簡單的 陳述句式為主,幾乎不會出 現(xiàn)具有二義性的語句。 特征 1 表明了醫(yī)案的內(nèi)容是嵌套形式的,不同內(nèi)容下又包含具體信息,可以將這些信息組織到一顆樹中。 北京科技大學(xué)碩士學(xué)位論文 15 段落主題位于每個段的段首,例如圖 中的“處方”“按語”。唯脾腫大不減,湯劑中加元胡 9 克,桃仁 9 克;配服鱉甲煎丸,每次 60 丸(小水丸),日服 3 次。 處方:當(dāng)歸 12 g,白芍 15 g,白術(shù) 10 g,云苓 20 g,柴胡 6 g,香附 9 g,郁金 9 g,青皮 9 g,腹皮 12 g,丹皮 9 g,元胡 9 g,山甲9 g,鱉甲 15 g,丹參 15 g,牡蠣 15 g,甘草 3 g。為臌脹(晚期肝硬化合并脾機能亢進(jìn))。苔白膩,質(zhì)淡紅稍胖,脈弦緩。去年夏天因過食冷食,腹痛腹瀉,日瀉 10 余次,為稀水樣便,伴惡心嘔吐,經(jīng)本地保健員按“胃腸炎”治療好轉(zhuǎn)。 主訴:醫(yī)院精神補腹安膨隆教師,四年前患肝炎,經(jīng)縣醫(yī)院治愈。 李某,女, 30 歲,教師。這些信息并不需要都出現(xiàn)在一分醫(yī)案中。 每類信息中又包含子信息,例如 病人基本信息中 又 包含姓名、年齡、出診時間和職業(yè)。 基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻(xiàn)中的應(yīng)用 14 圖 3. 1 一份典型的中醫(yī)肝病病案 圖 是一份典型的中醫(yī)肝病病案,通過對大量病案的分析總結(jié),得出中醫(yī)病案信息在結(jié)構(gòu)上具有如下特征: 一份醫(yī)案按照內(nèi)容可以劃分為幾類信息 ,它們是病人基本信息、主訴、診查、辯證、治則、處方和按語 等 。 為了能利用計算機技術(shù)自動抽取這些信息,首先需要對病案的結(jié)構(gòu)和特征有充足的認(rèn)識。 通常采用結(jié)構(gòu)化醫(yī)案模板來實現(xiàn)病案信息的采集,這樣的方式不僅需要精通領(lǐng)域知識的專家,而且需要花費大量人力和物力。在信息時代,利用計算機技術(shù)從海量信息中發(fā)現(xiàn)知識 是目前 最主要的需求。 為了能有效的利用這些病案資源,本章首先通過對大量醫(yī)案進(jìn)行了研究,歸納總結(jié)了中醫(yī)醫(yī)案在結(jié)構(gòu)和內(nèi)容上的特征;然后分析了對病案信息進(jìn)行 抽取研究的基礎(chǔ)、前提及存在的問題;最后針對病案的特征以及目前存在的問題,概括了針對病案信息的不同特征采取的相應(yīng)抽取策略。中醫(yī)學(xué)經(jīng)過幾千年的發(fā)展,積累了大量的優(yōu)秀病案,形成了一筆寶貴的財富。 北京科技大學(xué)碩士學(xué)位論文 13 3 中醫(yī)醫(yī)案特征分析 中醫(yī)醫(yī)案是醫(yī)務(wù)人員對病人患病經(jīng)過和治療情況所作的文字記錄,是醫(yī)生診斷和治療疾病的依據(jù) ,也是醫(yī)學(xué)科學(xué)研究中很有價值的資料。這樣的方法會在很大程度上減輕用戶的輔助工作量。在領(lǐng)域無關(guān)的知識庫 WordNet 支持下, TIMES 有了新的進(jìn)展 ,不過 TIMES 依舊需要人工提供案例語句并指導(dǎo)生成相應(yīng)的 IE 模式 ,還需要人工或相應(yīng)的規(guī)則對有歧義的詞進(jìn)行單獨的詞義消岐。 3) 形成的特例模式如下: 圖 2. 10 TIMES 形成的特例模式 4) 人工去除特例模式的無關(guān)信息,得到泛化模式 5) 對得到的泛化模式,進(jìn)行語義泛化 S(X1, {pany}, NG)∧ S(X2, {has}, VG)∧ S(X3, {need}, NG)∧ S(X4, {for}, PG)∧ S(X5, {Speeialist}, NG)∧ S(X6, {at}, PG)∧S(X7, {site}, NG) → FS(X1, COMPANY), FS(X6, POSITION), FS(X7, LOCATION) 基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻(xiàn)中的應(yīng)用 12 本章小結(jié) 本章綜述了各類 IE 模式學(xué)習(xí) 系統(tǒng)。 第五列“ Syntactic category” 顯示左邊短語 的語法類型。第三列“ Semantic type” 列出了左邊短語的語義類型。 北京科技大學(xué)碩士學(xué)位論文 11 2)對該語句進(jìn)行分詞、標(biāo)注、命名實體識別和句法分析后,得到的內(nèi)部結(jié)構(gòu)如下圖所示: Important phrases Target Semantic type headwor Syntactic category sense The Natianal Technology Group COMPANY Companr_type pant NG 1 Has None None has VG 1 A need None None need NG 1 For None None for PG 1 Qualified inventory Specialists POSTITION None specialist NG 1 at None None at PG 1 An RTP client site LOCATION None site NG 1 圖 2. 9 一個語句經(jīng)過相應(yīng)的 NLP 步驟處理后所得到的內(nèi)部結(jié)構(gòu) 對圖 的解釋 :該表 共有七列,第一列 “ Important phrases”列出了 句子分詞后的結(jié)果。 5)系統(tǒng)記下用戶的相關(guān)操作并形成相應(yīng)的特例模式。 3)用戶指示系統(tǒng)將相關(guān)的名詞短語與其所能充當(dāng)?shù)氖录巧P(guān)聯(lián)起來。 l)設(shè)人工給出的事件語句為 “ The National Technology Group has a need for qualified Inventory Specialists to work at an RTP client site for one month.” R1:Match(X1,pany_type,NG)^Match(X2,need,NG)^Match(X3,specialist,NG) → FS(X1,COMPANY) R2:Match(X1,pany_type,NG)^Match(X2,need,NG)^Match(X3,specialist,NG) → FS(X3,POSITION) 1)用戶通過 GUI 選擇一個含有事件描述的 語句。 R2 中含有三個括號表示為子條件句, R2 的含義是:若語句滿足條件( 1)X1 是 pany_type 語義類,同時是 NG語法類型( 2) X2 的中心詞為 need,同時是 NG 語法類型( 3) X3 的中心詞為 speeialist,同時是 NG 語法類型,則 X3作為事件的 POSITOIN 角色。 5)轉(zhuǎn) 1),直到不再生成新的模式或某種循環(huán)條件達(dá)到為止。 3)將領(lǐng)域相關(guān)度最高的模式加到模式集合 P 中。模式 p 的領(lǐng)域相關(guān)度在首次循環(huán)時的計算公式為:2( p ) ( H ( p ) / ( p ) * l o g ( p )s c o r e R H H R? ? ?,其中, H(p)是其中出現(xiàn)模式 p 的文檔集合。如果文檔含有任意一個種子模式,則為相關(guān)文檔集;若文檔部含有種子模式,則為不相關(guān)文檔集。例如,管理職位繼任信息抽取任務(wù),給出的兩個種子 IE 模式如圖 所示。規(guī)則在條件觸發(fā)后,就完成了一次信息抽取,實現(xiàn)了抽取出正確的目標(biāo)。第一部分是規(guī)則的觸發(fā)條件,它由一個或多個條件組成,詳細(xì)描述了條件具備的要素。 TIMES 中的 IE模式叫做規(guī)則。人工給出描述事件信息的文本,系統(tǒng)對該文本進(jìn)行句法分析。 Exdisco 的 IE 模式學(xué)習(xí)流程 , 算法描述 如下: Subject Verb Direct Object CCompany CAppoint CPerson CPerson CResign 北京科技大學(xué)碩士學(xué)位論文 9 圖 2. 6 Exdisco 的 IE 模式學(xué)習(xí)流程 基于 WordNet和語料標(biāo) 注的 IE 模式學(xué)習(xí)系統(tǒng) 基于 WordNet 和語料標(biāo)注的 IE 模式獲取系統(tǒng)的典型代表系統(tǒng)是 TIMES。該事件模式有二個元組組成,它們是在從句中充當(dāng)主語的元組 CPerson 和從句中的動詞短語元組 CResign。該模式的意義是:如果句子的主語為CPerson 語義類,句子的動詞為 CResign 語義類,則這個句子表示一個“任命”事件。 該模式的意義是:如果句子的主語為CCompany語義類,句子的動詞為 CAppoint語義類 ,句子的直接賓語為 CPerson類,則這個句子表示一個“任命”事件。 圖 2. 5 ExDisco 中用到的 ”管理職位繼任 ”IE 領(lǐng)域的兩個種子 IE 模式 其中, CCompany 表示公司類命名實體, CPerson 表示人物類命名實體 ;CAppoint 表示任命類動詞 ; 它的集合為 {name , promote, elect , appoint};CResign 為離任類動詞,它的集合為 {stepdown , quit , depart , resign }。 ExDisco 系統(tǒng)的 IE 模式用二元組或者三元組表示。 該類系統(tǒng)的代表系統(tǒng)是 ExDisco,由 Roman Yangarber 等人在 20xxR R~ SentenceAnalyzer S:world trade center V:was bombed PP:by terroristss AutoSlog Heuristics Concept Nodes xwas bombed bombed by y R R~ Concept Node Dictionary: wwas killed xwas bombed bombed by y zsaw Sentence Analyzer Concept Nodes REL% xwas bombed 87% bombed by y 84% wwas killed 63% zsaw 49% 基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻(xiàn)中的應(yīng)用 8 年于紐約大學(xué)開發(fā)。例如圖 列出了計算出的領(lǐng)域相關(guān)性值,由于 Concept Nodezsaw 的領(lǐng)域相關(guān)性為 49%,小于 50%,表示相關(guān)性較差,因此去除這個 Concept Node。 第二階段,對于第一階段學(xué)習(xí)出來的多個 Concept Node,利用 CIRCUS 句法分析器對這些 Concept Node 進(jìn)行領(lǐng)域相關(guān)性打分 。optional Phrasal Pattern: : ((BOMB) BE HUTL AT (PHYSICALOBJ)) FPstructure: ( BOMBING target: PHYSICAL OBJ i nstrument: BOMB pattern: ((i nstrument)BE HURL AT(target)) ) 北京科技大學(xué)碩士學(xué)位論文 7 bombed”充是句子的動詞短語,“ by terrorists”是介詞短語 。optional instrument:(PHYSICALOBJECT) 。optional patient:(PHYSICALOBJECT) 。 第一階段,用戶提供出領(lǐng)域相關(guān)的和領(lǐng)域非相關(guān)的語料,使用 CIRCUS 句法分析器對語料進(jìn)行句法分析,然后根據(jù) AutoS
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1