freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于模式的語義信息抽取及應(yīng)用研究畢業(yè)論文(編輯修改稿)

2025-07-24 20:13 本頁面
 

【文章內(nèi)容簡介】 any表示公司類命名實體,CPerson表示人物類命名實體;CAppoint表示任命類動詞;它的集合為{name ,promote,elect ,appoint};CResign為離任類動詞,它的集合為{stepdown ,quit ,depart ,resign }。圖中的第一個模式表示“任命”事件。該模式的意義是:如果句子的主語為CCompany語義類,句子的動詞為CAppoint語義類,句子的直接賓語為CPerson類,則這個句子表示一個“任命”事件。圖中的第一個模式表示“離任”事件。該模式的意義是:如果句子的主語為CPerson語義類,句子的動詞為CResign語義類,則這個句子表示一個“任命”事件。表中的第二個模式是一個“辭職”事件模式。該事件模式有二個元組組成,它們是在從句中充當主語的元組CPerson和從句中的動詞短語元組CResign。該模式的含義是:當符合各自語義約束和語法約束的二個元組都出現(xiàn)在同一個從句中的時候,則說明該從句描述了一個“管理職位繼任”事件類別中的“辭職”事件。Exdisco的IE模式學習流程,算法描述如下:0)對于一個特定的IE領(lǐng)域任務(wù),給定:一個未經(jīng)分類的文檔集D;幾個種子IE模式集P。例如,管理職位繼任信息抽取任務(wù)。1)根據(jù)給出的種子模式,系統(tǒng)劃分文檔集合為領(lǐng)域相關(guān)文檔集和領(lǐng)域不相關(guān)文檔集。如果文檔含有任意一個種子模式,則為相關(guān)文檔集;若文檔部含有種子模式,則為不相關(guān)文檔集。2)生成新的候選模式將D中出現(xiàn)的每個從句都轉(zhuǎn)換成一個候選模式,計算出這些模式的領(lǐng)域相關(guān)度,并按照這些模式的領(lǐng)域相關(guān)度大小將它們排序。模式p的領(lǐng)域相關(guān)度在首次循環(huán)時的計算公式為:,其中,H(p)是其中出現(xiàn)模式p的文檔集合。后續(xù)循環(huán)中,模式的領(lǐng)域相關(guān)度的計算依賴于其所出現(xiàn)在的文檔的相關(guān)度,即,其中,Rel’(d)是第i次循環(huán)時文檔d的相關(guān)度。3)將領(lǐng)域相關(guān)度最高的模式加到模式集合P中。4)根據(jù)新生成的模式集合P,對每個文檔重新進行領(lǐng)域相關(guān)度計算。5)轉(zhuǎn)1),直到不再生成新的模式或某種循環(huán)條件達到為止。圖2. 6 Exdisco的IE模式學習流程 基于WordNet和語料標注的IE模式學習系統(tǒng) 基于WordNet和語料標注的IE模式獲取系統(tǒng)的典型代表系統(tǒng)是TIMES。TIMES的工作原理是:一個概念知識庫WordNet的支持,它是領(lǐng)域無關(guān)的。人工給出描述事件信息的文本,系統(tǒng)對該文本進行句法分析。人工指導系統(tǒng)從語義和語法兩個方面對語句做泛化處理,最終生成IE模式。TIMES中的IE模式叫做規(guī)則。規(guī)則主要包含兩個部分。第一部分是規(guī)則的觸發(fā)條件,它由一個或多個條件組成,詳細描述了條件具備的要素。模式的第二部分為滿足條件時規(guī)則采取的動作。規(guī)則在條件觸發(fā)后,就完成了一次信息抽取,實現(xiàn)了抽取出正確的目標。R1:Match(X1,pany_type,NG)^Match(X2,need,NG)^Match(X3,specialist,NG) →FS(X1,COMPANY)R2:Match(X1,pany_type,NG)^Match(X2,need,NG)^Match(X3,specialist,NG) →FS(X3,POSITION) 圖2. 7TIMES中的模式例子R1中含有三個括號表示為子條件句,R1的含義是:若語句滿足條件(1)X1是pany_type語義類,同時是NG語法類型(2)X2的中心詞為need,同時是NG語法類型(3)X3的中心詞為speeialist,同時是NG語法類型,則X1作為事件的COMPANY角色。R2中含有三個括號表示為子條件句,R2的含義是:若語句滿足條件(1)X1是pany_type語義類,同時是NG語法類型(2)X2的中心詞為need,同時是NG語法類型(3)X3的中心詞為speeialist,同時是NG語法類型,則X3作為事件的POSITOIN角色。TIMES的IE模式學習流程,步驟如下圖所示:1)用戶通過GUI選擇一個含有事件描述的語句。2)系統(tǒng)對該語句進行分詞、詞性標注、命名實體識別和部分句法分析,并以每個短語最后的一個詞作為短語的中心詞。3)用戶指示系統(tǒng)將相關(guān)的名詞短語與其所能充當?shù)氖录巧P(guān)聯(lián)起來。4)用戶對某些有歧義的中心詞進行詞義消岐。5)系統(tǒng)記下用戶的相關(guān)操作并形成相應(yīng)的特例模式。6)系統(tǒng)從語法和語義兩個方面對形成的特例模式進行泛化,形成一個泛化模式。 圖2. 8 TIMES的IE模式學習流程舉例說明TIMES進行IE模式學習的基本流程0)假設(shè)信息抽取任務(wù)為:從工作信息文本中抽取出公司、職位和職位的地理位置這三個目標信息。l)設(shè)人工給出的事件語句為“The National Technology Group has a need for qualified Inventory Specialists to work at an RTP client site for one month.”2) 對該語句進行分詞、標注、命名實體識別和句法分析后,得到的內(nèi)部結(jié)構(gòu)如下圖所示:Important phrasesTargetSemantic typeheadworSyntactic categorysenseThe Natianal Technology GroupCOMPANYCompanr_typepantNG1HasNoneNonehasVG1A needNoneNoneneedNG1ForNoneNoneforPG1Qualified inventory SpecialistsPOSTITIONNonespecialistNG1atNoneNoneatPG1An RTP client siteLOCATIONNonesiteNG1圖2. 9一個語句經(jīng)過相應(yīng)的NLP步驟處理后所得到的內(nèi)部結(jié)構(gòu):該表共有七列,第一列“Important phrases”列出了句子分詞后的結(jié)果。第二列“Target”表示出事件的重要角色,是第一列詞組充當?shù)哪繕祟愋?,若不能充當IE目標值為None。第三列“Semantic type”列出了左邊短語的語義類型。第四列“headword”列出了左邊的短語的中心詞,規(guī)定短語的最后一個詞為中心詞。第五列“Syntactic category”顯示左邊短語的語法類型。第六列“sense”列出了中心詞的概念序號。3) 形成的特例模式如下:S(X1,{pany},NG)∧S(X2,{has},VG)∧S(X3,{need},NG)∧S(X4,{for},PG)∧S(X5,{Speeialist},NG)∧S(X6,{at},PG)∧S(X7,{site},NG)→FS(X1,COMPANY),F(xiàn)S(X6,POSITION),F(xiàn)S(X7,LOCATION)圖2. 10 TIMES形成的特例模式4) 人工去除特例模式的無關(guān)信息,得到泛化模式5) 對得到的泛化模式,進行語義泛化 本章小結(jié)本章綜述了各類IE模式學習系統(tǒng)?;谡Z料標注的IE模式學習系統(tǒng)、基于語料分類的IE模式學習系統(tǒng)和和基于自舉的IE模式學習系統(tǒng),這三個階段系統(tǒng)的發(fā)展使得對用戶輔助工作要求越來越少,但基于人工建立的概念層次知識庫是必不可少的。在領(lǐng)域無關(guān)的知識庫WordNet支持下,TIMES有了新的進展,不過TIMES依舊需要人工提供案例語句并指導生成相應(yīng)的IE模式,還需要人工或相應(yīng)的規(guī)則對有歧義的詞進行單獨的詞義消岐。試想,能否設(shè)計一種IE模式學習方法,只需人工定義IE任務(wù),不需要人工提供種子模式、人工進行語料分類、人工進行語料標注,就能夠?qū)崿F(xiàn)自動學出相應(yīng)的IE模式。這樣的方法會在很大程度上減輕用戶的輔助工作量。本文在借鑒已有的面向英文文本的信息抽取系統(tǒng)的成功經(jīng)驗,提出一種基于聚類的信息抽取模式自動生成方法,相關(guān)內(nèi)容將在第四章做詳細介紹。3 中醫(yī)醫(yī)案特征分析中醫(yī)醫(yī)案是醫(yī)務(wù)人員對病人患病經(jīng)過和治療情況所作的文字記錄,是醫(yī)生診斷和治療疾病的依據(jù),也是醫(yī)學科學研究中很有價值的資料。病案中包含著豐富的病證、用藥等相關(guān)知識,是醫(yī)生診斷和治療疾病的依據(jù),是醫(yī)學科學研究中很有價值的資料。中醫(yī)學經(jīng)過幾千年的發(fā)展,積累了大量的優(yōu)秀病案,形成了一筆寶貴的財富。因此,如何有效的利用這些資源,成為一個亟待解決的重要問題。為了能有效的利用這些病案資源,本章首先通過對大量醫(yī)案進行了研究,歸納總結(jié)了中醫(yī)醫(yī)案在結(jié)構(gòu)和內(nèi)容上的特征;然后分析了對病案信息進行抽取研究的基礎(chǔ)、前提及存在的問題;最后針對病案的特征以及目前存在的問題,概括了針對病案信息的不同特征采取的相應(yīng)抽取策略。 中醫(yī)醫(yī)案特征分析 中醫(yī)醫(yī)案結(jié)構(gòu)特征分析計算機技術(shù)與互聯(lián)網(wǎng)技術(shù)突飛猛進的發(fā)展,改變了人們的生活。在信息時代,利用計算機技術(shù)從海量信息中發(fā)現(xiàn)知識是目前最主要的需求。信息的識別是信息挖掘的前提,比如病人姓名、病人出初時間、方藥信息,基本癥狀信息等。通常采用結(jié)構(gòu)化醫(yī)案模板來實現(xiàn)病案信息的采集,這樣的方式不僅需要精通領(lǐng)域知識的專家,而且需要花費大量人力和物力。信息抽取技術(shù)的出現(xiàn)有效地處理了該難題。為了能利用計算機技術(shù)自動抽取這些信息,首先需要對病案的結(jié)構(gòu)和特征有充足的認識。下面首先以一份有代表性的肝病病案為例,分析中醫(yī)病案的結(jié)構(gòu)及特征。李某,女,30歲,教師。初診時間:1974年4月8日。主訴:醫(yī)院精神補腹安膨隆教師,四年前患肝炎,經(jīng)縣醫(yī)院治愈。但稍老則右脅隱痛,食欲欠佳。去年夏天因過食冷食,腹痛腹瀉,日瀉10余次,為稀水樣便,伴惡心嘔吐,經(jīng)本地保健員按“胃腸炎”治療好轉(zhuǎn)。診查:腹膨隆,左少腹劇烈壓痛三天,皮蒼黃,青筋微露,雙下肢凹陷性浮腫,頸胸部有少許散在蜘蛛痣,肝腫大脅下6厘米,脾腫大脅下14厘米,精神不振,言語低微,面容暗黃,時感惡心、嘔吐。苔白膩,質(zhì)淡紅稍胖,脈弦緩。辨證:肝脾失調(diào),濕阻血瘀。為臌脹(晚期肝硬化合并脾機能亢進)。治則:調(diào)理肝脾,利濕化瘀。處方:當歸12 g,白芍15 g,白術(shù)10 g,云苓20 g,柴胡6 g,香附9 g,郁金9 g,青皮9 g,腹皮12 g,丹皮9 g,元胡9 g,山甲9 g,鱉甲15 g,丹參15 g,牡蠣15 g,甘草3 g。上方藥服六劑,腹脹搭建,飲食轉(zhuǎn)佳,小便自如。唯脾腫大不減,湯劑中加元胡9克,桃仁9克;配服鱉甲煎丸,每次60丸(小水丸),日服3次。按語:本案先因慢性肝炎而致右脅隱痛、飲食欠佳;復(fù)傷于冷食,脾胃受損,泄瀉不已,久則脾不運化,濕濁停聚,進一步阻滯氣機。圖3. 1 一份典型的中醫(yī)肝病病案,通過對大量病案的分析總結(jié),得出中醫(yī)病案信息在結(jié)構(gòu)上具有如下特征:一份醫(yī)案按照內(nèi)容可以劃分為幾類信息,它們是病人基本信息、主訴、診查、辯證、治則、處方和按語等。通常每個段落對應(yīng)一部分信息,我們把這稱為段落主題。每類信息中又包含子信息,例如病人基本信息中又包含姓名、年齡、出診時間和職業(yè)。一份醫(yī)案的幾種類型信息在文本中特定的位置存在,它們由上到下分布。這些信息并不需要都出現(xiàn)在一分醫(yī)案中。例如家族史、西醫(yī)檢查等信息可以不出現(xiàn)。段落主題位于每個段的段首,“處方”“按語”。不過也可以沒有段落主題。特征1表明了醫(yī)案的內(nèi)容是嵌套形式的,不同內(nèi)容下又包含具體信息,可以將這些信息組織到一顆樹中。特征特征3表明病案的結(jié)構(gòu)具有主題特征,信息前具有標題表示其主題,主題有固定詞語表示。 中醫(yī)醫(yī)案內(nèi)容特征分析通過分析研究大量的中醫(yī)醫(yī)案,同時學習中醫(yī)學基礎(chǔ)原理,我們總結(jié)中醫(yī)醫(yī)案在內(nèi)容和表達方式下存在如下特征:通過對大量中醫(yī)病案的分析及中醫(yī)學發(fā)展歷史的研究,中醫(yī)病案在內(nèi)容和表達方式上具有如下特征:句法簡單:在中醫(yī)病案中,通常以句式簡單的陳述句式為主,幾乎不會出現(xiàn)具有二義性的語句。這為自然語言處理和信息抽取提供了較好的先決條件。口語特性:中醫(yī)病案一般是根據(jù)醫(yī)生的語言習慣對各項信息進行描述,格式上并沒有做出嚴格具體的要求,表達方式靈活多樣。另外,經(jīng)常出現(xiàn)一些縮寫詞,以簡化書寫過程。例如將泌尿道感染稱為泌感、將高血壓性心臟病稱為高心病,將急性支氣管炎稱為急支。中藥名如生龍牡(生龍骨.生牡蠣)、二冬(麥門冬,天冬門)、二地(生地,熟地)等。時序性:中醫(yī)醫(yī)案一般由初診、二診等多診信息組成,記錄了整個診療過程中病人病情的發(fā)展變化。這一特征為明顯的時序特性。概念不統(tǒng)一:一個概念可以有多種名稱來表示,存在這種現(xiàn)象主要因為中醫(yī)中的醫(yī)學概念名稱缺乏一個統(tǒng)一的規(guī)范命名系統(tǒng),致使一個概念有多種名稱來表示。比如:癆瘵、勞嗽、急癆、傳尸等均表示肺癆這種病。 中醫(yī)領(lǐng)域本身的特點中醫(yī)醫(yī)案作為記錄醫(yī)生臨床治療過程的方法和手段,在中醫(yī)領(lǐng)域,其具有一些特定的特點,分為以下幾個方面:半文言特性:中醫(yī)學的形成與發(fā)展已有數(shù)千年的歷史,是中華民族在長期的生活、生產(chǎn)及醫(yī)療實踐中的經(jīng)驗總結(jié),因此與中國古代文化互相交融滲透。在中醫(yī)學的發(fā)展中,一些早期著作中的大量表述被長期沿用并逐漸術(shù)語化,以至于在當今的醫(yī)案中仍大量存在,比如“陰虛津虧、風熱疫毒”等,使得中醫(yī)醫(yī)案具有明顯的半文言特性。具有自然語言與醫(yī)學雙重特性:中醫(yī)學作為醫(yī)學的一門學科,具有醫(yī)學自身的特征。另外,由于中醫(yī)學的研究與知識的積累等的載體都是中文自然語言而非人工語言,因此對中醫(yī)學的研究必然要受到所使用語言載體的限制。模糊性,量化困難:由于中醫(yī)學整體論治的特點,使得中醫(yī)理論與實踐有模糊性的一面,治病主要憑經(jīng)驗,證的輕重程度還未能得到科學的量化,所有這些問題都必須在宏觀上、整體上加以解決。知識關(guān)系復(fù)雜:中醫(yī)學發(fā)展延伸了幾千年,中醫(yī)理論知識龐大且豐富。陰陽五行理論、經(jīng)絡(luò)理論、氣血等學說匯聚一體,形成了龐大且復(fù)雜的中醫(yī)理論體系結(jié)構(gòu),同時還衍生出許多相關(guān)學科,致使中醫(yī)學概念之間復(fù)雜,知識表示困難。目前自然語言處理只能處理一般的文本。而上述的幾個方面表示了中醫(yī)醫(yī)案具有其特定的領(lǐng)域特點。這樣導致了對中醫(yī)醫(yī)案文本處理存在諸多困難。 中醫(yī)醫(yī)
點擊復(fù)制文檔內(nèi)容
數(shù)學相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1