freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于模式的語義信息抽取及應用研究畢業(yè)論文-在線瀏覽

2025-08-14 20:13本頁面
  

【正文】 WordCate數據結構圖 39表5. 6基本信息部分實例 40表5. 7主訴部分存儲實例 40表5. 8治則部分存儲實例 41表5. 9 VecWordCate數據結構圖 41表6. 1用戶信息表 49表6. 2案例信息表 501 緒論 課題背景 課題的來源,目的和意義該研究課題來源于“十二五”國家科技支撐計劃“名老中醫(yī)臨床經驗、學術思想傳承研究(一)”項目。研發(fā)模式庫生成系統(tǒng),實現自動化地從文本中獲取模式,生成模式庫,用于支持信息抽取的過程。隨著近幾年來中醫(yī)學研究的深入進行,對中醫(yī)醫(yī)案的信息分析需求越來越迫切,經歷了中國五千年的文化變遷,中醫(yī)歷史積累了海量的中醫(yī)醫(yī)案,收錄散雜,在內容和文字上不免也存在著訛、漏、誤、衍等錯誤現象[15],采用人工手段進行查找與分析已經不能滿足快節(jié)奏需求。 課題的研究內容本文研究基于模式的信息抽取技術及應用,課題解決的主要技術難點及技術方案:(1)模式匹配是信息抽取普遍采用的方法,如何生成模式是課題研究的難點和重點。首先對文本進行預處理,然后對分詞后的文本聚類,將分詞后的短語劃分為不同的類別, 則每個類別為一個模式集。(2)研究信息抽取技術在中醫(yī)醫(yī)案領域的應用,實現機器自動識別中醫(yī)醫(yī)案里包含的“病”、“證”、“癥候”等相關屬性及病人基本信息形成最小數據冗余的數據。第一步對文本進行分詞、詞性標注處理,第二步在模式庫的支持下,采用模式匹配算法,最終實現了機器對醫(yī)案的“人名”、“出診時間”、“癥候”信息的識別,以及實體間關系識別。2)重點研究了基于模式的中醫(yī)醫(yī)案的信息抽取問題。3)設計并實現了一個基于中醫(yī)醫(yī)案的信息抽取原型系統(tǒng)。 本文的組織結構本文共分7章,每部分的組織如下:第一章首先介紹了本課題的課題背景,闡述了課題的來源,目的及意義,說明了課題的研究內容。第三章介紹了中醫(yī)領域中文文本的特點,提出了信息抽取的任務。第五章介紹了基于模式匹配的信息抽取方法第六章完成基于模式匹配的中醫(yī)醫(yī)案信息抽取系統(tǒng),實現了其中的命名實體識別(人名、地名、時間等名詞性短語)的工作第七章總結與展望最后是本文的參考文獻,及本文作者對導師和實驗室同學的衷心感謝!2 信息抽取模式學習系統(tǒng)綜述 信息抽取模式學習系統(tǒng)分類為了進行IE(Information Extraction)模式的學習,人們先后設計過各種IE模式獲取系統(tǒng),例如AutoSlog、PALKA、CRYSTAL、LIEP、AutoSlogTS、ExDisco、TIMES等?;谌斯ふZ料分類的IE模式學習系統(tǒng),如AutoSlogTS等。基于WordNet和語料標注的IE模式學習系統(tǒng),如TIMES等。 基于人工語料標注的IE模式學習系統(tǒng) 基于人工語料標注的IE模式學習系統(tǒng)的原理基于人工語料標注的IE模式獲取系統(tǒng)的基本原理是:使用一種IE模式表示方式,人工預先標注訓練語料,接著利用機器學習的方法從訓練語料中學出IE模式。本節(jié)詳細介紹AutoSlog和PALKA的工作原理。AutoSlog的核心就是一個模式學習算法。系統(tǒng)的輸出是對應案例語句的IE模式。最后需要人工對學出的模式進行審定和篩選。對于不同領域的信息抽取任務,語言模式集并不需要做較大改動。 Linguistic Pattern Examplesubject passiveverb victimwas murderedsubject activeverb perpetratorbombedsubject verb infinitive perpetratorattempted to killsubject auxiliary noun perpetratorattempted to killactiveverbdobj bombed targetinfinitivedobj to kill victimverb infinitivedobj threatened to attack targetgerunddobj killing victimnoun auxiliarydobj fatality was victimnoun prepnp bomb against targetactiveverb prepnp ki11ed with instrumentpassiveverb prepnp was aimed at target圖2. 1 AutoSlog采用的語言表達模式及IE模式這里的語言模式集和IE模式的不同之處在于:語言模式是領域無關的,是由人工預先給定的。IE模式用于對一個事件進行信息抽取。該種形式的句法結構在英語文本中經常出現,因而將此句型抽象出來作為一條語言模式。若一個含有動詞短語“was murdered”的語句經過句法分析后,在該動詞短語的左側有一個充當主語的語法成分,則該語法成分充當bombing事件的victim角色??梢允褂么朔椒ㄒ淮螌ι鲜稣Z言模式和IE模式解釋。隨后實現的CRYSTAL和LIEP,也旨在實現知識獲取的自動化。如AutoSlog需要用手工標注訓練數據,并設置啟發(fā)式搜索規(guī)則以獲取錨點(可認為是觸發(fā)詞);CRYSTAL除了要有手工標注數據,還要有語義層次和相關的詞典;PALKA需要手工定義的框架(含觸發(fā)詞)、語義層次和相關的詞典;LIEP則使用預先定義的關鍵詞和對象識別器,依賴與用戶的交互,給相關的語句分配事件類型。盡管如此,通過知識的半自動獲取,系統(tǒng)仍然可以很大程度上減少手工的參與。CRYSTAL則向自動化更靠近了一步,它的輸入可描述為“標注實例+語義層次詞典”,無須人工監(jiān)督過程即可完成學習過程。optionalpatient:(PHYSICALOBJECT) 。optionalinstrument:(PHYSICALOBJECT) 。optionalPhrasal Pattern::((BOMB) BE HUTL AT (PHYSICALOBJ))FPstructure:(BOMBINGtarget:PHYSICAL OBJi nstrument:BOMBpattern:((i nstrument)BE HURL AT(target)))圖2. 3 PALKA的一個FPstructure的例子 基于人工語料分類的IE模式學習系統(tǒng)該類系統(tǒng)的典型代表是AutoSlogTS,它是有Riloff于 1996年發(fā)明的。該類系統(tǒng)的工作原理是:由人工將語料分為領域相關和領域不相關兩類,系統(tǒng)根據這種分類方式學習出IE模式。AutoSlogTS系統(tǒng)的輸入是用戶給出的領域相關和不相關文檔集及AutoSlog中用到的語言模式。整個過程可以分為兩個階段。例如句子“World trade center was bombed by terrorists”,經過CIRCUS句法分析器處理的結果為:“World trade center”充當句子的主語,“was bombed”充是句子的動詞短語,“by terrorists”是介詞短語。第二階段,對于第一階段學習出來的多個Concept Node,利用CIRCUS句法分析器對這些Concept Node進行領域相關性打分。由于Concept Nodezsaw 的領域相關性為49%,小于50%,表示相關性較差,因此去除這個Concept Node。該類系統(tǒng)的代表系統(tǒng)是ExDisco,由Roman Yangarber等人在2000年于紐約大學開發(fā)。ExDisco系統(tǒng)的IE模式用二元組或者三元組表示。Subject Verb Direct ObjectCCompany CAppoint CPersonCPerson CResign 圖2. 5 ExDisco中用到的”管理職位繼任”IE領域的兩個種子IE模式其中,CCompany表示公司類命名實體,CPerson表示人物類命名實體;CAppoint表示任命類動詞;它的集合為{name ,promote,elect ,appoint};CResign為離任類動詞,它的集合為{stepdown ,quit ,depart ,resign }。該模式的意義是:如果句子的主語為CCompany語義類,句子的動詞為CAppoint語義類,句子的直接賓語為CPerson類,則這個句子表示一個“任命”事件。該模式的意義是:如果句子的主語為CPerson語義類,句子的動詞為CResign語義類,則這個句子表示一個“任命”事件。該事件模式有二個元組組成,它們是在從句中充當主語的元組CPerson和從句中的動詞短語元組CResign。Exdisco的IE模式學習流程,算法描述如下:0)對于一個特定的IE領域任務,給定:一個未經分類的文檔集D;幾個種子IE模式集P。1)根據給出的種子模式,系統(tǒng)劃分文檔集合為領域相關文檔集和領域不相關文檔集。2)生成新的候選模式將D中出現的每個從句都轉換成一個候選模式,計算出這些模式的領域相關度,并按照這些模式的領域相關度大小將它們排序。后續(xù)循環(huán)中,模式的領域相關度的計算依賴于其所出現在的文檔的相關度,即,其中,Rel’(d)是第i次循環(huán)時文檔d的相關度。4)根據新生成的模式集合P,對每個文檔重新進行領域相關度計算。圖2. 6 Exdisco的IE模式學習流程 基于WordNet和語料標注的IE模式學習系統(tǒng) 基于WordNet和語料標注的IE模式獲取系統(tǒng)的典型代表系統(tǒng)是TIMES。人工給出描述事件信息的文本,系統(tǒng)對該文本進行句法分析。TIMES中的IE模式叫做規(guī)則。第一部分是規(guī)則的觸發(fā)條件,它由一個或多個條件組成,詳細描述了條件具備的要素。規(guī)則在條件觸發(fā)后,就完成了一次信息抽取,實現了抽取出正確的目標。R2中含有三個括號表示為子條件句,R2的含義是:若語句滿足條件(1)X1是pany_type語義類,同時是NG語法類型(2)X2的中心詞為need,同時是NG語法類型(3)X3的中心詞為speeialist,同時是NG語法類型,則X3作為事件的POSITOIN角色。2)系統(tǒng)對該語句進行分詞、詞性標注、命名實體識別和部分句法分析,并以每個短語最后的一個詞作為短語的中心詞。4)用戶對某些有歧義的中心詞進行詞義消岐。6)系統(tǒng)從語法和語義兩個方面對形成的特例模式進行泛化,形成一個泛化模式。l)設人工給出的事件語句為“The National Technology Group has a need for qualified Inventory Specialists to work at an RTP client site for one month.”2) 對該語句進行分詞、標注、命名實體識別和句法分析后,得到的內部結構如下圖所示:Important phrasesTargetSemantic typeheadworSyntactic categorysenseThe Natianal Technology GroupCOMPANYCompanr_typepantNG1HasNoneNonehasVG1A needNoneNoneneedNG1ForNoneNoneforPG1Qualified inventory SpecialistsPOSTITIONNonespecialistNG1atNoneNoneatPG1An RTP client siteLOCATIONNonesiteNG1圖2. 9一個語句經過相應的NLP步驟處理后所得到的內部結構:該表共有七列,第一列“Important phrases”列出了句子分詞后的結果。第三列“Semantic type”列出了左邊短語的語義類型。第五列“Syntactic category”顯示左邊短語的語法類型。3) 形成的特例模式如下:S(X1,{pany},NG)∧S(X2,{has},VG)∧S(X3,{need},NG)∧S(X4,{for},PG)∧S(X5,{Speeialist},NG)∧S(X6,{at},PG)∧S(X7,{site},NG)→FS(X1,COMPANY),FS(X6,POSITION),FS(X7,LOCATION)圖2. 10 TIMES形成的特例模式4) 人工去除特例模式的無關信息,得到泛化模式5) 對得到的泛化模式,進行語義泛化 本章小結本章綜述了各類IE模式學習系統(tǒng)。在領域無關的知識庫WordNet支持下,TIMES有了新的進展,不過TIMES依舊需要人工提供案例語句并指導生成相應的IE模式,還需要人工或相應的規(guī)則對有歧義的詞進行單獨的詞義消岐。這樣的方法會在很大程度上減輕用戶的輔助工作量。3 中醫(yī)醫(yī)案特征分析中醫(yī)醫(yī)案是醫(yī)務人員對病人患病經過和治療情況所作的文字記錄,是醫(yī)生診斷和治療疾病的依據,也是醫(yī)學科學研究中很有價值的資料。中醫(yī)學經過幾千年的發(fā)展,積累了大量的優(yōu)秀病案,形成了一筆寶貴的財富。為了能有效的利用這些病案資源,本章首先通過對大量醫(yī)案進行了研究,歸納總結了中醫(yī)醫(yī)案在結構和內容上的特征;然后分析了對病案信息進行抽取研究的基礎、前提及存在的問題;最后針對病案的特征以及目前存在的問題,概括了針對病案信息的不同特征采取的相應抽取策略。在信息時代,利用計算機技術從海量信息中發(fā)現知識是目前最主要的需求。通常采用結構化醫(yī)案模板來實現病案信息的采集,這樣的方式不僅需要精通領域知識的專家,而且
點擊復制文檔內容
數學相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1