【正文】
語種的方式存入信息庫中。設(shè)計一個股票文本的信息抽取系統(tǒng)具有較高的實用價值。每一種公告都有相對固定的組成要素,容易構(gòu)造模板加以描述??紤]到信息抽取技術(shù)能夠有效地從大量文本中過濾出用戶可能關(guān)心的信息,并進行結(jié)構(gòu)化存儲以便迅速查詢,希望基于信息抽取技術(shù)構(gòu)造股市公告信息抽取系統(tǒng)(Stock Bulletin Information Extraction System,簡稱SBIES)。 l 與信息檢索(Information Retrieval,簡稱IR)技術(shù)的區(qū)別與傳統(tǒng)的信息檢索技術(shù)比較,信息抽取技術(shù)有明顯的優(yōu)勢:信息檢索只是通過單純的匹配檢索得到相關(guān)的文檔,而并不真正理會文檔的實際內(nèi)容信息,文檔被等同于無意義的詞匯堆砌物;而信息抽取則是通過文本分析、語段分析、模板生成等過程抽取出有效的信息內(nèi)容。SMES系統(tǒng)擁有大量的語言知識資源(如電子詞典包括12萬條詞項以及可擴展性很強的專門語法)以及極其快速和魯棒的自然語言構(gòu)件。在第二階段的研究中,TIPSTER參與者為了使技術(shù)組成構(gòu)件標(biāo)準化,將注意力轉(zhuǎn)向軟件體系結(jié)構(gòu)的開發(fā)上。它共有六層轉(zhuǎn)換機制,即:切分標(biāo)記層、預(yù)處理層、名稱項識別層、簡單短語識別層、復(fù)雜短語識別層、指同求解層。1995年的MUC6的信息抽取任務(wù)第一次涉及到用SGML語言所標(biāo)記的文本中的名稱項(named entity)和指同項(coreference)的處理。SCISOR首先采用關(guān)鍵詞過濾和模式匹配的方法對待處理文獻進行主題分析,以便判定該報道的內(nèi)容是否與公司合并有關(guān);然后采用自底向上的分析器識別句子結(jié)構(gòu),生成概念表示;最后應(yīng)用自頂向下的預(yù)期驅(qū)動分析器提取預(yù)期內(nèi)容。下面介紹一些信息抽取發(fā)展上重要的研究成果以及國內(nèi)外的研究現(xiàn)狀[7]。漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文1 概述 信息抽取技術(shù)(Information Extraction)信息技術(shù)高速發(fā)展的時代中,信息的獲取、處理和應(yīng)用已經(jīng)成為了經(jīng)濟、科學(xué)、軍事、文化等各個領(lǐng)域發(fā)展的關(guān)鍵活動。 信息抽取技術(shù)的發(fā)展信息抽取技術(shù)的雛形最早出現(xiàn)在二十年前。l SCISOR系統(tǒng)80年代末,美國GE研究與開發(fā)中心的Lisa (System for Conceptual Information,Organization and Retrieval)系統(tǒng)所處理的對象是有關(guān)公司合并的新聞報導(dǎo)。涉及到多語言和多領(lǐng)域的文檔,以便進行抽取信息的性能評價比較。l FASTUS系統(tǒng)FASTUS系統(tǒng)(Finite State Automaton Text Understanding System)是美國加里福尼亞斯坦福研究所人工智能中心從1991年開始開發(fā)的一個基于多層、非確定有限狀態(tài)自動機模型的自然語言文本信息抽取系統(tǒng)。在TIPSTER研究的第一階段,參與者通過一些活動如MUC和TREC(Text Retrieval Conferences)對文本檢測和信息抽取所建立算法進行改進以及提高對評價這些改進的技術(shù)。文檔的專業(yè)領(lǐng)域包括通訊稿、經(jīng)濟報告和技術(shù)說明書。 信息抽取技術(shù)的特點信息抽取技術(shù)不同于傳統(tǒng)的信息檢索和自動摘要技術(shù)。如果需要在若干年的公告紀錄中,迅速查找各種相關(guān)的公告,如采取傳統(tǒng)的關(guān)鍵字查找技術(shù),恐怕難以獲取很高效率。常見的股市公告大致可以分為若干種,如:停牌公告、財務(wù)指數(shù)公告、董事會決議公告、配送股公告、新股上市公告、等等。而各國的證券市場在第一時間通常只能以一種或有限的幾種語言發(fā)布公告信息,這就給股市公告帶來了天生的多語種特性。圖一種給出了本系統(tǒng)的基本框架結(jié)構(gòu)。其中主要采用了自然語言生成(Natural Language Generation,簡稱NLG)技術(shù)。圖二:SBIES分布圖由圖可見,本系統(tǒng)直接掛接在Internet上,數(shù)據(jù)來源和用戶界面主要都通過Web實現(xiàn)。第二章,信息抽取模塊的設(shè)計。252 信息抽取模塊的設(shè)計 模塊內(nèi)部結(jié)構(gòu) 串行化的模塊內(nèi)部結(jié)構(gòu)及其問題自然語言信息抽取是一系列淺層自然語言處理技術(shù)的結(jié)合體。當(dāng)前MUC英文信息提取的各項指標(biāo)(最好水平)大體上如下[SAIC 99] [Chinchor 99]:實體(Entities)識別90%,屬性識別(Attributes) 80% (TE任務(wù));事實識別(Facts) 70% (TR任務(wù));事件識別(Events)60% (ST任務(wù))。因為不同的應(yīng)用領(lǐng)域具有不同的特性,結(jié)合這些特性可以有力地提高各個模塊的處理正確性,簡化信息抽取模型。通常很少出現(xiàn)句式的變化,陳述過程中句法規(guī)則也相對簡單。文本自動分類主要是根據(jù)關(guān)鍵詞進行的,由于股市公告文本的特殊性,其準確率可達到98%以上。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ洌话凑帐欠衽c詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。這種分詞方法需要使用大量的語言知識和信息。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。在股市公告中,普遍存在大量的術(shù)語和慣用語。 詞類自動標(biāo)注在分詞的結(jié)果上,還應(yīng)該為各個詞匯標(biāo)注上一些表明詞匯作用或?qū)傩缘男畔?,以便利用這些信息去填充模板。從圖三可以看出,詞類自動標(biāo)注是在文本分類之后才進行的,所以應(yīng)該根據(jù)不同的文本類別來進行不同的詞類標(biāo)注。在同課題組的許多老師和同學(xué)的共同努力和大力幫助下,我們對近年來上海證券交易所的公告進行了人工分詞和標(biāo)注。 傳統(tǒng)語言學(xué)方法 基于規(guī)則的信息抽取算法根據(jù)傳統(tǒng)的語言學(xué)方法,一般采用語法分析的方式來填充模板。其次,中文語法分析存在著特殊的復(fù)雜性。不難驗證,該文法可以無沖突地采用SLR分析法進行分析,參見表三。但是,對于其它結(jié)構(gòu)較為復(fù)雜的公告文本,要構(gòu)造這樣一套規(guī)則卻并不永遠是件容易的事。在此方面的研究結(jié)果表明,擴充的LR分析法的確能夠加強分析能力,尤其是加強了處理自然語言過程中的魯棒性。應(yīng)該說,統(tǒng)計方法并不是包治百病的良藥,而是人類由于認識能力和認識范圍的有限迫不得已采用的方法[11]。兩陣對壘的天平近十幾年來似乎在發(fā)生變化。l 隱馬爾科夫模型(HMM)的概念[10]對于馬爾科夫模型而言,每個狀態(tài)都是決定性地對應(yīng)于一個可觀察的物理事件,所以其狀態(tài)的輸出是有規(guī)律的。3. T:觀察符號序列的長度。它同時具有類型。這樣,在固定的隱馬爾科夫模型下,對于任意標(biāo)注文本做為模型輸出,通過尋找最佳路徑的方式,都可以找到一條概率最大的隱路徑(即由初始狀態(tài)經(jīng)由若干中間狀態(tài)到達終止?fàn)顟B(tài)的狀態(tài)轉(zhuǎn)移序列)。余下的問題(也是最為困難的),就是模型參數(shù)的獲取問題。所以,在第三步應(yīng)該改為:終止條件:,為閾值。此分析器目前支持XML Schema、DOM DOM SAX SAX 2標(biāo)準API,是公認的功能完善、性能可靠的Java語言XML分析器。抽取規(guī)則隱含于HMM的模型參數(shù)中,通過語料庫訓(xùn)練模型的而得,故抽取效果主要取決于語料庫的文本容量和標(biāo)注質(zhì)量。所以應(yīng)該根據(jù)需要選擇合適的方法。l 提出了基于隱馬爾科夫模型的信息抽取算法。目前的自動分詞詞典結(jié)構(gòu)仍然相當(dāng)簡單,可以通過添加一些附加屬性來提高分詞的質(zhì)量。目前的迭代算法雖然能夠獲取較優(yōu)的HMM模型參數(shù),但是并不能夠保證對語料庫信息的充分利用。參考文獻1. 劉開瑛,《中文文本自動分詞技術(shù)研究》,山西大學(xué)計算機科學(xué)系,20012. 張冬茉,姚天昉,王纖,《多語種天氣預(yù)報文本生成系統(tǒng)中句子規(guī)劃器的設(shè)計與實現(xiàn)》,上海交通大學(xué)計算機系3. 劉開瑛,郭炳炎,《自然語言處理》,科學(xué)出版社,19914. Stephen Soderland et al., Issues in Inductive Learning of DomainSpecific Text Extraction Rules, 19955. KamFai Wong, Wenjie Li, Chunfa Yuan, Classifying Temporal Concepts in Chinese for Information Extraction, 19996. Mary Elaine Califf, Raymond J. Mooney, Relational Learning of PatternMatch Rules for Information Extraction, 19997. 張冬茉,王纖,《基于WEB的信息抽取模型的研究》,上海交通大學(xué),20018. 姚天順,《自然語言理解》,清華大學(xué)出版社,19959. 蔡自興,徐光祐,《人工智能及其應(yīng)用(第二版)》,清華大學(xué)出版社,199610. 于江生,《隱Markov模型及其在自然語言處理中的應(yīng)用》,北京大學(xué)計算語言學(xué)研究所11. 于江生,《計算語言學(xué)中的概率統(tǒng)計方法》,北京大學(xué)計算語言學(xué)研究所,199912. Joseph F. McCarthy, A Trainable Approach to Coreference Resolution for Information Extraction, University of Massachusetts Amherst, 199613. 于江生,《基于約束的句法-語義分析》,北京大學(xué)計算語言學(xué)研究所14. 胡睿,《基于INTERNET的信息抽取模型的研究和實現(xiàn)》,上海交通大學(xué)計算機系,200115. 孫賓,《現(xiàn)代漢語文本的詞語切分技術(shù)》,北京大學(xué)計算語言學(xué)研究所()16. 孫賓,《ShiftReducePutback Parsing》,北京大學(xué)計算語言學(xué)研究所,1999()17. 孫賓,《漢語信息提取的部分研究》,北京大學(xué)計算語言學(xué)研究所()18. 姚天昉等,《一種基于信息抽取和文本生成的多語種信息檢索模型》,上海交通大學(xué)計算機科學(xué)與工程系,德國人工智能研究中心致謝在本文即將結(jié)束之際,我要由衷地感謝在我畢業(yè)設(shè)計階段,乃至本科四年學(xué)習(xí)生活中幫助過我的師長與同學(xué)。尤其在安排語料庫構(gòu)造的工作中,王老師作出很多貢獻。