freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-在線瀏覽

2024-08-08 01:14本頁面
  

【正文】 ,信息抽取能夠采用獨立于語種的方式存儲信息。 系統(tǒng)框架結(jié)構(gòu)如上所述,該系統(tǒng)將基于信息抽取技術(shù)進行構(gòu)建。圖一種給出了本系統(tǒng)的基本框架結(jié)構(gòu)。對該模塊的設(shè)計與實現(xiàn),是本文的重點,將在后面進行詳細論述。該模塊是系統(tǒng)的控制中心,體現(xiàn)了以用戶需求為核心的設(shè)計思想。用戶只需以自然語言形式輸入詢問的問題,該模塊即可將詢問轉(zhuǎn)化為一系列的內(nèi)部指令,控制各模塊針對詢問做出響應(yīng)。其中主要采用了自然語言生成(Natural Language Generation,簡稱NLG)技術(shù)。所謂高質(zhì)量是指生成的文本與人工文本比較接近,形式多樣,而且能適應(yīng)外部應(yīng)用的變化而做相應(yīng)的調(diào)整,整個系統(tǒng)的維護性好[2]。因此需要一種較好的方式來將查詢結(jié)果反饋給用戶。除了結(jié)合自然語言生成技術(shù),以自然語言形式生成結(jié)果外,還可以用圖表等形式輸出一些數(shù)據(jù)的統(tǒng)計結(jié)果,這也是表示模塊的功能之一。圖二:SBIES分布圖由圖可見,本系統(tǒng)直接掛接在Internet上,數(shù)據(jù)來源和用戶界面主要都通過Web實現(xiàn)。如果必要,可以對信息庫數(shù)據(jù)進行分析。 本文內(nèi)容簡介本文將詳細論述股市公告信息抽取系統(tǒng)中,信息抽取模塊的設(shè)計和實現(xiàn)。簡介信息抽取技術(shù)的歷史和特點,與傳統(tǒng)的NLP技術(shù)做了優(yōu)缺點比較。第二章,信息抽取模塊的設(shè)計。第三章,信息抽取的關(guān)鍵算法。具體探討了信息抽取模塊中信息抽取的幾種關(guān)鍵算法。第四章,實現(xiàn)與結(jié)果分析。252 信息抽取模塊的設(shè)計 模塊內(nèi)部結(jié)構(gòu) 串行化的模塊內(nèi)部結(jié)構(gòu)及其問題自然語言信息抽取是一系列淺層自然語言處理技術(shù)的結(jié)合體。從某種意義上說,這些處理技術(shù)將以串行的方式運行,即前一個步驟的處理輸出結(jié)果將作為后一步驟的輸入。根據(jù)傳統(tǒng)的自然語言處理技術(shù),漢語的信息抽取模塊中大致應(yīng)包含的處理步驟應(yīng)當包括了分詞處理、名稱分析、語法分析、語義分析、場景匹配、一致性分析、推理判斷、模板匹配填充,等等。例如:假設(shè)信息抽取全過程由n個串聯(lián)子過程組成,第k個子過程的查準率(或者查全率)分別為,則整個模塊的查準率(或者查全率)應(yīng)為:一般而言,目前自然語言處理技術(shù)中雖然存在眾多不同的算法,進行不同層次的分析處理,但其查準率和查全率卻大都不是很高[17]。當前MUC英文信息提取的各項指標(最好水平)大體上如下[SAIC 99] [Chinchor 99]:實體(Entities)識別90%,屬性識別(Attributes) 80% (TE任務(wù));事實識別(Facts) 70% (TR任務(wù));事件識別(Events)60% (ST任務(wù))。在最近一屆MUC上表現(xiàn)最好的是SRA公司的系統(tǒng)[Aone et al, 98],其所有3項IE指標都是最高的。顯然,過低的查準率和查全率,對于一個應(yīng)用系統(tǒng)是缺乏實用意義的。第一種途徑顯然是信息抽取技術(shù)逐步發(fā)展成熟的必然途徑,但是在短期內(nèi)恐怕還難以在這一方向上取得突破性的發(fā)展。因為不同的應(yīng)用領(lǐng)域具有不同的特性,結(jié)合這些特性可以有力地提高各個模塊的處理正確性,簡化信息抽取模型。 簡化的高性能信息抽取模型在我們即將設(shè)計和實現(xiàn)的股市公告信息抽取系統(tǒng)中,希望通過縮短處理子過程的路徑長度,來提高信息抽取模型的性能。一方面,股市公告文本的主題分類比較明顯。每種公告文本類別論述的主題比較固定,利于用抽取模板加以描述。通常很少出現(xiàn)句式的變化,陳述過程中句法規(guī)則也相對簡單。首先,縮短了處理過程路徑的長度,避免了過長的串行系統(tǒng)結(jié)構(gòu)可能導(dǎo)致的低查準率和查全率。分詞處理詞典股市公告文本A類文本自動標注B類文本自動標注C類文本自動標注A類模板填充B類模板填充C類模板填充文本自動分類信息庫基于以上觀點,考慮將信息抽取中的某些步驟合并簡化。圖三:簡化后的信息抽取模型從圖中可以看出,處理過程的長度大大縮短了。文本自動分類主要是根據(jù)關(guān)鍵詞進行的,由于股市公告文本的特殊性,其準確率可達到98%以上。本章的余下部分,將對自動分詞和文本自動標注的實現(xiàn)做部分介紹。 自動分詞近年來,國內(nèi)眾多研究機構(gòu)已經(jīng)在計算機漢語文本自動分詞方面進行了大量的研究,并取得了很多成就。我們可以將現(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ洌话凑帐欠衽c詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。另一種方法是將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而極大地提高切分的準確率。而有些系統(tǒng)則在后續(xù)過程中來處理歧義切分問題,其分詞過程只是整個語言理解過程的一小部分。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。這種分詞方法需要使用大量的語言知識和信息。l 基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。已見諸報道的研究成果如:北京航空航天大學計算機系的CDWS分詞系統(tǒng),山西大學的現(xiàn)代漢語自動分詞及詞性標注系統(tǒng)[1],北京大學計算語言學研究所的漢語切分與標注軟件,清華大學SEG分詞系統(tǒng)和SEGTAG系統(tǒng),哈工大統(tǒng)計分詞系統(tǒng),杭州大學改進的MM分詞系統(tǒng),Microsoft Research漢語句法分析器中的自動分詞,等等[15]。但是在我們的特殊領(lǐng)域的應(yīng)用系統(tǒng)中,并不需要對任意領(lǐng)域文本都能進行準確切分的能力。在股市公告中,普遍存在大量的術(shù)語和慣用語。因此,設(shè)想構(gòu)造一個規(guī)模較小的,能夠較好識別領(lǐng)域詞匯的小型分詞子系統(tǒng)。統(tǒng)計各類詞匯出現(xiàn)的概率,構(gòu)造詞典。經(jīng)過測試,自動分詞的結(jié)果完全能夠滿足信息抽取的需求。 詞類自動標注在分詞的結(jié)果上,還應(yīng)該為各個詞匯標注上一些表明詞匯作用或?qū)傩缘男畔?,以便利用這些信息去填充模板。例如,可以對詞性進行標注,如名詞、動詞、形容詞、數(shù)量詞等等;也可以對識別的命名實體(Named Entity)、專有名詞(Proper Noun)等進行標注,主要取決于后續(xù)處理階段的需要。但是,我們認為在特定領(lǐng)域的信息抽取任務(wù)中,從詞性開始的詞類標注并非必要。出于這種想法,我們希望能夠在此采用一個直接標注包含語義信息的詞類自動標注子系統(tǒng)。從圖三可以看出,詞類自動標注是在文本分類之后才進行的,所以應(yīng)該根據(jù)不同的文本類別來進行不同的詞類標注。我們就可以嘗試根據(jù)模板的屬性槽來定義詞類??紤]根據(jù)以上的模板,抽取以下的公告實例:“東盛科技”(600771)因刊登公告,9月11日上午停牌半天。對此例原文分詞后,我們可以期望獲取如下自動標注的XML文檔:?xml version=”” encoding=”GB2312” ?bulletinpunctuation“/punctuationstockname東盛科技/stocknamepunctuation”/punctuationpunctuation(/punctuationstockid600771/stockidpunctuation)/punctuationsw因/swna刊登/nana公告/napuncutation,/punctuationdate9月11日上午/datesw停牌/swlength半天/lengthpunctuation。在同課題組的許多老師和同學的共同努力和大力幫助下,我們對近年來上海證券交易所的公告進行了人工分詞和標注。針對不同類型(模版)的文本,將具有不同的標注標準。公告類別公告文本量(篇)百分比決議公告93%財務(wù)指數(shù)公告415%停牌公告21%其它公告63%共計592100%表二:人工標注文本量統(tǒng)計在進行了自動分詞和詞類標注的基礎(chǔ)上,下一章將詳細探討如何利用標注信息填充模板的具體算法。本章中將要詳細論述的是模板的自動填充算法。 傳統(tǒng)語言學方法 基于規(guī)則的信息抽取算法根據(jù)傳統(tǒng)的語言學方法,一般采用語法分析的方式來填充模板。比較著名的如Kaplan和Bresnan(1982)的詞匯功能語法(LFG)、Shieber(1984)的PARTII,Kay(1985)的功能合一語法(FUG),Gazdar(1985)的廣義短語結(jié)構(gòu)語法(GPSG),Polland和Sag(1987)的中心詞去動的短語結(jié)構(gòu)語法(HDPSG)等等[3][8][9][13]。然而在一個中文的信息抽取的實用系統(tǒng)中充分應(yīng)用這些分析方法,卻存在著困難。這一方面是出于性能考慮,信息抽取系統(tǒng)往往要對大量文本進行高效率的處理,另一方面則是考慮到信息抽取系統(tǒng)往往不需要完全明晰一片文檔的內(nèi)容,而只需直起大概即可。其次,中文語法分析存在著特殊的復(fù)雜性。如果逐層分析語法關(guān)系,可能相當困難。而這對于一個實用系統(tǒng)而言,卻往往是致命的缺陷。例如[14],制定以下若干規(guī)則,來對股市停牌公告進行抽取。不難驗證,該文法可以無沖突地采用SLR分析法進行分析,參見表三。由于在根據(jù)分析表分析過程中,自然地構(gòu)造起了一棵語法分析樹,圖四中給出一個例句的分析樹。fstpC 四砂股份因刊登NSCmavlenNSCununsn
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1