freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(編輯修改稿)

2024-07-25 01:14 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 語(yǔ)義信息來(lái)處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。l 基于統(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息為: ,其中 是漢字X、Y的相鄰共現(xiàn)概率, 、 分別是X、Y在語(yǔ)料中出現(xiàn)的概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無(wú)詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開(kāi)銷(xiāo)大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來(lái),既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無(wú)詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。這些算法各具特色,需結(jié)合具體的應(yīng)用領(lǐng)域進(jìn)行綜合利用。已見(jiàn)諸報(bào)道的研究成果如:北京航空航天大學(xué)計(jì)算機(jī)系的CDWS分詞系統(tǒng),山西大學(xué)的現(xiàn)代漢語(yǔ)自動(dòng)分詞及詞性標(biāo)注系統(tǒng)[1],北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所的漢語(yǔ)切分與標(biāo)注軟件,清華大學(xué)SEG分詞系統(tǒng)和SEGTAG系統(tǒng),哈工大統(tǒng)計(jì)分詞系統(tǒng),杭州大學(xué)改進(jìn)的MM分詞系統(tǒng),Microsoft Research漢語(yǔ)句法分析器中的自動(dòng)分詞,等等[15]。這些切分與標(biāo)注軟件大都通過(guò)大量跨領(lǐng)域文本的測(cè)試,具有較為穩(wěn)定的性能表現(xiàn)。但是在我們的特殊領(lǐng)域的應(yīng)用系統(tǒng)中,并不需要對(duì)任意領(lǐng)域文本都能進(jìn)行準(zhǔn)確切分的能力。不僅如此,在我們的應(yīng)用領(lǐng)域中,期望的文本切分效果也不同于普通文本。在股市公告中,普遍存在大量的術(shù)語(yǔ)和慣用語(yǔ)。我們當(dāng)然希望不要將這些詞切碎,以利于更好的進(jìn)行信息抽取。因此,設(shè)想構(gòu)造一個(gè)規(guī)模較小的,能夠較好識(shí)別領(lǐng)域詞匯的小型分詞子系統(tǒng)。在構(gòu)造自動(dòng)分詞子系統(tǒng)時(shí),以人工分詞得到得語(yǔ)料庫(kù)為標(biāo)準(zhǔn)。統(tǒng)計(jì)各類(lèi)詞匯出現(xiàn)的概率,構(gòu)造詞典。在分詞時(shí)處于性能考慮,采用了較簡(jiǎn)單的最長(zhǎng)匹配法分詞規(guī)則。經(jīng)過(guò)測(cè)試,自動(dòng)分詞的結(jié)果完全能夠滿足信息抽取的需求。由于分詞模塊并非本系統(tǒng)的重點(diǎn)核心所在,故在此僅作簡(jiǎn)短介紹。 詞類(lèi)自動(dòng)標(biāo)注在分詞的結(jié)果上,還應(yīng)該為各個(gè)詞匯標(biāo)注上一些表明詞匯作用或?qū)傩缘男畔?,以便利用這些信息去填充模板。進(jìn)行自動(dòng)標(biāo)注的方式和層次有多種。例如,可以對(duì)詞性進(jìn)行標(biāo)注,如名詞、動(dòng)詞、形容詞、數(shù)量詞等等;也可以對(duì)識(shí)別的命名實(shí)體(Named Entity)、專有名詞(Proper Noun)等進(jìn)行標(biāo)注,主要取決于后續(xù)處理階段的需要。傳統(tǒng)的自然語(yǔ)言處理過(guò)程中,通常認(rèn)為,對(duì)詞類(lèi)的標(biāo)注應(yīng)該從詞性的層次上開(kāi)始,其他自然語(yǔ)言的處理過(guò)程都將建筑在對(duì)詞性的分析之上。但是,我們認(rèn)為在特定領(lǐng)域的信息抽取任務(wù)中,從詞性開(kāi)始的詞類(lèi)標(biāo)注并非必要。由于信息抽取實(shí)際上是在給定語(yǔ)義框架(用模板描述)的基礎(chǔ)上,對(duì)語(yǔ)義框架中的關(guān)鍵部分(屬性槽Slot)以相應(yīng)內(nèi)容(填槽物Slot Filler)填充,所以可以期望直接標(biāo)注出全部或部分的關(guān)鍵內(nèi)容。出于這種想法,我們希望能夠在此采用一個(gè)直接標(biāo)注包含語(yǔ)義信息的詞類(lèi)自動(dòng)標(biāo)注子系統(tǒng)。其中最重要的一項(xiàng)工作就是確定標(biāo)注的詞類(lèi)。從圖三可以看出,詞類(lèi)自動(dòng)標(biāo)注是在文本分類(lèi)之后才進(jìn)行的,所以應(yīng)該根據(jù)不同的文本類(lèi)別來(lái)進(jìn)行不同的詞類(lèi)標(biāo)注。信息抽取的任務(wù)就是根據(jù)不同的文本類(lèi)別,以合適的抽取模板加以刻畫(huà)。我們就可以嘗試根據(jù)模板的屬性槽來(lái)定義詞類(lèi)。例如,如下所示是一個(gè)描述停牌公告抽取模板的DTD文件: ?xml version= encoding=GB2312? !ELEMENT 停牌公告 (股票名稱,股票代碼,停牌時(shí)間,時(shí)間跨度,停牌原因) !ELEMENT 股票名稱 (PCDATA) !ELEMENT 股票代碼 (PCDATA) !ELEMENT 停牌時(shí)間 (PCDATA) !ELEMENT 時(shí)間跨度 (PCDATA) !ELEMENT 停牌原因 (PCDATA)其中定義了一系列元素(如停牌時(shí)間、時(shí)間跨度、股票名稱等等),這些都是需要抽取的模板屬性槽??紤]根據(jù)以上的模板,抽取以下的公告實(shí)例:“東盛科技”(600771)因刊登公告,9月11日上午停牌半天。將獲取如下XML文檔作為結(jié)果:?xml version=”” encoding=”GB2312” ?停牌公告 股票名稱東盛科技/股票名稱 股票代碼600771/股票代碼停牌時(shí)間9月11日上午/停牌時(shí)間 時(shí)間跨度半天/時(shí)間跨度停牌原因刊登公告/停牌原因/停牌公告此例充分體現(xiàn)了股市公告文本句法特殊,結(jié)構(gòu)固定的特點(diǎn)。對(duì)此例原文分詞后,我們可以期望獲取如下自動(dòng)標(biāo)注的XML文檔:?xml version=”” encoding=”GB2312” ?bulletinpunctuation“/punctuationstockname東盛科技/stocknamepunctuation”/punctuationpunctuation(/punctuationstockid600771/stockidpunctuation)/punctuationsw因/swna刊登/nana公告/napuncutation,/punctuationdate9月11日上午/datesw停牌/swlength半天/lengthpunctuation。/punctuation/bulletin其中punctuation標(biāo)注標(biāo)點(diǎn),stockname標(biāo)注股票名稱,stockid標(biāo)注股票id,date標(biāo)注日期,length標(biāo)注時(shí)間跨度,sw是模板特殊詞(Special Word)的縮寫(xiě),na標(biāo)注的是本模板中無(wú)需關(guān)心的詞(Not Available)。在同課題組的許多老師和同學(xué)的共同努力和大力幫助下,我們對(duì)近年來(lái)上海證券交易所的公告進(jìn)行了人工分詞和標(biāo)注。通過(guò)計(jì)算機(jī)程序統(tǒng)計(jì),構(gòu)造起了自動(dòng)分詞和標(biāo)注所需的小規(guī)模領(lǐng)域詞典,包含領(lǐng)域常用詞匯約1200詞,另外還有滬深兩地各類(lèi)股票名稱和編號(hào)等。針對(duì)不同類(lèi)型(模版)的文本,將具有不同的標(biāo)注標(biāo)準(zhǔn)。對(duì)標(biāo)注文本統(tǒng)計(jì)數(shù)目見(jiàn)表二。公告類(lèi)別公告文本量(篇)百分比決議公告93%財(cái)務(wù)指數(shù)公告415%停牌公告21%其它公告63%共計(jì)592100%表二:人工標(biāo)注文本量統(tǒng)計(jì)在進(jìn)行了自動(dòng)分詞和詞類(lèi)標(biāo)注的基礎(chǔ)上,下一章將詳細(xì)探討如何利用標(biāo)注信息填充模板的具體算法。3 信息抽取的關(guān)鍵算法在前一章里,已經(jīng)將信息抽取的問(wèn)題歸結(jié)為對(duì)文本的自動(dòng)分詞、自動(dòng)標(biāo)注和模板填充三個(gè)步驟,并且已經(jīng)簡(jiǎn)單介紹了前兩個(gè)步驟的設(shè)計(jì)和實(shí)現(xiàn)方法。本章中將要詳細(xì)論述的是模板的自動(dòng)填充算法。將分別討論采用傳統(tǒng)語(yǔ)言學(xué)方法以及統(tǒng)計(jì)學(xué)方法進(jìn)行的模板填充算法。 傳統(tǒng)語(yǔ)言學(xué)方法 基于規(guī)則的信息抽取算法根據(jù)傳統(tǒng)的語(yǔ)言學(xué)方法,一般采用語(yǔ)法分析的方式來(lái)填充模板。語(yǔ)言學(xué)中語(yǔ)法分析的理論和方法眾多,各有優(yōu)缺點(diǎn)。比較著名的如Kaplan和Bresnan(1982)的詞匯功能語(yǔ)法(LFG)、Shieber(1984)的PARTII,Kay(1985)的功能合一語(yǔ)法(FUG),Gazdar(1985)的廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法(GPSG),Polland和Sag(1987)的中心詞去動(dòng)的短語(yǔ)結(jié)構(gòu)語(yǔ)法(HDPSG)等等[3][8][9][13]。上述的各種分析方法從理論上,對(duì)自然語(yǔ)言本質(zhì)性問(wèn)題進(jìn)行了較深入的研究。然而在一個(gè)中文的信息抽取的實(shí)用系統(tǒng)中充分應(yīng)用這些分析方法,卻存在著困難。首先,信息抽取技術(shù)應(yīng)當(dāng)避免采用深層自然語(yǔ)言處理技術(shù)(DNLPT)。這一方面是出于性能考慮,信息抽取系統(tǒng)往往要對(duì)大量文本進(jìn)行高效率的處理,另一方面則是考慮到信息抽取系統(tǒng)往往不需要完全明晰一片文檔的內(nèi)容,而只需直起大概即可。所以采用淺層自然語(yǔ)言處理技術(shù)(SNLPT)將使系統(tǒng)具有更好的性能表現(xiàn)。其次,中文語(yǔ)法分析存在著特殊的復(fù)雜性。例如,漢語(yǔ)中存在著多動(dòng)詞連用問(wèn)題、詞性歧義問(wèn)題、句子的詞序問(wèn)題、漢語(yǔ)特殊模式(“把”、“被”字句)問(wèn)題、漢語(yǔ)語(yǔ)義歧義問(wèn)題,等等。如果逐層分析語(yǔ)法關(guān)系,可能相當(dāng)困難。此外,上述分析方法應(yīng)用于實(shí)際時(shí),往往難以有很高的準(zhǔn)確率。而這對(duì)于一個(gè)實(shí)用系統(tǒng)而言,卻往往是致命的缺陷。因此,可以采用較簡(jiǎn)單的語(yǔ)法規(guī)則,來(lái)抽取相關(guān)的基本語(yǔ)義信息。例如[14],制定以下若干規(guī)則,來(lái)對(duì)股市停牌公告進(jìn)行抽取。(1)S NS C ma D v len fstp(2)N sn (3)N sn sid(4)NS N (5)NS NS cae N(6)C conj un (7)C C un(8)D date (9)D year date其中,S表示整個(gè)停牌公告;N表示單個(gè)股票,可以由股票名或連同其代碼構(gòu)成;NS是股票的集合,可以有一系列任意個(gè)連續(xù)單個(gè)股票用頓號(hào)串接構(gòu)成;C表示停牌原因,是由關(guān)鍵連詞“因”或“因?yàn)椤币鸬脑驙钫Z(yǔ)從句;D表示日期,既可是單獨(dú)的月日格式,也可是年月日格式;sn是股票名稱;sid是股票代碼;date是月日格式日期;year是年份;conj是關(guān)鍵連詞“因”或“因?yàn)椤?;len是時(shí)間跨度;cae是頓號(hào);ma是逗號(hào);fstp是句號(hào);v是中心動(dòng)詞“停牌”;un是其它與本模板信息抽取無(wú)關(guān)的詞匯。不難驗(yàn)證,該文法可以無(wú)沖突地采用SLR分析法進(jìn)行分析,參見(jiàn)表三。ACTIONGOTOSnSidConjvlendateYearCaeCommaFstpun$SNNSC
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1