freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-wenkub.com

2025-06-25 01:14 本頁(yè)面
   

【正文】 十年來(lái),她獨(dú)自一人撫養(yǎng)我長(zhǎng)大,其中艱辛自不用說(shuō)。我還要感謝本實(shí)驗(yàn)室的幾位研究生同學(xué),他們是胡睿(已畢業(yè)),房一飛,李雪蕾,孔祥勇,他們都曾幫助過(guò)我。我還要感謝XX老師。在整整一年的學(xué)習(xí)、科研中,X老師給予了我極大的關(guān)心和幫助。本文論述了股市公告信息抽取系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),但是其中的絕大多數(shù)方法可以方便地?cái)U(kuò)展到其他應(yīng)用領(lǐng)域。l 兩種信息抽取方法的結(jié)合。因此需要制定更為明確清晰的標(biāo)注標(biāo)準(zhǔn),加上適當(dāng)?shù)臉?biāo)注工具,可以更高效率獲取更高質(zhì)量的語(yǔ)料庫(kù)。自動(dòng)標(biāo)注的實(shí)現(xiàn)中,又將包括許多復(fù)雜的淺層自然語(yǔ)言處理技術(shù),如命名實(shí)體的識(shí)別[18]、指代分析,等等[5]。具體研究仍有待于進(jìn)一步的討論。l 分析了兩種信息抽取方法的異同及優(yōu)缺點(diǎn) 遺留的問(wèn)題目前為止,本信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)過(guò)程中,發(fā)現(xiàn)了以下一些問(wèn)題,有待解決:l 多語(yǔ)種的問(wèn)題。l 對(duì)大量領(lǐng)域文本做了人工標(biāo)注,初步夠建了領(lǐng)域語(yǔ)料庫(kù)。這也是計(jì)算語(yǔ)言學(xué)發(fā)展的必然趨勢(shì),結(jié)構(gòu)主義和功能主義必將走向統(tǒng)一。需要大量訓(xùn)練才能獲取模型參數(shù),且不能保證獲取最佳值,必要時(shí)需要人工調(diào)整。對(duì)于簡(jiǎn)單文本分析效率和準(zhǔn)確率都相對(duì)較低。對(duì)語(yǔ)料做關(guān)鍵詞統(tǒng)計(jì)后,得到的結(jié)果如下:關(guān)鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率決議82決議公告71董事會(huì)89監(jiān)事會(huì)33董、監(jiān)事會(huì)28公告23董事9董、監(jiān)事5監(jiān)事3股東大會(huì)21總共語(yǔ)料數(shù)量(篇)93表四:決議公告語(yǔ)料分析部分結(jié)果關(guān)鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率財(cái)務(wù)指標(biāo)415每股凈資產(chǎn)404凈資產(chǎn)收益率402每股收益402調(diào)整后每股凈資產(chǎn)398每股凈資產(chǎn)404每股收益402單位基金收益8單位基金資產(chǎn)凈值3期末基金資產(chǎn)凈值3基金資產(chǎn)凈值收益率3期末基金資產(chǎn)總值3單位基金凈收益3單位基金凈資產(chǎn)8總共語(yǔ)料數(shù)量(篇)415表五:財(cái)務(wù)指數(shù)公告語(yǔ)料分析部分結(jié)果 兩種信息抽取方法的比較在本模塊的設(shè)計(jì)和實(shí)現(xiàn)中,前后采用了基于規(guī)則的結(jié)構(gòu)主義方法和基于語(yǔ)料庫(kù)統(tǒng)計(jì)的功能主義方法。開(kāi)發(fā)調(diào)試操作系統(tǒng)平臺(tái)是Windows 2000 Professional。為了使用Java方便地處理XML文檔,使用了XML4J 。由于考慮到本系統(tǒng)將能夠方便地掛接在Internet上,要求具有較好的跨平臺(tái)能力,故決定采用Java做為開(kāi)發(fā)工具。最主要的修改是上述算法中的終止條件。到目前為止,對(duì)于隱馬爾科夫模型的參數(shù)選擇和優(yōu)化問(wèn)題,尚沒(méi)有什么分析算法可以得到最優(yōu)解。可以借助于矩陣來(lái)實(shí)現(xiàn)這一點(diǎn)。圖五是HMM求解模板填充問(wèn)題的示例圖。而將待抽取的標(biāo)注文本視為該模型的一種輸出結(jié)果。3. 模板(template):是用來(lái)表示結(jié)構(gòu)化數(shù)據(jù)的待填屬性槽的序列。為了完成這個(gè)目的,有必要對(duì)問(wèn)題進(jìn)行重新描述。5. :觀察符號(hào)的概率分布集。l 隱馬爾科夫模型(HMM)的模型參數(shù)1. N:模型狀態(tài)數(shù)。于是人們將這種模型加以推廣,提出了隱馬爾科夫模型(HMM)。一個(gè)馬爾科夫模型(MM)M就是一個(gè)Markov鏈加上一個(gè)轉(zhuǎn)移概率矩陣。語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)可以說(shuō)是兩陣對(duì)壘的天平上的一個(gè)舉足輕重的砝碼。多年來(lái)結(jié)構(gòu)主義一直占上風(fēng),西方學(xué)者稱為“語(yǔ)言學(xué)主流”(mainstream linguistics)。但是,數(shù)理統(tǒng)計(jì)方法已經(jīng)發(fā)展的比較成熟,值得信賴。 統(tǒng)計(jì)學(xué)方法 基于語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言學(xué)方法近年來(lái),基于語(yǔ)料庫(kù)分析的自然語(yǔ)言處理方法受到了越來(lái)越多的計(jì)算語(yǔ)言學(xué)家的重視和應(yīng)用。其二,采用非基于規(guī)則的分析方法。傳統(tǒng)的LR分析法通常只有移進(jìn)(Shift)和歸約(Reduce)兩個(gè)動(dòng)作。而隨著規(guī)則的增加,如果仍然采用LR分析法分析,分析表的規(guī)模(行數(shù))將以指數(shù)級(jí)速度擴(kuò)充。此步驟顯然比較簡(jiǎn)單,在此不再贅述。由于在根據(jù)分析表分析過(guò)程中,自然地構(gòu)造起了一棵語(yǔ)法分析樹(shù),圖四中給出一個(gè)例句的分析樹(shù)。例如[14],制定以下若干規(guī)則,來(lái)對(duì)股市停牌公告進(jìn)行抽取。如果逐層分析語(yǔ)法關(guān)系,可能相當(dāng)困難。這一方面是出于性能考慮,信息抽取系統(tǒng)往往要對(duì)大量文本進(jìn)行高效率的處理,另一方面則是考慮到信息抽取系統(tǒng)往往不需要完全明晰一片文檔的內(nèi)容,而只需直起大概即可。比較著名的如Kaplan和Bresnan(1982)的詞匯功能語(yǔ)法(LFG)、Shieber(1984)的PARTII,Kay(1985)的功能合一語(yǔ)法(FUG),Gazdar(1985)的廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法(GPSG),Polland和Sag(1987)的中心詞去動(dòng)的短語(yǔ)結(jié)構(gòu)語(yǔ)法(HDPSG)等等[3][8][9][13]。本章中將要詳細(xì)論述的是模板的自動(dòng)填充算法。針對(duì)不同類型(模版)的文本,將具有不同的標(biāo)注標(biāo)準(zhǔn)。對(duì)此例原文分詞后,我們可以期望獲取如下自動(dòng)標(biāo)注的XML文檔:?xml version=”” encoding=”GB2312” ?bulletinpunctuation“/punctuationstockname東盛科技/stocknamepunctuation”/punctuationpunctuation(/punctuationstockid600771/stockidpunctuation)/punctuationsw因/swna刊登/nana公告/napuncutation,/punctuationdate9月11日上午/datesw停牌/swlength半天/lengthpunctuation。我們就可以嘗試根據(jù)模板的屬性槽來(lái)定義詞類。出于這種想法,我們希望能夠在此采用一個(gè)直接標(biāo)注包含語(yǔ)義信息的詞類自動(dòng)標(biāo)注子系統(tǒng)。例如,可以對(duì)詞性進(jìn)行標(biāo)注,如名詞、動(dòng)詞、形容詞、數(shù)量詞等等;也可以對(duì)識(shí)別的命名實(shí)體(Named Entity)、專有名詞(Proper Noun)等進(jìn)行標(biāo)注,主要取決于后續(xù)處理階段的需要。經(jīng)過(guò)測(cè)試,自動(dòng)分詞的結(jié)果完全能夠滿足信息抽取的需求。因此,設(shè)想構(gòu)造一個(gè)規(guī)模較小的,能夠較好識(shí)別領(lǐng)域詞匯的小型分詞子系統(tǒng)。但是在我們的特殊領(lǐng)域的應(yīng)用系統(tǒng)中,并不需要對(duì)任意領(lǐng)域文本都能進(jìn)行準(zhǔn)確切分的能力。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來(lái),既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無(wú)詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。l 基于統(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來(lái),利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。我們可以將現(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。本章的余下部分,將對(duì)自動(dòng)分詞和文本自動(dòng)標(biāo)注的實(shí)現(xiàn)做部分介紹。圖三:簡(jiǎn)化后的信息抽取模型從圖中可以看出,處理過(guò)程的長(zhǎng)度大大縮短了。首先,縮短了處理過(guò)程路徑的長(zhǎng)度,避免了過(guò)長(zhǎng)的串行系統(tǒng)結(jié)構(gòu)可能導(dǎo)致的低查準(zhǔn)率和查全率。每種公告文本類別論述的主題比較固定,利于用抽取模板加以描述。 簡(jiǎn)化的高性能信息抽取模型在我們即將設(shè)計(jì)和實(shí)現(xiàn)的股市公告信息抽取系統(tǒng)中,希望通過(guò)縮短處理子過(guò)程的路徑長(zhǎng)度,來(lái)提高信息抽取模型的性能。第一種途徑顯然是信息抽取技術(shù)逐步發(fā)展成熟的必然途徑,但是在短期內(nèi)恐怕還難以在這一方向上取得突破性的發(fā)展。在最近一屆MUC上表現(xiàn)最好的是SRA公司的系統(tǒng)[Aone et al, 98],其所有3項(xiàng)IE指標(biāo)都是最高的。例如:假設(shè)信息抽取全過(guò)程由n個(gè)串聯(lián)子過(guò)程組成,第k個(gè)子過(guò)程的查準(zhǔn)率(或者查全率)分別為,則整個(gè)模塊的查準(zhǔn)率(或者查全率)應(yīng)為:一般而言,目前自然語(yǔ)言處理技術(shù)中雖然存在眾多不同的算法,進(jìn)行不同層次的分析處理,但其查準(zhǔn)率和查全率卻大都不是很高[17]。從某種意義上說(shuō),這些處理技術(shù)將以串行的方式運(yùn)行,即前一個(gè)步驟的處理輸出結(jié)果將作為后一步驟的輸入。第四章,實(shí)現(xiàn)與結(jié)果分析。第三章,信息抽取的關(guān)鍵算法。簡(jiǎn)介信息抽取技術(shù)的歷史和特點(diǎn),與傳統(tǒng)的NLP技術(shù)做了優(yōu)缺點(diǎn)比較。如果必要,可以對(duì)信息庫(kù)數(shù)據(jù)進(jìn)行分析。除了結(jié)合自然語(yǔ)言生成技術(shù),以自然語(yǔ)言形式生成結(jié)果外,還可以用圖表等形式輸出一些數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,這也是表示模塊的功能之一。所謂高質(zhì)量是指生成的文本與人工文本比較接近,形式多樣,而且能適應(yīng)外部應(yīng)用的變化而做相應(yīng)的調(diào)整,整個(gè)系統(tǒng)的維護(hù)性好[2]。用戶只需以自然語(yǔ)言形式輸入詢問(wèn)的問(wèn)題,該模塊即可將詢問(wèn)轉(zhuǎn)化為一系列的內(nèi)部指令,控制各模塊針對(duì)詢問(wèn)做出響應(yīng)。對(duì)該模塊的設(shè)計(jì)與實(shí)現(xiàn),是本文的重點(diǎn),將在后面進(jìn)行詳細(xì)論述。 系統(tǒng)框架結(jié)構(gòu)如上所述,該系統(tǒng)將基于信息抽取技術(shù)進(jìn)行構(gòu)建。股市公告的文本量龐大,但結(jié)構(gòu)固定、內(nèi)容單一,這正適合于計(jì)算機(jī)處理。l 多語(yǔ)種特性。l 文本量大。這為自然語(yǔ)言處理和信息抽取提供了較好的先決條件。由于股市公告文本具有以下一些特點(diǎn),故認(rèn)為采取信息抽取技術(shù)能夠大幅度提高系統(tǒng)的性能表現(xiàn)。目前,在滬深兩地上市的公司數(shù)目已達(dá)幾千家。l 與自動(dòng)摘要(Automatic Abstraction)技術(shù)的區(qū)別與傳統(tǒng)的自動(dòng)文摘(Automatic Abstraction)技術(shù)比較,信息抽取技術(shù)的應(yīng)用前景更好:自動(dòng)文摘產(chǎn)生的文摘往往質(zhì)量較低,而且容易產(chǎn)生不全面、不連貫和冗余多等等問(wèn)題;而信息抽取則針對(duì)有價(jià)值的相關(guān)領(lǐng)域的文本進(jìn)行結(jié)構(gòu)分析,其效率和質(zhì)量顯著提高,也更容易面向?qū)嶋H應(yīng)用。1998年2月在東北大學(xué)學(xué)報(bào)(自然科學(xué)版)發(fā)表了《中文信息自動(dòng)抽取》一文,介紹了中文信息抽取的概念和對(duì)一些問(wèn)題進(jìn)行了初步的探索。它還能利用機(jī)器學(xué)習(xí)機(jī)制使自身能為實(shí)現(xiàn)新功能得到訓(xùn)練和配置,并
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1