freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-wenkub.com

2025-06-25 01:14 本頁面
   

【正文】 十年來,她獨自一人撫養(yǎng)我長大,其中艱辛自不用說。我還要感謝本實驗室的幾位研究生同學,他們是胡睿(已畢業(yè)),房一飛,李雪蕾,孔祥勇,他們都曾幫助過我。我還要感謝XX老師。在整整一年的學習、科研中,X老師給予了我極大的關(guān)心和幫助。本文論述了股市公告信息抽取系統(tǒng)的設(shè)計和實現(xiàn),但是其中的絕大多數(shù)方法可以方便地擴展到其他應(yīng)用領(lǐng)域。l 兩種信息抽取方法的結(jié)合。因此需要制定更為明確清晰的標注標準,加上適當?shù)臉俗⒐ぞ撸梢愿咝诗@取更高質(zhì)量的語料庫。自動標注的實現(xiàn)中,又將包括許多復(fù)雜的淺層自然語言處理技術(shù),如命名實體的識別[18]、指代分析,等等[5]。具體研究仍有待于進一步的討論。l 分析了兩種信息抽取方法的異同及優(yōu)缺點 遺留的問題目前為止,本信息抽取系統(tǒng)的設(shè)計與實現(xiàn)過程中,發(fā)現(xiàn)了以下一些問題,有待解決:l 多語種的問題。l 對大量領(lǐng)域文本做了人工標注,初步夠建了領(lǐng)域語料庫。這也是計算語言學發(fā)展的必然趨勢,結(jié)構(gòu)主義和功能主義必將走向統(tǒng)一。需要大量訓(xùn)練才能獲取模型參數(shù),且不能保證獲取最佳值,必要時需要人工調(diào)整。對于簡單文本分析效率和準確率都相對較低。對語料做關(guān)鍵詞統(tǒng)計后,得到的結(jié)果如下:關(guān)鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率決議82決議公告71董事會89監(jiān)事會33董、監(jiān)事會28公告23董事9董、監(jiān)事5監(jiān)事3股東大會21總共語料數(shù)量(篇)93表四:決議公告語料分析部分結(jié)果關(guān)鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率財務(wù)指標415每股凈資產(chǎn)404凈資產(chǎn)收益率402每股收益402調(diào)整后每股凈資產(chǎn)398每股凈資產(chǎn)404每股收益402單位基金收益8單位基金資產(chǎn)凈值3期末基金資產(chǎn)凈值3基金資產(chǎn)凈值收益率3期末基金資產(chǎn)總值3單位基金凈收益3單位基金凈資產(chǎn)8總共語料數(shù)量(篇)415表五:財務(wù)指數(shù)公告語料分析部分結(jié)果 兩種信息抽取方法的比較在本模塊的設(shè)計和實現(xiàn)中,前后采用了基于規(guī)則的結(jié)構(gòu)主義方法和基于語料庫統(tǒng)計的功能主義方法。開發(fā)調(diào)試操作系統(tǒng)平臺是Windows 2000 Professional。為了使用Java方便地處理XML文檔,使用了XML4J 。由于考慮到本系統(tǒng)將能夠方便地掛接在Internet上,要求具有較好的跨平臺能力,故決定采用Java做為開發(fā)工具。最主要的修改是上述算法中的終止條件。到目前為止,對于隱馬爾科夫模型的參數(shù)選擇和優(yōu)化問題,尚沒有什么分析算法可以得到最優(yōu)解??梢越柚诰仃噥韺崿F(xiàn)這一點。圖五是HMM求解模板填充問題的示例圖。而將待抽取的標注文本視為該模型的一種輸出結(jié)果。3. 模板(template):是用來表示結(jié)構(gòu)化數(shù)據(jù)的待填屬性槽的序列。為了完成這個目的,有必要對問題進行重新描述。5. :觀察符號的概率分布集。l 隱馬爾科夫模型(HMM)的模型參數(shù)1. N:模型狀態(tài)數(shù)。于是人們將這種模型加以推廣,提出了隱馬爾科夫模型(HMM)。一個馬爾科夫模型(MM)M就是一個Markov鏈加上一個轉(zhuǎn)移概率矩陣。語料庫和語料庫語言學可以說是兩陣對壘的天平上的一個舉足輕重的砝碼。多年來結(jié)構(gòu)主義一直占上風,西方學者稱為“語言學主流”(mainstream linguistics)。但是,數(shù)理統(tǒng)計方法已經(jīng)發(fā)展的比較成熟,值得信賴。 統(tǒng)計學方法 基于語料庫的統(tǒng)計語言學方法近年來,基于語料庫分析的自然語言處理方法受到了越來越多的計算語言學家的重視和應(yīng)用。其二,采用非基于規(guī)則的分析方法。傳統(tǒng)的LR分析法通常只有移進(Shift)和歸約(Reduce)兩個動作。而隨著規(guī)則的增加,如果仍然采用LR分析法分析,分析表的規(guī)模(行數(shù))將以指數(shù)級速度擴充。此步驟顯然比較簡單,在此不再贅述。由于在根據(jù)分析表分析過程中,自然地構(gòu)造起了一棵語法分析樹,圖四中給出一個例句的分析樹。例如[14],制定以下若干規(guī)則,來對股市停牌公告進行抽取。如果逐層分析語法關(guān)系,可能相當困難。這一方面是出于性能考慮,信息抽取系統(tǒng)往往要對大量文本進行高效率的處理,另一方面則是考慮到信息抽取系統(tǒng)往往不需要完全明晰一片文檔的內(nèi)容,而只需直起大概即可。比較著名的如Kaplan和Bresnan(1982)的詞匯功能語法(LFG)、Shieber(1984)的PARTII,Kay(1985)的功能合一語法(FUG),Gazdar(1985)的廣義短語結(jié)構(gòu)語法(GPSG),Polland和Sag(1987)的中心詞去動的短語結(jié)構(gòu)語法(HDPSG)等等[3][8][9][13]。本章中將要詳細論述的是模板的自動填充算法。針對不同類型(模版)的文本,將具有不同的標注標準。對此例原文分詞后,我們可以期望獲取如下自動標注的XML文檔:?xml version=”” encoding=”GB2312” ?bulletinpunctuation“/punctuationstockname東盛科技/stocknamepunctuation”/punctuationpunctuation(/punctuationstockid600771/stockidpunctuation)/punctuationsw因/swna刊登/nana公告/napuncutation,/punctuationdate9月11日上午/datesw停牌/swlength半天/lengthpunctuation。我們就可以嘗試根據(jù)模板的屬性槽來定義詞類。出于這種想法,我們希望能夠在此采用一個直接標注包含語義信息的詞類自動標注子系統(tǒng)。例如,可以對詞性進行標注,如名詞、動詞、形容詞、數(shù)量詞等等;也可以對識別的命名實體(Named Entity)、專有名詞(Proper Noun)等進行標注,主要取決于后續(xù)處理階段的需要。經(jīng)過測試,自動分詞的結(jié)果完全能夠滿足信息抽取的需求。因此,設(shè)想構(gòu)造一個規(guī)模較小的,能夠較好識別領(lǐng)域詞匯的小型分詞子系統(tǒng)。但是在我們的特殊領(lǐng)域的應(yīng)用系統(tǒng)中,并不需要對任意領(lǐng)域文本都能進行準確切分的能力。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。l 基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。另一種方法是將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而極大地提高切分的準確率。但這種精度還遠遠不能滿足實際的需要。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。我們可以將現(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。本章的余下部分,將對自動分詞和文本自動標注的實現(xiàn)做部分介紹。圖三:簡化后的信息抽取模型從圖中可以看出,處理過程的長度大大縮短了。首先,縮短了處理過程路徑的長度,避免了過長的串行系統(tǒng)結(jié)構(gòu)可能導(dǎo)致的低查準率和查全率。每種公告文本類別論述的主題比較固定,利于用抽取模板加以描述。 簡化的高性能信息抽取模型在我們即將設(shè)計和實現(xiàn)的股市公告信息抽取系統(tǒng)中,希望通過縮短處理子過程的路徑長度,來提高信息抽取模型的性能。第一種途徑顯然是信息抽取技術(shù)逐步發(fā)展成熟的必然途徑,但是在短期內(nèi)恐怕還難以在這一方向上取得突破性的發(fā)展。在最近一屆MUC上表現(xiàn)最好的是SRA公司的系統(tǒng)[Aone et al, 98],其所有3項IE指標都是最高的。例如:假設(shè)信息抽取全過程由n個串聯(lián)子過程組成,第k個子過程的查準率(或者查全率)分別為,則整個模塊的查準率(或者查全率)應(yīng)為:一般而言,目前自然語言處理技術(shù)中雖然存在眾多不同的算法,進行不同層次的分析處理,但其查準率和查全率卻大都不是很高[17]。從某種意義上說,這些處理技術(shù)將以串行的方式運行,即前一個步驟的處理輸出結(jié)果將作為后一步驟的輸入。第四章,實現(xiàn)與結(jié)果分析。第三章,信息抽取的關(guān)鍵算法。簡介信息抽取技術(shù)的歷史和特點,與傳統(tǒng)的NLP技術(shù)做了優(yōu)缺點比較。如果必要,可以對信息庫數(shù)據(jù)進行分析。除了結(jié)合自然語言生成技術(shù),以自然語言形式生成結(jié)果外,還可以用圖表等形式輸出一些數(shù)據(jù)的統(tǒng)計結(jié)果,這也是表示模塊的功能之一。所謂高質(zhì)量是指生成的文本與人工文本比較接近,形式多樣,而且能適應(yīng)外部應(yīng)用的變化而做相應(yīng)的調(diào)整,整個系統(tǒng)的維護性好[2]。用戶只需以自然語言形式輸入詢問的問題,該模塊即可將詢問轉(zhuǎn)化為一系列的內(nèi)部指令,控制各模塊針對詢問做出響應(yīng)。對該模塊的設(shè)計與實現(xiàn),是本文的重點,將在后面進行詳細論述。 系統(tǒng)框架結(jié)構(gòu)如上所述,該系統(tǒng)將基于信息抽取技術(shù)進行構(gòu)建。股市公告的文本量龐大,但結(jié)構(gòu)固定、內(nèi)容單一,這正適合于計算機處理。l 多語種特性。l 文本量大。這為自然語言處理和信息抽取提供了較好的先決條件。由于股市公告文本具有以下一些特點,故認為采取信息抽取技術(shù)能夠大幅度提高系統(tǒng)的性能表現(xiàn)。目前,在滬深兩地上市的公司數(shù)目已達幾千家。l 與自動摘要(Automatic Abstraction)技術(shù)的區(qū)別與傳統(tǒng)的自動文摘(Automatic Abstraction)技術(shù)比較,信息抽取技術(shù)的應(yīng)用前景更好:自動文摘產(chǎn)生的文摘往往質(zhì)量較低,而且容易產(chǎn)生不全面、不連貫和冗余多等等問題;而信息抽取則針對有價值的相關(guān)領(lǐng)域的文本進行結(jié)構(gòu)分析,其效率和質(zhì)量顯著提高,也更容易面向?qū)嶋H應(yīng)用。1998年2月在東北大學學報(自然科學版)發(fā)表了《中文信息自動抽取》一文,介紹了中文信息抽取的概念和對一些問題進行了初步的探索。它還能利用機器學習機制使自身能為實現(xiàn)新功能得到訓(xùn)練和配置,并
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1