freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-文庫(kù)吧在線文庫(kù)

  

【正文】 tion。本章中將要詳細(xì)論述的是模板的自動(dòng)填充算法。這一方面是出于性能考慮,信息抽取系統(tǒng)往往要對(duì)大量文本進(jìn)行高效率的處理,另一方面則是考慮到信息抽取系統(tǒng)往往不需要完全明晰一片文檔的內(nèi)容,而只需直起大概即可。例如[14],制定以下若干規(guī)則,來(lái)對(duì)股市停牌公告進(jìn)行抽取。此步驟顯然比較簡(jiǎn)單,在此不再贅述。傳統(tǒng)的LR分析法通常只有移進(jìn)(Shift)和歸約(Reduce)兩個(gè)動(dòng)作。 統(tǒng)計(jì)學(xué)方法 基于語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言學(xué)方法近年來(lái),基于語(yǔ)料庫(kù)分析的自然語(yǔ)言處理方法受到了越來(lái)越多的計(jì)算語(yǔ)言學(xué)家的重視和應(yīng)用。多年來(lái)結(jié)構(gòu)主義一直占上風(fēng),西方學(xué)者稱為“語(yǔ)言學(xué)主流”(mainstream linguistics)。一個(gè)馬爾科夫模型(MM)M就是一個(gè)Markov鏈加上一個(gè)轉(zhuǎn)移概率矩陣。l 隱馬爾科夫模型(HMM)的模型參數(shù)1. N:模型狀態(tài)數(shù)。為了完成這個(gè)目的,有必要對(duì)問(wèn)題進(jìn)行重新描述。而將待抽取的標(biāo)注文本視為該模型的一種輸出結(jié)果。可以借助于矩陣來(lái)實(shí)現(xiàn)這一點(diǎn)。最主要的修改是上述算法中的終止條件。為了使用Java方便地處理XML文檔,使用了XML4J 。對(duì)語(yǔ)料做關(guān)鍵詞統(tǒng)計(jì)后,得到的結(jié)果如下:關(guān)鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率決議82決議公告71董事會(huì)89監(jiān)事會(huì)33董、監(jiān)事會(huì)28公告23董事9董、監(jiān)事5監(jiān)事3股東大會(huì)21總共語(yǔ)料數(shù)量(篇)93表四:決議公告語(yǔ)料分析部分結(jié)果關(guān)鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率財(cái)務(wù)指標(biāo)415每股凈資產(chǎn)404凈資產(chǎn)收益率402每股收益402調(diào)整后每股凈資產(chǎn)398每股凈資產(chǎn)404每股收益402單位基金收益8單位基金資產(chǎn)凈值3期末基金資產(chǎn)凈值3基金資產(chǎn)凈值收益率3期末基金資產(chǎn)總值3單位基金凈收益3單位基金凈資產(chǎn)8總共語(yǔ)料數(shù)量(篇)415表五:財(cái)務(wù)指數(shù)公告語(yǔ)料分析部分結(jié)果 兩種信息抽取方法的比較在本模塊的設(shè)計(jì)和實(shí)現(xiàn)中,前后采用了基于規(guī)則的結(jié)構(gòu)主義方法和基于語(yǔ)料庫(kù)統(tǒng)計(jì)的功能主義方法。需要大量訓(xùn)練才能獲取模型參數(shù),且不能保證獲取最佳值,必要時(shí)需要人工調(diào)整。l 對(duì)大量領(lǐng)域文本做了人工標(biāo)注,初步夠建了領(lǐng)域語(yǔ)料庫(kù)。具體研究仍有待于進(jìn)一步的討論。因此需要制定更為明確清晰的標(biāo)注標(biāo)準(zhǔn),加上適當(dāng)?shù)臉?biāo)注工具,可以更高效率獲取更高質(zhì)量的語(yǔ)料庫(kù)。本文論述了股市公告信息抽取系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),但是其中的絕大多數(shù)方法可以方便地?cái)U(kuò)展到其他應(yīng)用領(lǐng)域。我還要感謝XX老師。十年來(lái),她獨(dú)自一人撫養(yǎng)我長(zhǎng)大,其中艱辛自不用說(shuō)。我還要感謝本實(shí)驗(yàn)室的幾位研究生同學(xué),他們是胡睿(已畢業(yè)),房一飛,李雪蕾,孔祥勇,他們都曾幫助過(guò)我。在整整一年的學(xué)習(xí)、科研中,X老師給予了我極大的關(guān)心和幫助。l 兩種信息抽取方法的結(jié)合。自動(dòng)標(biāo)注的實(shí)現(xiàn)中,又將包括許多復(fù)雜的淺層自然語(yǔ)言處理技術(shù),如命名實(shí)體的識(shí)別[18]、指代分析,等等[5]。l 分析了兩種信息抽取方法的異同及優(yōu)缺點(diǎn) 遺留的問(wèn)題目前為止,本信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)過(guò)程中,發(fā)現(xiàn)了以下一些問(wèn)題,有待解決:l 多語(yǔ)種的問(wèn)題。這也是計(jì)算語(yǔ)言學(xué)發(fā)展的必然趨勢(shì),結(jié)構(gòu)主義和功能主義必將走向統(tǒng)一。對(duì)于簡(jiǎn)單文本分析效率和準(zhǔn)確率都相對(duì)較低。開(kāi)發(fā)調(diào)試操作系統(tǒng)平臺(tái)是Windows 2000 Professional。由于考慮到本系統(tǒng)將能夠方便地掛接在Internet上,要求具有較好的跨平臺(tái)能力,故決定采用Java做為開(kāi)發(fā)工具。到目前為止,對(duì)于隱馬爾科夫模型的參數(shù)選擇和優(yōu)化問(wèn)題,尚沒(méi)有什么分析算法可以得到最優(yōu)解。圖五是HMM求解模板填充問(wèn)題的示例圖。3. 模板(template):是用來(lái)表示結(jié)構(gòu)化數(shù)據(jù)的待填屬性槽的序列。5. :觀察符號(hào)的概率分布集。于是人們將這種模型加以推廣,提出了隱馬爾科夫模型(HMM)。語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)可以說(shuō)是兩陣對(duì)壘的天平上的一個(gè)舉足輕重的砝碼。但是,數(shù)理統(tǒng)計(jì)方法已經(jīng)發(fā)展的比較成熟,值得信賴。其二,采用非基于規(guī)則的分析方法。而隨著規(guī)則的增加,如果仍然采用LR分析法分析,分析表的規(guī)模(行數(shù))將以指數(shù)級(jí)速度擴(kuò)充。由于在根據(jù)分析表分析過(guò)程中,自然地構(gòu)造起了一棵語(yǔ)法分析樹(shù),圖四中給出一個(gè)例句的分析樹(shù)。如果逐層分析語(yǔ)法關(guān)系,可能相當(dāng)困難。比較著名的如Kaplan和Bresnan(1982)的詞匯功能語(yǔ)法(LFG)、Shieber(1984)的PARTII,Kay(1985)的功能合一語(yǔ)法(FUG),Gazdar(1985)的廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法(GPSG),Polland和Sag(1987)的中心詞去動(dòng)的短語(yǔ)結(jié)構(gòu)語(yǔ)法(HDPSG)等等[3][8][9][13]。針對(duì)不同類型(模版)的文本,將具有不同的標(biāo)注標(biāo)準(zhǔn)。我們就可以嘗試根據(jù)模板的屬性槽來(lái)定義詞類。例如,可以對(duì)詞性進(jìn)行標(biāo)注,如名詞、動(dòng)詞、形容詞、數(shù)量詞等等;也可以對(duì)識(shí)別的命名實(shí)體(Named Entity)、專有名詞(Proper Noun)等進(jìn)行標(biāo)注,主要取決于后續(xù)處理階段的需要。因此,設(shè)想構(gòu)造一個(gè)規(guī)模較小的,能夠較好識(shí)別領(lǐng)域詞匯的小型分詞子系統(tǒng)。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來(lái),既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無(wú)詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。l 基于統(tǒng)計(jì)的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來(lái),利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。本章的余下部分,將對(duì)自動(dòng)分詞和文本自動(dòng)標(biāo)注的實(shí)現(xiàn)做部分介紹。首先,縮短了處理過(guò)程路徑的長(zhǎng)度,避免了過(guò)長(zhǎng)的串行系統(tǒng)結(jié)構(gòu)可能導(dǎo)致的低查準(zhǔn)率和查全率。 簡(jiǎn)化的高性能信息抽取模型在我們即將設(shè)計(jì)和實(shí)現(xiàn)的股市公告信息抽取系統(tǒng)中,希望通過(guò)縮短處理子過(guò)程的路徑長(zhǎng)度,來(lái)提高信息抽取模型的性能。在最近一屆MUC上表現(xiàn)最好的是SRA公司的系統(tǒng)[Aone et al, 98],其所有3項(xiàng)IE指標(biāo)都是最高的。從某種意義上說(shuō),這些處理技術(shù)將以串行的方式運(yùn)行,即前一個(gè)步驟的處理輸出結(jié)果將作為后一步驟的輸入。第三章,信息抽取的關(guān)鍵算法。如果必要,可以對(duì)信息庫(kù)數(shù)據(jù)進(jìn)行分析。所謂高質(zhì)量是指生成的文本與人工文本比較接近,形式多樣,而且能適應(yīng)外部應(yīng)用的變化而做相應(yīng)的調(diào)整,整個(gè)系統(tǒng)的維護(hù)性好[2]。對(duì)該模塊的設(shè)計(jì)與實(shí)現(xiàn),是本文的重點(diǎn),將在后面進(jìn)行詳細(xì)論述。股市公告的文本量龐大,但結(jié)構(gòu)固定、內(nèi)容單一,這正適合于計(jì)算機(jī)處理。l 文本量大。由于股市公告文本具有以下一些特點(diǎn),故認(rèn)為采取信息抽取技術(shù)能夠大幅度提高系統(tǒng)的性能表現(xiàn)。l 與自動(dòng)摘要(Automatic Abstraction)技術(shù)的區(qū)別與傳統(tǒng)的自動(dòng)文摘(Automatic Abstraction)技術(shù)比較,信息抽取技術(shù)的應(yīng)用前景更好:自動(dòng)文摘產(chǎn)生的文摘往往質(zhì)量較低,而且容易產(chǎn)生不全面、不連貫和冗余多等等問(wèn)題;而信息抽取則針對(duì)有價(jià)值的相關(guān)領(lǐng)域的文本進(jìn)行結(jié)構(gòu)分析,其效率和質(zhì)量顯著提高,也更容易面向?qū)嶋H應(yīng)用。它還能利用機(jī)器學(xué)習(xí)機(jī)制使自身能為實(shí)現(xiàn)新功能得到訓(xùn)練和配置,并能適應(yīng)所需的信息數(shù)量和各種文檔長(zhǎng)度。使各種所開(kāi)發(fā)的工具具有即插即用的性能,增加軟件的共享程度。分解的語(yǔ)言處理使此系統(tǒng)能夠處理大量的與專業(yè)領(lǐng)域無(wú)關(guān)的句法結(jié)構(gòu),以致于與專業(yè)領(lǐng)域相關(guān)的語(yǔ)義和語(yǔ)用處理能被應(yīng)用到相當(dāng)大部分的語(yǔ)言結(jié)構(gòu)上。除了場(chǎng)景模板(scenario)任務(wù)以外,名稱項(xiàng)、指同項(xiàng)和模板元素(template element)信息抽取任務(wù)均與特定專業(yè)領(lǐng)域無(wú)關(guān)。l MUC(Message Understanding Conference)是一個(gè)ARPA資助的、為推動(dòng)IE技術(shù)發(fā)展的一個(gè)重要的系列工程。l ATRANS 系統(tǒng)ATRANS 系統(tǒng)是早在1981年由Cowie研究出來(lái)關(guān)于動(dòng)植物正規(guī)結(jié)構(gòu)描述數(shù)據(jù)庫(kù)的系統(tǒng)及其商用化產(chǎn)品。而其中,信息的獲取是三個(gè)步驟的開(kāi)端,在信息技術(shù)領(lǐng)域中具有尤其重要的地位。將結(jié)構(gòu)松散的自然語(yǔ)言信息,通過(guò)抽取轉(zhuǎn)為結(jié)構(gòu)嚴(yán)謹(jǐn)、語(yǔ)義明確的表現(xiàn)形式,利用計(jì)算機(jī)進(jìn)行高效存儲(chǔ)并加以利用。FRUMP系統(tǒng)是一個(gè)面向語(yǔ)義的系統(tǒng),采用了一個(gè)特定專業(yè)領(lǐng)域的事件描述腳本知識(shí)庫(kù)。所抽取的信息包括合資企業(yè)的合資者、合資公司的名稱、所有權(quán)和資本以及預(yù)期的活動(dòng),或者微電子芯片的制作活動(dòng)的性質(zhì)和狀態(tài)等有關(guān)項(xiàng)。訓(xùn)練用的文檔專業(yè)領(lǐng)域是關(guān)于飛機(jī)墜毀報(bào)道,而測(cè)試用的文檔專業(yè)領(lǐng)域是關(guān)于發(fā)射事件報(bào)道。這些應(yīng)用主要是文本檢測(cè)(定位包含某一信息類型的文本)和信息抽取(定位文本中的特定信息)。cken Information Extraction System)系統(tǒng)是一個(gè)聯(lián)機(jī)的德語(yǔ)文擋信息抽取智能系統(tǒng)。國(guó)內(nèi)對(duì)涉及中文和其他語(yǔ)種的多語(yǔ)種信息抽取技術(shù)還未見(jiàn)報(bào)道。每天在兩地市場(chǎng)公布的股市公告少則幾十條,多則百余條,文本量較大。l 格式規(guī)整。股票市場(chǎng)使金融的重要組成部分,而在全球金融一體化的今天,世界各大證券市場(chǎng)之間的息息相關(guān)。但是為了實(shí)現(xiàn)真正可用的應(yīng)用系統(tǒng),還需要其它一些模塊的進(jìn)行協(xié)同工作。結(jié)果表示模塊,是將查詢結(jié)果以用戶易于理解的方式進(jìn)行表示的模塊。 系統(tǒng)分布結(jié)構(gòu)RobotINTERNET信息抽取信息庫(kù)XML數(shù)據(jù)庫(kù)預(yù)處理數(shù)據(jù)分析(可選)查詢分析查詢界面結(jié)果表示圖二給出了系統(tǒng)的整體分布圖。提出SBIES的應(yīng)用背景,介紹整體結(jié)構(gòu)框架和模塊分布情況。將給出部分統(tǒng)計(jì)數(shù)據(jù)和結(jié)果總結(jié)。通常在60%~90%之間不等。而第二種途徑卻是目前可能做到的。另一方面,各類公告文本的格式相對(duì)簡(jiǎn)單、固定。一篇中文文檔一般只需經(jīng)過(guò)分詞處理、自動(dòng)標(biāo)注和模板填充三個(gè)步驟即可完成信息抽取。l 基于字符串匹配的分詞方法這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1