freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(參考版)

2025-07-01 01:14本頁(yè)面
  

【正文】 希望能夠以此文回報(bào)她的養(yǎng)育之恩。最后,我將我的這篇論文獻(xiàn)給我的母親。同時(shí)感謝與我一同進(jìn)行畢業(yè)設(shè)計(jì)的本科生同學(xué),鄭宇宏,周軼璐,宿季魁,陳波,傅力波。本項(xiàng)目是國(guó)家自然科學(xué)基金項(xiàng)目,在此我要特別感謝項(xiàng)目負(fù)責(zé)人盛煥燁副校長(zhǎng),感謝他給予過(guò)我的幫助。在一年的研究與實(shí)踐中,X老師為課題的順利進(jìn)行作出很多貢獻(xiàn)。在此,我向她表示最真摯的感謝。張老師治學(xué)嚴(yán)謹(jǐn)、知識(shí)淵博、誨人不倦,在學(xué)術(shù)和為人上都為我作出了榜樣。我要首先感謝我的導(dǎo)師XXX教授。當(dāng)然,仍然必要針對(duì)相應(yīng)領(lǐng)域的特征,適當(dāng)修改模型或算法。l 模型的推廣。結(jié)構(gòu)主義與功能主義的結(jié)合是目前自然語(yǔ)言處理領(lǐng)域的必然趨勢(shì),例如可以通過(guò)語(yǔ)料庫(kù)統(tǒng)計(jì)來(lái)學(xué)習(xí)抽取規(guī)則[4][6],也可以通過(guò)規(guī)則指導(dǎo)統(tǒng)計(jì)數(shù)據(jù)的應(yīng)用,等等。可以結(jié)合其它機(jī)器學(xué)習(xí)方法,提高模型參數(shù)學(xué)習(xí)的效率和質(zhì)量。l 模型參數(shù)學(xué)習(xí)。這從某些方面極大地影響到了語(yǔ)料的可信度。l 標(biāo)注質(zhì)量的提高。l 自動(dòng)標(biāo)注的實(shí)現(xiàn)。l 自動(dòng)分詞的完善??梢詷?gòu)建中間語(yǔ)匯,將抽取后的信息以獨(dú)立于語(yǔ)種的方式表述。本系統(tǒng)目前為止仍然是基于漢語(yǔ)信息抽取技術(shù)的。l 改進(jìn)了選擇模型參數(shù)的迭代算法。l 嘗試了采用基于規(guī)則的簡(jiǎn)單文本信息抽取算法。l 簡(jiǎn)單討論了小領(lǐng)域分詞子模塊的設(shè)計(jì)原則。 結(jié)果總結(jié)在基于漢語(yǔ)信息抽取模型的股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)中,已獲得的成果羅列如下:l 提出了基于漢語(yǔ)信息抽取模型的股市公告信息抽取系統(tǒng)的框架結(jié)構(gòu)和分布圖。近期其它一些研究中,已經(jīng)考慮將兩種方法有機(jī)地結(jié)合,使它們互補(bǔ)短長(zhǎng),發(fā)揮各自最佳的分析優(yōu)勢(shì)[4][6]。表六:兩種信息抽取方法的比較可見(jiàn),兩種方法在不同的應(yīng)用環(huán)境下具有不同的優(yōu)缺點(diǎn)。一旦確定規(guī)則,即可采用自動(dòng)語(yǔ)法分析器生成器(如YACC或BISON)自動(dòng)構(gòu)造分析器。分析能力相當(dāng)有限,且擴(kuò)充性差,難以分析復(fù)雜文本,準(zhǔn)確率也隨文本復(fù)雜性增加而顯著下降。對(duì)于簡(jiǎn)單文本分析效率高、準(zhǔn)確率高。兩種方法的異同及優(yōu)缺點(diǎn)比較如下:基于規(guī)則的結(jié)構(gòu)主義方法基于語(yǔ)料庫(kù)統(tǒng)計(jì)的功能主義方法抽取規(guī)則是人為總結(jié)制定的,故抽取效果很大部分取決于規(guī)則的完善性與合理性。在對(duì)公告分類(lèi)后,主要集中研究?jī)煞N類(lèi)型的公告:決議公告、財(cái)務(wù)指標(biāo)公告。硬件平臺(tái)是PIII 550MHz,RAM 128MB,HD 20GB。由于以上工具在Windows 98/NT/2000、Linux等多種操作系統(tǒng)上均可運(yùn)行,所以可以很方便地實(shí)現(xiàn)移植。該分析器是源代碼公開(kāi)的自由軟件,并通過(guò)了IBM的內(nèi)部測(cè)試。在模塊內(nèi)部的中間數(shù)據(jù)表示,均采用的是XML ,即以XML文檔的形式在各個(gè)子系統(tǒng)之間傳遞。目前使用的是Borland的JBuilder 4作為IDE。4 實(shí)現(xiàn)與結(jié)果分析 模塊實(shí)現(xiàn)情況在本模塊的實(shí)現(xiàn)中,使用到了如下一些資源,在此做簡(jiǎn)單敘述。與應(yīng)用在語(yǔ)音識(shí)別中的隱馬爾科夫模型不同,我們衡量模型質(zhì)量時(shí),并不是要求整個(gè)模型輸出某一序列的總體概率最大為最優(yōu),而是輸出該序列時(shí)所經(jīng)歷的隱路徑中最佳路徑的概率最大為最優(yōu)。算法可簡(jiǎn)單描述如下:1. 初始化:,時(shí)間t=1時(shí)處于狀態(tài)的期望值2. 迭代計(jì)算:令,其中:3. 終止條件:,其中是預(yù)先設(shè)定的閾值要在我們的系統(tǒng)中,應(yīng)用BaumWelch算法獲取模型參數(shù),需要對(duì)算法做適當(dāng)?shù)母?。目前使用較廣的處理方法是BaumWelch估計(jì)算法(或稱期望值修正法,即EM法)。,隱馬爾科夫模型可以描述為,如何確定其中的A、B和就是所謂的模型參數(shù)獲取問(wèn)題。尋找最佳狀態(tài)序列的完整過(guò)程如下所示:1. 初始化:2. 迭代計(jì)算:3. 最后計(jì)算:4. 路徑回溯(最佳狀態(tài)序列生成): 隱馬爾科夫模型的訓(xùn)練與優(yōu)化問(wèn)題上面已經(jīng)討論了隱馬爾科夫模型的最佳路徑問(wèn)題。可以用迭代法進(jìn)行計(jì)算:為了實(shí)際找到這個(gè)狀態(tài)序列,需要跟蹤使上式最大的參數(shù)變化的軌跡(對(duì)每個(gè)t和j值)。股票名稱股票編號(hào)日期中心動(dòng)詞停牌長(zhǎng)度四砂股份上海醫(yī)藥600783600849…………9月13日停牌一天圖五:HMM信息抽取示例在求解模型對(duì)應(yīng)于某一特定輸出時(shí)的最佳路徑(路徑概率最大)時(shí),采用如下Viterbi算法進(jìn)行計(jì)算。在這條最佳路徑上,各個(gè)輸出對(duì)應(yīng)的狀態(tài)就是利用隱馬爾科夫模型求得的模板填充方案。于是,對(duì)于標(biāo)注文本中的每一個(gè)關(guān)鍵標(biāo)注部分,都將有模型狀態(tài)與之對(duì)應(yīng)。我們的模型中,考慮使一個(gè)HMM對(duì)應(yīng)于一個(gè)模板,模型中的各個(gè)狀態(tài)分別對(duì)應(yīng)到該模板的各個(gè)屬性槽。表示為 ,其中是第i個(gè)待填屬性槽。2. 填槽物(slot filler):是用來(lái)填充模板構(gòu)成模板實(shí)例的語(yǔ)言單位(通常是一個(gè)單詞或短語(yǔ)),通過(guò)自動(dòng)文本標(biāo)注獲得。先引入幾個(gè)概念:1. 屬性槽(attribute slot):表示為s。 隱馬爾科夫模型(HMM)在信息抽取上的應(yīng)用在我們的問(wèn)題中,考慮的是如何應(yīng)用隱馬爾科夫模型,從自動(dòng)標(biāo)注后的文本中抽取相關(guān)信息到對(duì)應(yīng)模板的合適屬性槽中。6. :初始狀態(tài)概率分布。4. :狀態(tài)轉(zhuǎn)移概率矩陣。2. M:每個(gè)狀態(tài)可能輸出的觀察符號(hào)的數(shù)目。對(duì)于隱馬爾科夫模型的應(yīng)用,在語(yǔ)音識(shí)別領(lǐng)域已經(jīng)取得了很好的成效,在信息抽取領(lǐng)域的應(yīng)用也正在不斷的嘗試和推廣中。隱馬爾科夫過(guò)程是一種雙重隨機(jī)過(guò)程。然而,這種模型限制條件過(guò)于嚴(yán)格,在許多實(shí)際問(wèn)題中無(wú)法應(yīng)用。顯然,它可被視為一個(gè)隨機(jī)有限狀態(tài)自動(dòng)機(jī),其每個(gè)狀態(tài)都代表一個(gè)可觀察的事件,之間的轉(zhuǎn)換都對(duì)應(yīng)一定的概率。 隱馬爾科夫模型(HMM)簡(jiǎn)介l 馬爾科夫(Markov)過(guò)程的定義一般地,考慮只取有限個(gè)(或可數(shù)個(gè))值的隨機(jī)過(guò)程:若,就說(shuō)過(guò)程在n時(shí)刻處于狀態(tài)i,假設(shè)每當(dāng)過(guò)程處于狀態(tài)i,則過(guò)程在下一時(shí)刻處于狀態(tài)j的概率為一定值,即有:這樣的隨機(jī)過(guò)程稱為Markov鏈(給定過(guò)去的狀態(tài)和現(xiàn)在的狀態(tài),將來(lái)的狀態(tài)的條件分布獨(dú)立于過(guò)去的狀態(tài),只依賴于現(xiàn)在的狀態(tài)——這就是Markov性)。統(tǒng)計(jì)的分析方法多種多樣,近期研究的熱點(diǎn)主要集中于由隨機(jī)過(guò)程發(fā)展而來(lái)的理論和方法。如果我們把新興學(xué)科如社會(huì)語(yǔ)言學(xué)、語(yǔ)用學(xué)、會(huì)話分析、語(yǔ)篇分析等都劃入功能主義(因?yàn)檫@些都是研究語(yǔ)言的各種功能的),那么功能主義大有取代結(jié)構(gòu)主義成為語(yǔ)言學(xué)主流之勢(shì)。功能主義相比之下處于劣勢(shì)、守勢(shì)。現(xiàn)代語(yǔ)言學(xué)研究已經(jīng)形成兩個(gè)大的陣營(yíng),結(jié)構(gòu)主義和功能主義(或稱為理性主義和功能主義)。語(yǔ)料庫(kù)是經(jīng)過(guò)處理的大量領(lǐng)域文本的集合,通過(guò)對(duì)語(yǔ)料庫(kù)中的文本進(jìn)行統(tǒng)計(jì)分析,可以獲取該類(lèi)文本的某些整體特征或規(guī)律。傳統(tǒng)語(yǔ)言學(xué)給我們積累了豐富的語(yǔ)言實(shí)例,但對(duì)于語(yǔ)言規(guī)律的把握,人類(lèi)至今仍未找到最好的方法。在規(guī)則方法即理性主義方法屢受挫折的事實(shí)面前,語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展促使計(jì)算語(yǔ)言學(xué)家們?cè)絹?lái)越重視數(shù)理統(tǒng)計(jì)在語(yǔ)言學(xué)中的應(yīng)用。下一節(jié)就將討論采用統(tǒng)計(jì)方法來(lái)設(shè)計(jì)信息抽取模塊中的模板匹配算法?;谝?guī)則的方法在處理自然語(yǔ)言時(shí)遇到的困難,是分析形式文法時(shí)的難度無(wú)法相比的。但是這樣的擴(kuò)充畢竟還是基于原有LR分析法進(jìn)行的,擴(kuò)充的幅度有限。如果在某些情況下添加若干特殊擴(kuò)充分析動(dòng)做,將對(duì)增強(qiáng)分析能力有所幫助[14][16]。其一,對(duì)LR分析法進(jìn)行擴(kuò)充。不僅如此,分析表中還很容易出現(xiàn)沖突項(xiàng),這一方面是由于自然語(yǔ)言中普遍存在著文法的二義性,另一方面是由于自然語(yǔ)言中存在著很大的自由性,語(yǔ)言意義的表達(dá)并非完全受限于固定的文法規(guī)則,這也是自然語(yǔ)言和形式文法的最大區(qū)別。隨著公告文本的復(fù)雜化,規(guī)則數(shù)目將大大增加。 基于規(guī)則信息抽取面臨的嚴(yán)峻問(wèn)題對(duì)于停牌公告這樣語(yǔ)法極其簡(jiǎn)單的公告而言,采用簡(jiǎn)單的分析規(guī)則已經(jīng)足以完成信息抽取任務(wù)。conjun未caeNsn、sidN上海醫(yī)藥600849sid600783圖四:分析樹(shù)示例在獲取分析樹(shù)的結(jié)果上,可以通過(guò)對(duì)樹(shù)的遍歷來(lái)填充模板。 四砂股份60078上海醫(yī)藥600849因未刊登股東大會(huì)決議公告,9月13日停牌一天。ACTIONGOTOSnSidConjvlendateYearCaeCommaFstpun$SNNSCD0S41231ACC2R4R53S6S754S8R3R35S9S106S117S4128R4R49S14S151310R8R811R7R712R6R613S1614R915S1716S1817R1018S1919R2表三:LR分析表利用以上分析表,我們實(shí)現(xiàn)了機(jī)與簡(jiǎn)單語(yǔ)法規(guī)則的信息抽取。(1)S NS C ma D v l
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1