freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語股市公告信息抽取系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-資料下載頁

2025-06-28 01:14本頁面
  

【正文】 ,初始時刻由用戶給出各參數(shù)的經(jīng)驗估計值,通過不斷迭代,使個參數(shù)逐漸趨向更為合理的較優(yōu)值。算法可簡單描述如下:1. 初始化:,時間t=1時處于狀態(tài)的期望值2. 迭代計算:令,其中:3. 終止條件:,其中是預先設定的閾值要在我們的系統(tǒng)中,應用BaumWelch算法獲取模型參數(shù),需要對算法做適當?shù)母?。最主要的修改是上述算法中的終止條件。與應用在語音識別中的隱馬爾科夫模型不同,我們衡量模型質(zhì)量時,并不是要求整個模型輸出某一序列的總體概率最大為最優(yōu),而是輸出該序列時所經(jīng)歷的隱路徑中最佳路徑的概率最大為最優(yōu)。所以,在第三步應該改為:終止條件:,為閾值。4 實現(xiàn)與結(jié)果分析 模塊實現(xiàn)情況在本模塊的實現(xiàn)中,使用到了如下一些資源,在此做簡單敘述。由于考慮到本系統(tǒng)將能夠方便地掛接在Internet上,要求具有較好的跨平臺能力,故決定采用Java做為開發(fā)工具。目前使用的是Borland的JBuilder 4作為IDE。使用的數(shù)據(jù)庫系統(tǒng)是IBM的DB2 7通用數(shù)據(jù)庫系統(tǒng)。在模塊內(nèi)部的中間數(shù)據(jù)表示,均采用的是XML ,即以XML文檔的形式在各個子系統(tǒng)之間傳遞。為了使用Java方便地處理XML文檔,使用了XML4J 。該分析器是源代碼公開的自由軟件,并通過了IBM的內(nèi)部測試。此分析器目前支持XML Schema、DOM DOM SAX SAX 2標準API,是公認的功能完善、性能可靠的Java語言XML分析器。由于以上工具在Windows 98/NT/2000、Linux等多種操作系統(tǒng)上均可運行,所以可以很方便地實現(xiàn)移植。開發(fā)調(diào)試操作系統(tǒng)平臺是Windows 2000 Professional。硬件平臺是PIII 550MHz,RAM 128MB,HD 20GB。經(jīng)過對人工分詞標注的語料庫的單詞統(tǒng)計,共獲得領域單詞1995個。在對公告分類后,主要集中研究兩種類型的公告:決議公告、財務指標公告。對語料做關鍵詞統(tǒng)計后,得到的結(jié)果如下:關鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率決議82決議公告71董事會89監(jiān)事會33董、監(jiān)事會28公告23董事9董、監(jiān)事5監(jiān)事3股東大會21總共語料數(shù)量(篇)93表四:決議公告語料分析部分結(jié)果關鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率財務指標415每股凈資產(chǎn)404凈資產(chǎn)收益率402每股收益402調(diào)整后每股凈資產(chǎn)398每股凈資產(chǎn)404每股收益402單位基金收益8單位基金資產(chǎn)凈值3期末基金資產(chǎn)凈值3基金資產(chǎn)凈值收益率3期末基金資產(chǎn)總值3單位基金凈收益3單位基金凈資產(chǎn)8總共語料數(shù)量(篇)415表五:財務指數(shù)公告語料分析部分結(jié)果 兩種信息抽取方法的比較在本模塊的設計和實現(xiàn)中,前后采用了基于規(guī)則的結(jié)構主義方法和基于語料庫統(tǒng)計的功能主義方法。兩種方法的異同及優(yōu)缺點比較如下:基于規(guī)則的結(jié)構主義方法基于語料庫統(tǒng)計的功能主義方法抽取規(guī)則是人為總結(jié)制定的,故抽取效果很大部分取決于規(guī)則的完善性與合理性。抽取規(guī)則隱含于HMM的模型參數(shù)中,通過語料庫訓練模型的而得,故抽取效果主要取決于語料庫的文本容量和標注質(zhì)量。對于簡單文本分析效率高、準確率高。對于簡單文本分析效率和準確率都相對較低。分析能力相當有限,且擴充性差,難以分析復雜文本,準確率也隨文本復雜性增加而顯著下降。具有較強的可擴充性,只要訓練獲取合適的模型參數(shù),即可對更復雜的文本類型進行抽取,而準確率仍有一定的保障。一旦確定規(guī)則,即可采用自動語法分析器生成器(如YACC或BISON)自動構造分析器。需要大量訓練才能獲取模型參數(shù),且不能保證獲取最佳值,必要時需要人工調(diào)整。表六:兩種信息抽取方法的比較可見,兩種方法在不同的應用環(huán)境下具有不同的優(yōu)缺點。所以應該根據(jù)需要選擇合適的方法。近期其它一些研究中,已經(jīng)考慮將兩種方法有機地結(jié)合,使它們互補短長,發(fā)揮各自最佳的分析優(yōu)勢[4][6]。這也是計算語言學發(fā)展的必然趨勢,結(jié)構主義和功能主義必將走向統(tǒng)一。 結(jié)果總結(jié)在基于漢語信息抽取模型的股市公告信息抽取系統(tǒng)的設計與實現(xiàn)中,已獲得的成果羅列如下:l 提出了基于漢語信息抽取模型的股市公告信息抽取系統(tǒng)的框架結(jié)構和分布圖。l 分析了簡化信息抽取模型的必要性,給出了簡化后的信息抽取模型。l 簡單討論了小領域分詞子模塊的設計原則。l 對大量領域文本做了人工標注,初步夠建了領域語料庫。l 嘗試了采用基于規(guī)則的簡單文本信息抽取算法。l 提出了基于隱馬爾科夫模型的信息抽取算法。l 改進了選擇模型參數(shù)的迭代算法。l 分析了兩種信息抽取方法的異同及優(yōu)缺點 遺留的問題目前為止,本信息抽取系統(tǒng)的設計與實現(xiàn)過程中,發(fā)現(xiàn)了以下一些問題,有待解決:l 多語種的問題。本系統(tǒng)目前為止仍然是基于漢語信息抽取技術的。但是根據(jù)信息抽取技術的特征,構建跨語種的信息抽取系統(tǒng)是可能的??梢詷嫿ㄖ虚g語匯,將抽取后的信息以獨立于語種的方式表述。具體研究仍有待于進一步的討論。l 自動分詞的完善。目前的自動分詞詞典結(jié)構仍然相當簡單,可以通過添加一些附加屬性來提高分詞的質(zhì)量。l 自動標注的實現(xiàn)。自動標注的實現(xiàn)中,又將包括許多復雜的淺層自然語言處理技術,如命名實體的識別[18]、指代分析,等等[5]。l 標注質(zhì)量的提高。目前的人工標注標準仍然具有一定的模糊性,可能因為主觀差異導致標注尺度掌握的不同。這從某些方面極大地影響到了語料的可信度。因此需要制定更為明確清晰的標注標準,加上適當?shù)臉俗⒐ぞ撸梢愿咝诗@取更高質(zhì)量的語料庫。l 模型參數(shù)學習。目前的迭代算法雖然能夠獲取較優(yōu)的HMM模型參數(shù),但是并不能夠保證對語料庫信息的充分利用??梢越Y(jié)合其它機器學習方法,提高模型參數(shù)學習的效率和質(zhì)量。l 兩種信息抽取方法的結(jié)合。結(jié)構主義與功能主義的結(jié)合是目前自然語言處理領域的必然趨勢,例如可以通過語料庫統(tǒng)計來學習抽取規(guī)則[4][6],也可以通過規(guī)則指導統(tǒng)計數(shù)據(jù)的應用,等等。這有待相關理論的發(fā)展和應用上的嘗試。l 模型的推廣。本文論述了股市公告信息抽取系統(tǒng)的設計和實現(xiàn),但是其中的絕大多數(shù)方法可以方便地擴展到其他應用領域。當然,仍然必要針對相應領域的特征,適當修改模型或算法。參考文獻1. 劉開瑛,《中文文本自動分詞技術研究》,山西大學計算機科學系,20012. 張冬茉,姚天昉,王纖,《多語種天氣預報文本生成系統(tǒng)中句子規(guī)劃器的設計與實現(xiàn)》,上海交通大學計算機系3. 劉開瑛,郭炳炎,《自然語言處理》,科學出版社,19914. Stephen Soderland et al., Issues in Inductive Learning of DomainSpecific Text Extraction Rules, 19955. KamFai Wong, Wenjie Li, Chunfa Yuan, Classifying Temporal Concepts in Chinese for Information Extraction, 19996. Mary Elaine Califf, Raymond J. Mooney, Relational Learning of PatternMatch Rules for Information Extraction, 19997. 張冬茉,王纖,《基于WEB的信息抽取模型的研究》,上海交通大學,20018. 姚天順,《自然語言理解》,清華大學出版社,19959. 蔡自興,徐光祐,《人工智能及其應用(第二版)》,清華大學出版社,199610. 于江生,《隱Markov模型及其在自然語言處理中的應用》,北京大學計算語言學研究所11. 于江生,《計算語言學中的概率統(tǒng)計方法》,北京大學計算語言學研究所,199912. Joseph F. McCarthy, A Trainable Approach to Coreference Resolution for Information Extraction, University of Massachusetts Amherst, 199613. 于江生,《基于約束的句法-語義分析》,北京大學計算語言學研究所14. 胡睿,《基于INTERNET的信息抽取模型的研究和實現(xiàn)》,上海交通大學計算機系,200115. 孫賓,《現(xiàn)代漢語文本的詞語切分技術》,北京大學計算語言學研究所()16. 孫賓,《ShiftReducePutback Parsing》,北京大學計算語言學研究所,1999()17. 孫賓,《漢語信息提取的部分研究》,北京大學計算語言學研究所()18. 姚天昉等,《一種基于信息抽取和文本生成的多語種信息檢索模型》,上海交通大學計算機科學與工程系,德國人工智能研究中心致謝在本文即將結(jié)束之際,我要由衷地感謝在我畢業(yè)設計階段,乃至本科四年學習生活中幫助過我的師長與同學。我要首先感謝我的導師XXX教授。在整整一年的學習、科研中,X老師給予了我極大的關心和幫助。張老師治學嚴謹、知識淵博、誨人不倦,在學術和為人上都為我作出了榜樣。在張老師的幫助下,使我的課題研究能夠順利開展,并取得一定階段性成果。在此,我向她表示最真摯的感謝。我還要感謝XX老師。在一年的研究與實踐中,X老師為課題的順利進行作出很多貢獻。尤其在安排語料庫構造的工作中,王老師作出很多貢獻。本項目是國家自然科學基金項目,在此我要特別感謝項目負責人盛煥燁副校長,感謝他給予過我的幫助。我還要感謝本實驗室的幾位研究生同學,他們是胡睿(已畢業(yè)),房一飛,李雪蕾,孔祥勇,他們都曾幫助過我。同時感謝與我一同進行畢業(yè)設計的本科生同學,鄭宇宏,周軼璐,宿季魁,陳波,傅力波。正是大家的共同努力、激烈研討,才使研究有所成果。最后,我將我的這篇論文獻給我的母親。十年來,她獨自一人撫養(yǎng)我長大,其中艱辛自不用說。希望能夠以此文回報她的養(yǎng)育之恩。
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1