freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文(留存版)

2025-08-12 01:14上一頁面

下一頁面
  

【正文】 一個詞)。另一方面,各類公告文本的格式相對簡單、固定。通常在60%~90%之間不等。提出SBIES的應(yīng)用背景,介紹整體結(jié)構(gòu)框架和模塊分布情況。結(jié)果表示模塊,是將查詢結(jié)果以用戶易于理解的方式進行表示的模塊。股票市場使金融的重要組成部分,而在全球金融一體化的今天,世界各大證券市場之間的息息相關(guān)。每天在兩地市場公布的股市公告少則幾十條,多則百余條,文本量較大。cken Information Extraction System)系統(tǒng)是一個聯(lián)機的德語文擋信息抽取智能系統(tǒng)。訓(xùn)練用的文檔專業(yè)領(lǐng)域是關(guān)于飛機墜毀報道,而測試用的文檔專業(yè)領(lǐng)域是關(guān)于發(fā)射事件報道。FRUMP系統(tǒng)是一個面向語義的系統(tǒng),采用了一個特定專業(yè)領(lǐng)域的事件描述腳本知識庫。而其中,信息的獲取是三個步驟的開端,在信息技術(shù)領(lǐng)域中具有尤其重要的地位。l MUC(Message Understanding Conference)是一個ARPA資助的、為推動IE技術(shù)發(fā)展的一個重要的系列工程。分解的語言處理使此系統(tǒng)能夠處理大量的與專業(yè)領(lǐng)域無關(guān)的句法結(jié)構(gòu),以致于與專業(yè)領(lǐng)域相關(guān)的語義和語用處理能被應(yīng)用到相當(dāng)大部分的語言結(jié)構(gòu)上。它還能利用機器學(xué)習(xí)機制使自身能為實現(xiàn)新功能得到訓(xùn)練和配置,并能適應(yīng)所需的信息數(shù)量和各種文檔長度。由于股市公告文本具有以下一些特點,故認為采取信息抽取技術(shù)能夠大幅度提高系統(tǒng)的性能表現(xiàn)。股市公告的文本量龐大,但結(jié)構(gòu)固定、內(nèi)容單一,這正適合于計算機處理。所謂高質(zhì)量是指生成的文本與人工文本比較接近,形式多樣,而且能適應(yīng)外部應(yīng)用的變化而做相應(yīng)的調(diào)整,整個系統(tǒng)的維護性好[2]。第三章,信息抽取的關(guān)鍵算法。在最近一屆MUC上表現(xiàn)最好的是SRA公司的系統(tǒng)[Aone et al, 98],其所有3項IE指標都是最高的。首先,縮短了處理過程路徑的長度,避免了過長的串行系統(tǒng)結(jié)構(gòu)可能導(dǎo)致的低查準率和查全率。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。l 基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此,設(shè)想構(gòu)造一個規(guī)模較小的,能夠較好識別領(lǐng)域詞匯的小型分詞子系統(tǒng)。我們就可以嘗試根據(jù)模板的屬性槽來定義詞類。比較著名的如Kaplan和Bresnan(1982)的詞匯功能語法(LFG)、Shieber(1984)的PARTII,Kay(1985)的功能合一語法(FUG),Gazdar(1985)的廣義短語結(jié)構(gòu)語法(GPSG),Polland和Sag(1987)的中心詞去動的短語結(jié)構(gòu)語法(HDPSG)等等[3][8][9][13]。由于在根據(jù)分析表分析過程中,自然地構(gòu)造起了一棵語法分析樹,圖四中給出一個例句的分析樹。其二,采用非基于規(guī)則的分析方法。語料庫和語料庫語言學(xué)可以說是兩陣對壘的天平上的一個舉足輕重的砝碼。5. :觀察符號的概率分布集。圖五是HMM求解模板填充問題的示例圖。由于考慮到本系統(tǒng)將能夠方便地掛接在Internet上,要求具有較好的跨平臺能力,故決定采用Java做為開發(fā)工具。對于簡單文本分析效率和準確率都相對較低。l 分析了兩種信息抽取方法的異同及優(yōu)缺點 遺留的問題目前為止,本信息抽取系統(tǒng)的設(shè)計與實現(xiàn)過程中,發(fā)現(xiàn)了以下一些問題,有待解決:l 多語種的問題。l 兩種信息抽取方法的結(jié)合。我還要感謝本實驗室的幾位研究生同學(xué),他們是胡睿(已畢業(yè)),房一飛,李雪蕾,孔祥勇,他們都曾幫助過我。我還要感謝XX老師。因此需要制定更為明確清晰的標注標準,加上適當(dāng)?shù)臉俗⒐ぞ撸梢愿咝诗@取更高質(zhì)量的語料庫。l 對大量領(lǐng)域文本做了人工標注,初步夠建了領(lǐng)域語料庫。對語料做關(guān)鍵詞統(tǒng)計后,得到的結(jié)果如下:關(guān)鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率決議82決議公告71董事會89監(jiān)事會33董、監(jiān)事會28公告23董事9董、監(jiān)事5監(jiān)事3股東大會21總共語料數(shù)量(篇)93表四:決議公告語料分析部分結(jié)果關(guān)鍵詞出現(xiàn)次數(shù)平均單篇出現(xiàn)率財務(wù)指標415每股凈資產(chǎn)404凈資產(chǎn)收益率402每股收益402調(diào)整后每股凈資產(chǎn)398每股凈資產(chǎn)404每股收益402單位基金收益8單位基金資產(chǎn)凈值3期末基金資產(chǎn)凈值3基金資產(chǎn)凈值收益率3期末基金資產(chǎn)總值3單位基金凈收益3單位基金凈資產(chǎn)8總共語料數(shù)量(篇)415表五:財務(wù)指數(shù)公告語料分析部分結(jié)果 兩種信息抽取方法的比較在本模塊的設(shè)計和實現(xiàn)中,前后采用了基于規(guī)則的結(jié)構(gòu)主義方法和基于語料庫統(tǒng)計的功能主義方法。最主要的修改是上述算法中的終止條件。而將待抽取的標注文本視為該模型的一種輸出結(jié)果。l 隱馬爾科夫模型(HMM)的模型參數(shù)1. N:模型狀態(tài)數(shù)。多年來結(jié)構(gòu)主義一直占上風(fēng),西方學(xué)者稱為“語言學(xué)主流”(mainstream linguistics)。傳統(tǒng)的LR分析法通常只有移進(Shift)和歸約(Reduce)兩個動作。例如[14],制定以下若干規(guī)則,來對股市停牌公告進行抽取。本章中將要詳細論述的是模板的自動填充算法。出于這種想法,我們希望能夠在此采用一個直接標注包含語義信息的詞類自動標注子系統(tǒng)。但是在我們的特殊領(lǐng)域的應(yīng)用系統(tǒng)中,并不需要對任意領(lǐng)域文本都能進行準確切分的能力。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。我們可以將現(xiàn)有的分詞算法分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。每種公告文本類別論述的主題比較固定,利于用抽取模板加以描述。例如:假設(shè)信息抽取全過程由n個串聯(lián)子過程組成,第k個子過程的查準率(或者查全率)分別為,則整個模塊的查準率(或者查全率)應(yīng)為:一般而言,目前自然語言處理技術(shù)中雖然存在眾多不同的算法,進行不同層次的分析處理,但其查準率和查全率卻大都不是很高[17]。簡介信息抽取技術(shù)的歷史和特點,與傳統(tǒng)的NLP技術(shù)做了優(yōu)缺點比較。用戶只需以自然語言形式輸入詢問的問題,該模塊即可將詢問轉(zhuǎn)化為一系列的內(nèi)部指令,控制各模塊針對詢問做出響應(yīng)。l 多語種特性。目前,在滬深兩地上市的公司數(shù)目已達幾千家。l SMES系統(tǒng)由德國人工智能研究中心語言技術(shù)實驗室(DFKILT)在Paradime 項目中所開發(fā)的SMES(Saarbr252。文檔包含多語種的新聞稿。它采用關(guān)鍵字檢索、概念句子分析、腳本匹配等方法來尋找新聞故事。近年來,隨著計算機和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,各領(lǐng)域可及信息量呈指數(shù)級增長。有許多大學(xué)、研究所參加。正因為FASTUS系統(tǒng)具有這樣的特點,它已被成功地運用于許多應(yīng)用中。它被集成了圖形可視化技術(shù)、服務(wù)器體系結(jié)構(gòu)和英特網(wǎng)訪問技術(shù)。l 句法簡單。信息抽取技術(shù)能夠自動的從龐大的文本庫中,動態(tài)地根據(jù)用戶關(guān)心的內(nèi)容提取文本蘊含的信息。在本系統(tǒng)中,根據(jù)用戶詢問,從信息庫中查詢獲取的結(jié)果,對用戶而言仍然是晦澀難懂的。這是本文的重點章節(jié)。其評測結(jié)果如下:RecallPrecisionFScoreTE86%87%TR67%86%ST42%65%表一:MUC7測評結(jié)果可以看出,在這樣的查準率和查全率下,整個模塊的性能表現(xiàn)將隨著串聯(lián)模塊數(shù)量的增加迅速下降。其次,合并簡化處理子過程,減少了處理所需的時間,提高了處理的效率。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。在構(gòu)造自動分詞子系統(tǒng)時,以人工分詞得到得語料庫為標準。例如,如下所示是一個描述停牌公告抽取模板的DTD文件: ?xml version= encoding=GB2312? !ELEMENT 停牌公告 (股票名稱,股票代碼,停牌時間,時間跨度,停牌原因) !ELEMENT 股票名稱 (PCDATA) !ELEMENT 股票代碼 (PCDATA) !ELEMENT 停牌時間 (PCDATA) !ELEMENT 時間跨度 (PCDATA) !ELEMENT 停牌原因 (PCDATA)其中定義了一系列元素(如停牌時間、時間跨度、股票名稱等等),這些都是需要抽取的模板屬性槽。上述的各種分析方法從理論上,對自然語言本質(zhì)性問題進行了較深入的研究。 四砂股份60078上海醫(yī)藥600849因未刊登股東大會決議公告,9月13日停牌一天?;谝?guī)則的方法在處理自然語言時遇到的困難,是分析形式文法時的難度無法相比的。統(tǒng)計的分析方法多種多樣,近期研究的熱點主要集中于由隨機過程發(fā)展而來的理論和方法。6. :初始狀態(tài)概率分布。股票名稱股票編號日期中心動詞停牌長度四砂股份上海醫(yī)藥600783600849…………9月13日停牌一天圖五:HMM信息抽取示例在求解模型對應(yīng)于某一特定輸出時的最佳路徑(路徑概率最大)時,采用如下Viterbi算法進行計算。目前使用的是Borland的JBuilder 4作為IDE。分析能力相當(dāng)有限,且擴充性差,難以分析復(fù)雜文本,準確率也隨文本復(fù)雜性增加而顯著下降。本系統(tǒng)目前為止仍然是基于漢語信息抽取技術(shù)的。結(jié)構(gòu)主義與功能主義的結(jié)合是目前自然語言處理領(lǐng)域的必然趨勢,例如可以通過語料庫統(tǒng)計來學(xué)習(xí)抽取規(guī)則[4][6],也可以通過規(guī)則指導(dǎo)統(tǒng)計數(shù)據(jù)的應(yīng)用,等等。同時感謝與我一同進行畢業(yè)設(shè)計的本科生同學(xué),鄭宇宏,周軼璐,宿季魁,陳波,傅力波。在此,我向她表示最真摯的感謝。這從某些方面極大地影響到了語料的可信度。l 簡單討論了小領(lǐng)域分詞子模塊的設(shè)計原則。在對公告分類后,主要集中研究兩種類型的公告:決議公告、財務(wù)指標公告。算法可簡單描述如下:1. 初始化:,時間t=1時處于狀態(tài)的期望值2. 迭代計算:令,其中:3. 終止條件:,其中是預(yù)先設(shè)定的閾值要在我們的系統(tǒng)中,應(yīng)用BaumWelch算法獲取模型參數(shù),需要對算法做適當(dāng)?shù)母摹N?
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1