freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文(完整版)

  

【正文】 充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。由于分詞是一個(gè)智能決策過(guò)程,機(jī)械分詞方法無(wú)法解決分詞階段的兩大基本問(wèn)題:歧義切分問(wèn)題和未登錄詞識(shí)別問(wèn)題。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。不僅如此,在我們的應(yīng)用領(lǐng)域中,期望的文本切分效果也不同于普通文本。由于分詞模塊并非本系統(tǒng)的重點(diǎn)核心所在,故在此僅作簡(jiǎn)短介紹。其中最重要的一項(xiàng)工作就是確定標(biāo)注的詞類。/punctuation/bulletin其中punctuation標(biāo)注標(biāo)點(diǎn),stockname標(biāo)注股票名稱,stockid標(biāo)注股票id,date標(biāo)注日期,length標(biāo)注時(shí)間跨度,sw是模板特殊詞(Special Word)的縮寫(xiě),na標(biāo)注的是本模板中無(wú)需關(guān)心的詞(Not Available)。將分別討論采用傳統(tǒng)語(yǔ)言學(xué)方法以及統(tǒng)計(jì)學(xué)方法進(jìn)行的模板填充算法。所以采用淺層自然語(yǔ)言處理技術(shù)(SNLPT)將使系統(tǒng)具有更好的性能表現(xiàn)。(1)S NS C ma D v len fstp(2)N sn (3)N sn sid(4)NS N (5)NS NS cae N(6)C conj un (7)C C un(8)D date (9)D year date其中,S表示整個(gè)停牌公告;N表示單個(gè)股票,可以由股票名或連同其代碼構(gòu)成;NS是股票的集合,可以有一系列任意個(gè)連續(xù)單個(gè)股票用頓號(hào)串接構(gòu)成;C表示停牌原因,是由關(guān)鍵連詞“因”或“因?yàn)椤币鸬脑驙钫Z(yǔ)從句;D表示日期,既可是單獨(dú)的月日格式,也可是年月日格式;sn是股票名稱;sid是股票代碼;date是月日格式日期;year是年份;conj是關(guān)鍵連詞“因”或“因?yàn)椤?;len是時(shí)間跨度;cae是頓號(hào);ma是逗號(hào);fstp是句號(hào);v是中心動(dòng)詞“停牌”;un是其它與本模板信息抽取無(wú)關(guān)的詞匯。 基于規(guī)則信息抽取面臨的嚴(yán)峻問(wèn)題對(duì)于停牌公告這樣語(yǔ)法極其簡(jiǎn)單的公告而言,采用簡(jiǎn)單的分析規(guī)則已經(jīng)足以完成信息抽取任務(wù)。如果在某些情況下添加若干特殊擴(kuò)充分析動(dòng)做,將對(duì)增強(qiáng)分析能力有所幫助[14][16]。在規(guī)則方法即理性主義方法屢受挫折的事實(shí)面前,語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展促使計(jì)算語(yǔ)言學(xué)家們?cè)絹?lái)越重視數(shù)理統(tǒng)計(jì)在語(yǔ)言學(xué)中的應(yīng)用。功能主義相比之下處于劣勢(shì)、守勢(shì)。顯然,它可被視為一個(gè)隨機(jī)有限狀態(tài)自動(dòng)機(jī),其每個(gè)狀態(tài)都代表一個(gè)可觀察的事件,之間的轉(zhuǎn)換都對(duì)應(yīng)一定的概率。2. M:每個(gè)狀態(tài)可能輸出的觀察符號(hào)的數(shù)目。先引入幾個(gè)概念:1. 屬性槽(attribute slot):表示為s。于是,對(duì)于標(biāo)注文本中的每一個(gè)關(guān)鍵標(biāo)注部分,都將有模型狀態(tài)與之對(duì)應(yīng)。尋找最佳狀態(tài)序列的完整過(guò)程如下所示:1. 初始化:2. 迭代計(jì)算:3. 最后計(jì)算:4. 路徑回溯(最佳狀態(tài)序列生成): 隱馬爾科夫模型的訓(xùn)練與優(yōu)化問(wèn)題上面已經(jīng)討論了隱馬爾科夫模型的最佳路徑問(wèn)題。與應(yīng)用在語(yǔ)音識(shí)別中的隱馬爾科夫模型不同,我們衡量模型質(zhì)量時(shí),并不是要求整個(gè)模型輸出某一序列的總體概率最大為最優(yōu),而是輸出該序列時(shí)所經(jīng)歷的隱路徑中最佳路徑的概率最大為最優(yōu)。該分析器是源代碼公開(kāi)的自由軟件,并通過(guò)了IBM的內(nèi)部測(cè)試。兩種方法的異同及優(yōu)缺點(diǎn)比較如下:基于規(guī)則的結(jié)構(gòu)主義方法基于語(yǔ)料庫(kù)統(tǒng)計(jì)的功能主義方法抽取規(guī)則是人為總結(jié)制定的,故抽取效果很大部分取決于規(guī)則的完善性與合理性。表六:兩種信息抽取方法的比較可見(jiàn),兩種方法在不同的應(yīng)用環(huán)境下具有不同的優(yōu)缺點(diǎn)。l 嘗試了采用基于規(guī)則的簡(jiǎn)單文本信息抽取算法。l 自動(dòng)分詞的完善。l 模型參數(shù)學(xué)習(xí)。當(dāng)然,仍然必要針對(duì)相應(yīng)領(lǐng)域的特征,適當(dāng)修改模型或算法。在一年的研究與實(shí)踐中,X老師為課題的順利進(jìn)行作出很多貢獻(xiàn)。希望能夠以此文回報(bào)她的養(yǎng)育之恩。本項(xiàng)目是國(guó)家自然科學(xué)基金項(xiàng)目,在此我要特別感謝項(xiàng)目負(fù)責(zé)人盛煥燁副校長(zhǎng),感謝他給予過(guò)我的幫助。我要首先感謝我的導(dǎo)師XXX教授??梢越Y(jié)合其它機(jī)器學(xué)習(xí)方法,提高模型參數(shù)學(xué)習(xí)的效率和質(zhì)量。l 自動(dòng)標(biāo)注的實(shí)現(xiàn)。l 改進(jìn)了選擇模型參數(shù)的迭代算法。近期其它一些研究中,已經(jīng)考慮將兩種方法有機(jī)地結(jié)合,使它們互補(bǔ)短長(zhǎng),發(fā)揮各自最佳的分析優(yōu)勢(shì)[4][6]。對(duì)于簡(jiǎn)單文本分析效率高、準(zhǔn)確率高。由于以上工具在Windows 98/NT/2000、Linux等多種操作系統(tǒng)上均可運(yùn)行,所以可以很方便地實(shí)現(xiàn)移植。4 實(shí)現(xiàn)與結(jié)果分析 模塊實(shí)現(xiàn)情況在本模塊的實(shí)現(xiàn)中,使用到了如下一些資源,在此做簡(jiǎn)單敘述。,隱馬爾科夫模型可以描述為,如何確定其中的A、B和就是所謂的模型參數(shù)獲取問(wèn)題。在這條最佳路徑上,各個(gè)輸出對(duì)應(yīng)的狀態(tài)就是利用隱馬爾科夫模型求得的模板填充方案。2. 填槽物(slot filler):是用來(lái)填充模板構(gòu)成模板實(shí)例的語(yǔ)言單位(通常是一個(gè)單詞或短語(yǔ)),通過(guò)自動(dòng)文本標(biāo)注獲得。4. :狀態(tài)轉(zhuǎn)移概率矩陣。然而,這種模型限制條件過(guò)于嚴(yán)格,在許多實(shí)際問(wèn)題中無(wú)法應(yīng)用。如果我們把新興學(xué)科如社會(huì)語(yǔ)言學(xué)、語(yǔ)用學(xué)、會(huì)話分析、語(yǔ)篇分析等都劃入功能主義(因?yàn)檫@些都是研究語(yǔ)言的各種功能的),那么功能主義大有取代結(jié)構(gòu)主義成為語(yǔ)言學(xué)主流之勢(shì)。傳統(tǒng)語(yǔ)言學(xué)給我們積累了豐富的語(yǔ)言實(shí)例,但對(duì)于語(yǔ)言規(guī)律的把握,人類至今仍未找到最好的方法。但是這樣的擴(kuò)充畢竟還是基于原有LR分析法進(jìn)行的,擴(kuò)充的幅度有限。隨著公告文本的復(fù)雜化,規(guī)則數(shù)目將大大增加。ACTIONGOTOSnSidConjvlendateYearCaeCommaFstpun$SNNSCD0S41231ACC2R4R53S6S754S8R3R35S9S106S117S4128R4R49S14S151310R8R811R7R712R6R613S1614R915S1716S1817R1018S1919R2表三:LR分析表利用以上分析表,我們實(shí)現(xiàn)了機(jī)與簡(jiǎn)單語(yǔ)法規(guī)則的信息抽取。例如,漢語(yǔ)中存在著多動(dòng)詞連用問(wèn)題、詞性歧義問(wèn)題、句子的詞序問(wèn)題、漢語(yǔ)特殊模式(“把”、“被”字句)問(wèn)題、漢語(yǔ)語(yǔ)義歧義問(wèn)題,等等。語(yǔ)言學(xué)中語(yǔ)法分析的理論和方法眾多,各有優(yōu)缺點(diǎn)。通過(guò)計(jì)算機(jī)程序統(tǒng)計(jì),構(gòu)造起了自動(dòng)分詞和標(biāo)注所需的小規(guī)模領(lǐng)域詞典,包含領(lǐng)域常用詞匯約1200詞,另外還有滬深兩地各類股票名稱和編號(hào)等。信息抽取的任務(wù)就是根據(jù)不同的文本類別,以合適的抽取模板加以刻畫(huà)。進(jìn)行自動(dòng)標(biāo)注的方式和層次有多種。我們當(dāng)然希望不要將這些詞切碎,以利于更好的進(jìn)行信息抽取。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開(kāi)銷(xiāo)大。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來(lái)進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。常用的幾種機(jī)械分詞方法如:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的詞數(shù)最小)。而在正確分類的前提下,對(duì)已知文本類型進(jìn)行詞類自動(dòng)標(biāo)注和模板填充將變得更為容易,也具有更高的準(zhǔn)確性。同時(shí),簡(jiǎn)化后的模型應(yīng)該能夠比原模型具有更好的性能表現(xiàn)。以下將結(jié)合股市公告文本信息抽取的特點(diǎn),討論信息抽取模型的簡(jiǎn)化。這些指標(biāo)也自然地反映了自然語(yǔ)言處理在各個(gè)層次上的難度。為了將非結(jié)構(gòu)化的自然語(yǔ)言文本轉(zhuǎn)化到結(jié)構(gòu)化的信息庫(kù)中,需要多種自然語(yǔ)言處理技術(shù)的協(xié)同工作。提出SBIES中信息抽取模塊(也就是本系統(tǒng)的核心模塊)的具體結(jié)構(gòu)。由一個(gè)Robot程序自動(dòng)通過(guò)Web進(jìn)行股票公告文本的自動(dòng)搜集,搜集的文本經(jīng)過(guò)預(yù)處理成為信息抽取模塊能夠接受的文本后,采用IE技術(shù)進(jìn)行信息抽取,將結(jié)果存放入信息庫(kù)中。自然語(yǔ)言生成的主要目標(biāo)是研究計(jì)算機(jī)如何根據(jù)信息在機(jī)器內(nèi)部的表達(dá)形式生成一段高質(zhì)量的自然語(yǔ)言文本。原始文本采集用戶需求分析模塊信息抽取模塊獨(dú)立于語(yǔ)種的信息存儲(chǔ)自然語(yǔ)言生成(漢語(yǔ))自然語(yǔ)言生成(英語(yǔ))自然語(yǔ)言生成(……)控制數(shù)據(jù)系統(tǒng)結(jié)構(gòu)圖用戶其它結(jié)果表現(xiàn)形式結(jié)果表示圖一:SBIES結(jié)構(gòu)框架圖圖中,信息抽取模塊是整個(gè)系統(tǒng)的核心所在,他將根據(jù)用戶的需求將原始文本經(jīng)信息抽取后,以獨(dú)立于
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1