freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語股市公告信息抽取系統(tǒng)的設計與實現(xiàn)畢業(yè)論文-文庫吧資料

2025-07-04 01:14本頁面
  

【正文】 en fstp(2)N sn (3)N sn sid(4)NS N (5)NS NS cae N(6)C conj un (7)C C un(8)D date (9)D year date其中,S表示整個停牌公告;N表示單個股票,可以由股票名或連同其代碼構(gòu)成;NS是股票的集合,可以有一系列任意個連續(xù)單個股票用頓號串接構(gòu)成;C表示停牌原因,是由關(guān)鍵連詞“因”或“因為”引起的原因狀語從句;D表示日期,既可是單獨的月日格式,也可是年月日格式;sn是股票名稱;sid是股票代碼;date是月日格式日期;year是年份;conj是關(guān)鍵連詞“因”或“因為”;len是時間跨度;cae是頓號;ma是逗號;fstp是句號;v是中心動詞“停牌”;un是其它與本模板信息抽取無關(guān)的詞匯。因此,可以采用較簡單的語法規(guī)則,來抽取相關(guān)的基本語義信息。此外,上述分析方法應用于實際時,往往難以有很高的準確率。例如,漢語中存在著多動詞連用問題、詞性歧義問題、句子的詞序問題、漢語特殊模式(“把”、“被”字句)問題、漢語語義歧義問題,等等。所以采用淺層自然語言處理技術(shù)(SNLPT)將使系統(tǒng)具有更好的性能表現(xiàn)。首先,信息抽取技術(shù)應當避免采用深層自然語言處理技術(shù)(DNLPT)。上述的各種分析方法從理論上,對自然語言本質(zhì)性問題進行了較深入的研究。語言學中語法分析的理論和方法眾多,各有優(yōu)缺點。將分別討論采用傳統(tǒng)語言學方法以及統(tǒng)計學方法進行的模板填充算法。3 信息抽取的關(guān)鍵算法在前一章里,已經(jīng)將信息抽取的問題歸結(jié)為對文本的自動分詞、自動標注和模板填充三個步驟,并且已經(jīng)簡單介紹了前兩個步驟的設計和實現(xiàn)方法。對標注文本統(tǒng)計數(shù)目見表二。通過計算機程序統(tǒng)計,構(gòu)造起了自動分詞和標注所需的小規(guī)模領(lǐng)域詞典,包含領(lǐng)域常用詞匯約1200詞,另外還有滬深兩地各類股票名稱和編號等。/punctuation/bulletin其中punctuation標注標點,stockname標注股票名稱,stockid標注股票id,date標注日期,length標注時間跨度,sw是模板特殊詞(Special Word)的縮寫,na標注的是本模板中無需關(guān)心的詞(Not Available)。將獲取如下XML文檔作為結(jié)果:?xml version=”” encoding=”GB2312” ?停牌公告 股票名稱東盛科技/股票名稱 股票代碼600771/股票代碼停牌時間9月11日上午/停牌時間 時間跨度半天/時間跨度停牌原因刊登公告/停牌原因/停牌公告此例充分體現(xiàn)了股市公告文本句法特殊,結(jié)構(gòu)固定的特點。例如,如下所示是一個描述停牌公告抽取模板的DTD文件: ?xml version= encoding=GB2312? !ELEMENT 停牌公告 (股票名稱,股票代碼,停牌時間,時間跨度,停牌原因) !ELEMENT 股票名稱 (PCDATA) !ELEMENT 股票代碼 (PCDATA) !ELEMENT 停牌時間 (PCDATA) !ELEMENT 時間跨度 (PCDATA) !ELEMENT 停牌原因 (PCDATA)其中定義了一系列元素(如停牌時間、時間跨度、股票名稱等等),這些都是需要抽取的模板屬性槽。信息抽取的任務就是根據(jù)不同的文本類別,以合適的抽取模板加以刻畫。其中最重要的一項工作就是確定標注的詞類。由于信息抽取實際上是在給定語義框架(用模板描述)的基礎上,對語義框架中的關(guān)鍵部分(屬性槽Slot)以相應內(nèi)容(填槽物Slot Filler)填充,所以可以期望直接標注出全部或部分的關(guān)鍵內(nèi)容。傳統(tǒng)的自然語言處理過程中,通常認為,對詞類的標注應該從詞性的層次上開始,其他自然語言的處理過程都將建筑在對詞性的分析之上。進行自動標注的方式和層次有多種。由于分詞模塊并非本系統(tǒng)的重點核心所在,故在此僅作簡短介紹。在分詞時處于性能考慮,采用了較簡單的最長匹配法分詞規(guī)則。在構(gòu)造自動分詞子系統(tǒng)時,以人工分詞得到得語料庫為標準。我們當然希望不要將這些詞切碎,以利于更好的進行信息抽取。不僅如此,在我們的應用領(lǐng)域中,期望的文本切分效果也不同于普通文本。這些切分與標注軟件大都通過大量跨領(lǐng)域文本的測試,具有較為穩(wěn)定的性能表現(xiàn)。這些算法各具特色,需結(jié)合具體的應用領(lǐng)域進行綜合利用。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。定義兩個字的互現(xiàn)信息為: ,其中 是漢字X、Y的相鄰共現(xiàn)概率, 、 分別是X、Y在語料中出現(xiàn)的概率。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。由于漢語語言知識的籠統(tǒng)、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。l 基于理解的分詞方法通常的分析系統(tǒng),都力圖在分詞階段消除所有歧義切分現(xiàn)象。一種方法是改進掃描方式,稱為特征掃描或標志切分,優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。由于分詞是一個智能決策過程,機械分詞方法無法解決分詞階段的兩大基本問題:歧義切分問題和未登錄詞識別問題。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。常用的幾種機械分詞方法如:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的詞數(shù)最?。?。l 基于字符串匹配的分詞方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。二十年來,已經(jīng)提出了許多分詞算法。而模板填充算法的實現(xiàn),是本模塊的關(guān)鍵環(huán)節(jié),將在下一章中詳細論述。而在正確分類的前提下,對已知文本類型進行詞類自動標注和模板填充將變得更為容易,也具有更高的準確性。一篇中文文檔一般只需經(jīng)過分詞處理、自動標注和模板填充三個步驟即可完成信息抽取。簡化后的高性能系統(tǒng)結(jié)構(gòu)如圖三所示。其次,合并簡化處理子過程,減少了處理所需的時間,提高了處理的效率。同時,簡化后的模型應該能夠比原模型具有更好的性能表現(xiàn)。另一方面,各類公告文本的格式相對簡單、固定。一般而言,股市公告主要包括了停牌公告、財務指數(shù)公告、董事會決議公告、配送股公告、新股上市公告等若干種類型。由于股市公告文本具有以下一些特性,所以簡化信息抽取模型是可能的。以下將結(jié)合股市公告文本信息抽取的特點,討論信息抽取模型的簡化。而第二種途徑卻是目前可能做到的。因此,要構(gòu)建可實用的信息抽取系統(tǒng),有兩個種途徑:其一,進一步探討各個處理模塊的更有效的處理方法,以達到更高的查準率和查全率;其二,改變信息抽取模型結(jié)構(gòu),根據(jù)應用領(lǐng)域的特殊性,簡化串行結(jié)構(gòu)的長度,以提高模塊整體的性能表現(xiàn)。其評測結(jié)果如下:RecallPrecisionFScoreTE86%87%TR67%86%ST42%65%表一:MUC7測評結(jié)果可以看出,在這樣的查準率和查全率下,整個模塊的性能表現(xiàn)將隨著串聯(lián)模塊數(shù)量的增加迅速下降。這些指標也自然地反映了自然語言處理在各個層次上的難度。通常在60%~90%之間不等。但子過程的串聯(lián),帶來的問題是,各個階段處理的準確性高度依賴于前端輸出的正確性。這種工作方式優(yōu)點是模塊內(nèi)部結(jié)構(gòu)簡單,便于分級調(diào)試。為了將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化到結(jié)構(gòu)化的信息庫中,需要多種自然語言處理技術(shù)的協(xié)同工作。將給出部分統(tǒng)計數(shù)據(jù)和結(jié)果總結(jié)。比較了采用傳統(tǒng)語言學方法和統(tǒng)計學方法進行信息抽取的優(yōu)缺點和適用情況。這是本文的重點章節(jié)。提出SBIES中信息抽取模塊(也就是本系統(tǒng)的核心模塊)的具體結(jié)構(gòu)。提出SBIES的應用背景,介紹整體結(jié)構(gòu)框架和模塊分布情況。第一章,概述。用戶通過Internet訪問該系統(tǒng),查詢的結(jié)果也通過Internet返回給用戶。由一個Robot程序自動通過Web進行股票公告文本的自動搜集,搜集的文本經(jīng)過預處理成為信息抽取模塊能夠接受的文本后,采用IE技術(shù)進行信息抽取,將結(jié)果存放入信息庫中。 系統(tǒng)分布結(jié)構(gòu)RobotINTERNET信息抽取信息庫XML數(shù)據(jù)庫預處理數(shù)據(jù)分析(可選)查詢分析查詢界面結(jié)果表示圖二給出了系統(tǒng)的整體分布圖。由于信息抽取技術(shù)的結(jié)果能夠使信息以獨立于語種的方式進行存儲,如果結(jié)合相應的不同語種的自然語言生成技術(shù),即可使根據(jù)用戶的要求,獲得以各種語言表述的查詢結(jié)構(gòu)。在本系統(tǒng)中,根據(jù)用戶詢問,從信息庫中查詢獲取的結(jié)果,對用戶而言仍然是晦澀難懂的。自然語言生成的主要目標是研究計算機如何根據(jù)信息在機器內(nèi)部的表達形式生成一段高質(zhì)量的自然語言文本。結(jié)果表示模塊,是將查詢結(jié)果以用戶易于理解的方式進行表示的模塊。該模塊能為用戶提供一個智能化的易用界面。用戶需求分析模塊,是能夠收集用戶需求,控制其它個模塊進行協(xié)同工作的智能人機界面。原始文本采集用戶需求分析模塊信息抽取模塊獨立于語種的信息存儲自然語言生成(漢語)自然語言生成(英語)自然語言生成(……)控制數(shù)據(jù)系統(tǒng)結(jié)構(gòu)圖用戶其它結(jié)果表現(xiàn)形式結(jié)果表示圖一:SBIES結(jié)構(gòu)框架圖圖中,信息抽取模塊是整個系統(tǒng)的核心所在,他將根據(jù)用戶的需求將原始文本經(jīng)信息抽取后,以獨立于語種的方式存入信息庫中。但是為了實現(xiàn)真正可用的應用系統(tǒng),還需要其它一些模塊的進行協(xié)同工作。這樣,用戶就不必關(guān)心原始文本的語種,可以用他(她)所熟悉的語種進行抽取請求,并得到以他(她)希望語種表示的信息抽取結(jié)果。信息抽取技術(shù)能夠自動的從龐大的文本庫中,動態(tài)地根據(jù)用戶關(guān)心的內(nèi)容提
點擊復制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1