freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-全文預(yù)覽

  

【正文】 常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開(kāi)銷大。定義兩個(gè)字的互現(xiàn)信息為: ,其中 是漢字X、Y的相鄰共現(xiàn)概率, 、 分別是X、Y在語(yǔ)料中出現(xiàn)的概率。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來(lái)進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。常用的幾種機(jī)械分詞方法如:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的詞數(shù)最?。?。二十年來(lái),已經(jīng)提出了許多分詞算法。而在正確分類的前提下,對(duì)已知文本類型進(jìn)行詞類自動(dòng)標(biāo)注和模板填充將變得更為容易,也具有更高的準(zhǔn)確性。簡(jiǎn)化后的高性能系統(tǒng)結(jié)構(gòu)如圖三所示。同時(shí),簡(jiǎn)化后的模型應(yīng)該能夠比原模型具有更好的性能表現(xiàn)。一般而言,股市公告主要包括了停牌公告、財(cái)務(wù)指數(shù)公告、董事會(huì)決議公告、配送股公告、新股上市公告等若干種類型。以下將結(jié)合股市公告文本信息抽取的特點(diǎn),討論信息抽取模型的簡(jiǎn)化。因此,要構(gòu)建可實(shí)用的信息抽取系統(tǒng),有兩個(gè)種途徑:其一,進(jìn)一步探討各個(gè)處理模塊的更有效的處理方法,以達(dá)到更高的查準(zhǔn)率和查全率;其二,改變信息抽取模型結(jié)構(gòu),根據(jù)應(yīng)用領(lǐng)域的特殊性,簡(jiǎn)化串行結(jié)構(gòu)的長(zhǎng)度,以提高模塊整體的性能表現(xiàn)。這些指標(biāo)也自然地反映了自然語(yǔ)言處理在各個(gè)層次上的難度。但子過(guò)程的串聯(lián),帶來(lái)的問(wèn)題是,各個(gè)階段處理的準(zhǔn)確性高度依賴于前端輸出的正確性。為了將非結(jié)構(gòu)化的自然語(yǔ)言文本轉(zhuǎn)化到結(jié)構(gòu)化的信息庫(kù)中,需要多種自然語(yǔ)言處理技術(shù)的協(xié)同工作。比較了采用傳統(tǒng)語(yǔ)言學(xué)方法和統(tǒng)計(jì)學(xué)方法進(jìn)行信息抽取的優(yōu)缺點(diǎn)和適用情況。提出SBIES中信息抽取模塊(也就是本系統(tǒng)的核心模塊)的具體結(jié)構(gòu)。第一章,概述。由一個(gè)Robot程序自動(dòng)通過(guò)Web進(jìn)行股票公告文本的自動(dòng)搜集,搜集的文本經(jīng)過(guò)預(yù)處理成為信息抽取模塊能夠接受的文本后,采用IE技術(shù)進(jìn)行信息抽取,將結(jié)果存放入信息庫(kù)中。由于信息抽取技術(shù)的結(jié)果能夠使信息以獨(dú)立于語(yǔ)種的方式進(jìn)行存儲(chǔ),如果結(jié)合相應(yīng)的不同語(yǔ)種的自然語(yǔ)言生成技術(shù),即可使根據(jù)用戶的要求,獲得以各種語(yǔ)言表述的查詢結(jié)構(gòu)。自然語(yǔ)言生成的主要目標(biāo)是研究計(jì)算機(jī)如何根據(jù)信息在機(jī)器內(nèi)部的表達(dá)形式生成一段高質(zhì)量的自然語(yǔ)言文本。該模塊能為用戶提供一個(gè)智能化的易用界面。原始文本采集用戶需求分析模塊信息抽取模塊獨(dú)立于語(yǔ)種的信息存儲(chǔ)自然語(yǔ)言生成(漢語(yǔ))自然語(yǔ)言生成(英語(yǔ))自然語(yǔ)言生成(……)控制數(shù)據(jù)系統(tǒng)結(jié)構(gòu)圖用戶其它結(jié)果表現(xiàn)形式結(jié)果表示圖一:SBIES結(jié)構(gòu)框架圖圖中,信息抽取模塊是整個(gè)系統(tǒng)的核心所在,他將根據(jù)用戶的需求將原始文本經(jīng)信息抽取后,以獨(dú)立于語(yǔ)種的方式存入信息庫(kù)中。這樣,用戶就不必關(guān)心原始文本的語(yǔ)種,可以用他(她)所熟悉的語(yǔ)種進(jìn)行抽取請(qǐng)求,并得到以他(她)希望語(yǔ)種表示的信息抽取結(jié)果。設(shè)計(jì)一個(gè)股票文本的信息抽取系統(tǒng)具有較高的實(shí)用價(jià)值。對(duì)于計(jì)算機(jī)而言,這個(gè)數(shù)量可謂及其微小,而對(duì)于人工閱讀而言卻是一個(gè)繁復(fù)而耗時(shí)的工作。每一種公告都有相對(duì)固定的組成要素,容易構(gòu)造模板加以描述。幾乎不出現(xiàn)具有二義性的語(yǔ)句??紤]到信息抽取技術(shù)能夠有效地從大量文本中過(guò)濾出用戶可能關(guān)心的信息,并進(jìn)行結(jié)構(gòu)化存儲(chǔ)以便迅速查詢,希望基于信息抽取技術(shù)構(gòu)造股市公告信息抽取系統(tǒng)(Stock Bulletin Information Extraction System,簡(jiǎn)稱SBIES)。 股市公告信息抽取系統(tǒng)(SBIES) 應(yīng)用背景隨著我國(guó)改革開(kāi)放的深入,市場(chǎng)經(jīng)濟(jì)的發(fā)展,證券市場(chǎng)的到了空前的繁榮。 l 與信息檢索(Information Retrieval,簡(jiǎn)稱IR)技術(shù)的區(qū)別與傳統(tǒng)的信息檢索技術(shù)比較,信息抽取技術(shù)有明顯的優(yōu)勢(shì):信息檢索只是通過(guò)單純的匹配檢索得到相關(guān)的文檔,而并不真正理會(huì)文檔的實(shí)際內(nèi)容信息,文檔被等同于無(wú)意義的詞匯堆砌物;而信息抽取則是通過(guò)文本分析、語(yǔ)段分析、模板生成等過(guò)程抽取出有效的信息內(nèi)容。國(guó)內(nèi)對(duì)信息抽取的研究才剛剛起步。SMES系統(tǒng)擁有大量的語(yǔ)言知識(shí)資源(如電子詞典包括12萬(wàn)條詞項(xiàng)以及可擴(kuò)展性很強(qiáng)的專門語(yǔ)法)以及極其快速和魯棒的自然語(yǔ)言構(gòu)件。它將支持TIPSTER體系結(jié)構(gòu)的擴(kuò)展,以便與機(jī)器翻譯、語(yǔ)音和光學(xué)字符識(shí)別、圖象觀察、用戶界面構(gòu)件以及大規(guī)模信息系統(tǒng)相適應(yīng)。在第二階段的研究中,TIPSTER參與者為了使技術(shù)組成構(gòu)件標(biāo)準(zhǔn)化,將注意力轉(zhuǎn)向軟件體系結(jié)構(gòu)的開(kāi)發(fā)上。目的是改進(jìn)文本處理的流行技術(shù)。它共有六層轉(zhuǎn)換機(jī)制,即:切分標(biāo)記層、預(yù)處理層、名稱項(xiàng)識(shí)別層、簡(jiǎn)單短語(yǔ)識(shí)別層、復(fù)雜短語(yǔ)識(shí)別層、指同求解層。它的信息抽取任務(wù)涉及抽取文檔中的名稱項(xiàng)(人名、組織名和地點(diǎn)名);指同項(xiàng);確定模板元素之間的關(guān)系,如地點(diǎn)關(guān)系、雇傭關(guān)系和生產(chǎn)關(guān)系等;抽取文檔中的事件。1995年的MUC6的信息抽取任務(wù)第一次涉及到用SGML語(yǔ)言所標(biāo)記的文本中的名稱項(xiàng)(named entity)和指同項(xiàng)(coreference)的處理。1991年的MUC3和1992年的MUC4采用的文本主題和類型發(fā)生了變化,采用關(guān)于拉丁美洲國(guó)家恐怖事件通用主題的報(bào)紙和有線新聞文本作為語(yǔ)料源,系統(tǒng)包括預(yù)定義好的信息模板和輔助抽取規(guī)則,基本任務(wù)是從在線文本中抽取有關(guān)信息填入預(yù)定義的模板中的屬性槽中。SCISOR首先采用關(guān)鍵詞過(guò)濾和模式匹配的方法對(duì)待處理文獻(xiàn)進(jìn)行主題分析,以便判定該報(bào)道的內(nèi)容是否與公司合并有關(guān);然后采用自底向上的分析器識(shí)別句子結(jié)構(gòu),生成概念表示;最后應(yīng)用自頂向下的預(yù)期驅(qū)動(dòng)分析器提取預(yù)期內(nèi)容。該系統(tǒng)把有限新聞網(wǎng)絡(luò)作為數(shù)據(jù)源,使用一些新聞故事的簡(jiǎn)單腳本來(lái)對(duì)有限新聞網(wǎng)絡(luò)進(jìn)行監(jiān)控。下面介紹一些信息抽取發(fā)展上重要的研究成果以及國(guó)內(nèi)外的研究現(xiàn)狀[7]。信息抽?。↖nformation Extraction,簡(jiǎn)稱IE)技術(shù),是自然語(yǔ)言處理領(lǐng)域中一種新興的技術(shù)。漢語(yǔ)股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文1 概述 信息抽取技術(shù)(Information Extraction)信息技術(shù)高速發(fā)展的時(shí)代中,信息的獲取、處理和應(yīng)用已經(jīng)成為了經(jīng)濟(jì)、科學(xué)、軍事、文化等各個(gè)領(lǐng)域發(fā)展的關(guān)鍵活動(dòng)。如何高效獲取有用信息成為有效利用信息的關(guān)鍵。 信息抽取技術(shù)的發(fā)展信息抽取技術(shù)的雛形最早出現(xiàn)在二十年前。l FRUMP系統(tǒng)FRUMP系統(tǒng)由Gerald Dejong在80年代初實(shí)現(xiàn)。l SCISOR系統(tǒng)80年代末,美國(guó)GE研究與開(kāi)發(fā)中心的Lisa (System for Conceptual Information,Organization and Retrieval)系統(tǒng)所處理的對(duì)象是有關(guān)公司合并的新聞報(bào)導(dǎo)。1987年的MUC1和1989年的MUC2主要集中在從小規(guī)模的海軍信息文本中抽取相關(guān)的信息。涉及到多語(yǔ)言和多領(lǐng)域的文檔,以便進(jìn)行抽取信息的性能評(píng)價(jià)比較。1998年的MUC7是最近的一次信息理解會(huì)議。l FASTUS系統(tǒng)FASTUS系統(tǒng)(Finite State Automaton Text Understanding System)是美國(guó)加里福尼亞斯坦福研究所人工智能中心從1991年開(kāi)始開(kāi)發(fā)的一個(gè)基于多層、非確定有限狀態(tài)自動(dòng)機(jī)模型的自然語(yǔ)言文本信息抽取系統(tǒng)。l TIPSTER計(jì)劃由美國(guó)國(guó)防部(DoD)、Defense Advanced Research Projects Agency(DARPA)和Central Intelligence Agency (CIA)共同資助的TIPSTER計(jì)劃包括至少15個(gè)與工業(yè)和學(xué)術(shù)有關(guān)的項(xiàng)目。在TIPSTER研究的第一階段,參與者通過(guò)一些活動(dòng)如MUC和TREC(Text Retrieval Conferences)對(duì)文本檢測(cè)和信息抽取所建立算法進(jìn)行改進(jìn)以及提高對(duì)評(píng)價(jià)這些改進(jìn)的技術(shù)。ACP將采用CORBA(Common Object Request Broker Architecture)結(jié)構(gòu)為研究者提供魯棒及相配的TIPSTER組成構(gòu)件。文檔的專業(yè)領(lǐng)域包括通訊稿、經(jīng)濟(jì)報(bào)告和技術(shù)說(shuō)明書(shū)。SMES作為一個(gè)有效的智能信息檢索的核心系統(tǒng)已經(jīng)成功地運(yùn)用于科學(xué)和工業(yè)項(xiàng)目中。 信息抽取技術(shù)的特點(diǎn)信息抽取技術(shù)不同于傳統(tǒng)的信息檢索和自動(dòng)摘要技術(shù)。利用淺層的自然語(yǔ)言處理技術(shù)(Shallow Natural Language Processing Technology,簡(jiǎn)稱SNLPT),可以實(shí)現(xiàn)高效率的自然語(yǔ)言處理;將非結(jié)構(gòu)化的信息改變?yōu)槔谟?jì)算機(jī)存儲(chǔ)、處理的結(jié)構(gòu)化形式,有利于信息的重復(fù)高效利用。如果需要在若干年的公告紀(jì)錄中,迅速查找各種相關(guān)的公告,如采取傳統(tǒng)的關(guān)鍵字查找技術(shù),恐怕難以獲取很高效率。在一般股市公告中,通常以簡(jiǎn)單而表意清楚陳述句式為主。常見(jiàn)的股市公告大致可以分為若干種,如:停牌公告、財(cái)務(wù)指數(shù)公告、董事會(huì)決議公告、配送股公告、新股上市公告、等等。一年累計(jì)的公告文本約有6MB(約300萬(wàn)漢字)。而各國(guó)的證券市場(chǎng)在第一時(shí)間通常只能以一種或有限的幾種語(yǔ)言發(fā)布公告信息,這就給股市公告帶來(lái)了天生的多語(yǔ)種特性。同時(shí),信息抽取能夠采用獨(dú)立于語(yǔ)種的方式存儲(chǔ)信息。圖一種給出了本系統(tǒng)的基本框架結(jié)構(gòu)。該模塊是系統(tǒng)的控制中心,體現(xiàn)了以用戶需求為核心的設(shè)計(jì)思想。其中主要采用了自然語(yǔ)言生成(Natural Language Generation,簡(jiǎn)稱NLG)技術(shù)。因此需要一種較好的方式來(lái)將查詢結(jié)果反饋給用戶。圖二:SBIES分布圖由圖可見(jiàn),本系統(tǒng)直接掛接在Internet上,數(shù)據(jù)來(lái)源和用戶界面主要都通過(guò)Web實(shí)現(xiàn)。 本文內(nèi)容簡(jiǎn)介本文將詳細(xì)論述股市公告信息抽取系統(tǒng)中,信息抽取模塊的設(shè)計(jì)和實(shí)現(xiàn)。第二章,信息抽取模塊的設(shè)計(jì)。具體探討了信息抽取模塊中信息抽取的幾種關(guān)鍵算法。252 信息抽取模塊的設(shè)計(jì) 模塊內(nèi)部結(jié)構(gòu) 串行化的模塊內(nèi)部結(jié)構(gòu)及其問(wèn)題自然語(yǔ)言信息抽取是一系列淺層自然語(yǔ)言處理技術(shù)的結(jié)合體。根據(jù)傳統(tǒng)的自然語(yǔ)言處理技術(shù),漢語(yǔ)的信息抽取模塊中大致應(yīng)包含的處理步驟應(yīng)當(dāng)包括了分詞處理、名稱分析
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1