freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文-展示頁

2025-07-07 01:14本頁面
  

【正文】 取文本蘊含的信息。設(shè)計一個股票文本的信息抽取系統(tǒng)具有較高的實用價值。股票市場使金融的重要組成部分,而在全球金融一體化的今天,世界各大證券市場之間的息息相關(guān)。對于計算機而言,這個數(shù)量可謂及其微小,而對于人工閱讀而言卻是一個繁復(fù)而耗時的工作。僅以上海證券交易所為例,每天的臨時性公告文本量平均約20KB(以漢字記約1萬字)。每一種公告都有相對固定的組成要素,容易構(gòu)造模板加以描述。l 格式規(guī)整。幾乎不出現(xiàn)具有二義性的語句。l 句法簡單??紤]到信息抽取技術(shù)能夠有效地從大量文本中過濾出用戶可能關(guān)心的信息,并進行結(jié)構(gòu)化存儲以便迅速查詢,希望基于信息抽取技術(shù)構(gòu)造股市公告信息抽取系統(tǒng)(Stock Bulletin Information Extraction System,簡稱SBIES)。每天在兩地市場公布的股市公告少則幾十條,多則百余條,文本量較大。 股市公告信息抽取系統(tǒng)(SBIES) 應(yīng)用背景隨著我國改革開放的深入,市場經(jīng)濟的發(fā)展,證券市場的到了空前的繁榮。信息抽取技術(shù)具有其獨有的優(yōu)勢。 l 與信息檢索(Information Retrieval,簡稱IR)技術(shù)的區(qū)別與傳統(tǒng)的信息檢索技術(shù)比較,信息抽取技術(shù)有明顯的優(yōu)勢:信息檢索只是通過單純的匹配檢索得到相關(guān)的文檔,而并不真正理會文檔的實際內(nèi)容信息,文檔被等同于無意義的詞匯堆砌物;而信息抽取則是通過文本分析、語段分析、模板生成等過程抽取出有效的信息內(nèi)容。國內(nèi)對涉及中文和其他語種的多語種信息抽取技術(shù)還未見報道。國內(nèi)對信息抽取的研究才剛剛起步。它被集成了圖形可視化技術(shù)、服務(wù)器體系結(jié)構(gòu)和英特網(wǎng)訪問技術(shù)。SMES系統(tǒng)擁有大量的語言知識資源(如電子詞典包括12萬條詞項以及可擴展性很強的專門語法)以及極其快速和魯棒的自然語言構(gòu)件。cken Information Extraction System)系統(tǒng)是一個聯(lián)機的德語文擋信息抽取智能系統(tǒng)。它將支持TIPSTER體系結(jié)構(gòu)的擴展,以便與機器翻譯、語音和光學(xué)字符識別、圖象觀察、用戶界面構(gòu)件以及大規(guī)模信息系統(tǒng)相適應(yīng)。在目前進行的第三階段的研究中,一種稱為ACP(Architecture Capabilities Platform)的平臺被開發(fā),它支持評價、擴展和探索進展中的TIPSTER體系結(jié)構(gòu)。在第二階段的研究中,TIPSTER參與者為了使技術(shù)組成構(gòu)件標(biāo)準(zhǔn)化,將注意力轉(zhuǎn)向軟件體系結(jié)構(gòu)的開發(fā)上。這些應(yīng)用主要是文本檢測(定位包含某一信息類型的文本)和信息抽?。ǘㄎ晃谋局械奶囟ㄐ畔ⅲ?。目的是改進文本處理的流行技術(shù)。正因為FASTUS系統(tǒng)具有這樣的特點,它已被成功地運用于許多應(yīng)用中。它共有六層轉(zhuǎn)換機制,即:切分標(biāo)記層、預(yù)處理層、名稱項識別層、簡單短語識別層、復(fù)雜短語識別層、指同求解層。訓(xùn)練用的文檔專業(yè)領(lǐng)域是關(guān)于飛機墜毀報道,而測試用的文檔專業(yè)領(lǐng)域是關(guān)于發(fā)射事件報道。它的信息抽取任務(wù)涉及抽取文檔中的名稱項(人名、組織名和地點名);指同項;確定模板元素之間的關(guān)系,如地點關(guān)系、雇傭關(guān)系和生產(chǎn)關(guān)系等;抽取文檔中的事件。測試的語料采用華爾街雜志中的文本。1995年的MUC6的信息抽取任務(wù)第一次涉及到用SGML語言所標(biāo)記的文本中的名稱項(named entity)和指同項(coreference)的處理。所抽取的信息包括合資企業(yè)的合資者、合資公司的名稱、所有權(quán)和資本以及預(yù)期的活動,或者微電子芯片的制作活動的性質(zhì)和狀態(tài)等有關(guān)項。1991年的MUC3和1992年的MUC4采用的文本主題和類型發(fā)生了變化,采用關(guān)于拉丁美洲國家恐怖事件通用主題的報紙和有線新聞文本作為語料源,系統(tǒng)包括預(yù)定義好的信息模板和輔助抽取規(guī)則,基本任務(wù)是從在線文本中抽取有關(guān)信息填入預(yù)定義的模板中的屬性槽中。有許多大學(xué)、研究所參加。SCISOR首先采用關(guān)鍵詞過濾和模式匹配的方法對待處理文獻進行主題分析,以便判定該報道的內(nèi)容是否與公司合并有關(guān);然后采用自底向上的分析器識別句子結(jié)構(gòu),生成概念表示;最后應(yīng)用自頂向下的預(yù)期驅(qū)動分析器提取預(yù)期內(nèi)容。FRUMP系統(tǒng)是一個面向語義的系統(tǒng),采用了一個特定專業(yè)領(lǐng)域的事件描述腳本知識庫。該系統(tǒng)把有限新聞網(wǎng)絡(luò)作為數(shù)據(jù)源,使用一些新聞故事的簡單腳本來對有限新聞網(wǎng)絡(luò)進行監(jiān)控。該系統(tǒng)采用了概念句子分析技術(shù),通過一些簡單的語言處理技術(shù)能夠完成限制在小規(guī)模,特定專業(yè)領(lǐng)域的信息抽取任務(wù)。下面介紹一些信息抽取發(fā)展上重要的研究成果以及國內(nèi)外的研究現(xiàn)狀[7]。將結(jié)構(gòu)松散的自然語言信息,通過抽取轉(zhuǎn)為結(jié)構(gòu)嚴(yán)謹(jǐn)、語義明確的表現(xiàn)形式,利用計算機進行高效存儲并加以利用。信息抽?。↖nformation Extraction,簡稱IE)技術(shù),是自然語言處理領(lǐng)域中一種新興的技術(shù)。近年來,隨著計算機和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,各領(lǐng)域可及信息量呈指數(shù)級增長。漢語股市公告信息抽取系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)論文1 概述 信息抽取技術(shù)(Information Extraction)信息技術(shù)高速發(fā)展的時代中,信息的獲取、處理和應(yīng)用已經(jīng)成為了經(jīng)濟、科學(xué)、軍事、文化等各個領(lǐng)域發(fā)展的關(guān)鍵活動。而其中,信息的獲取是三個步驟的開端,在信息技術(shù)領(lǐng)域中具有尤其重要的地位。如何高效獲取有用信息成為有效利用信息的關(guān)鍵。該技術(shù)通過抽取、過濾無關(guān)信息,使文本信息以用戶關(guān)心的形式得以再組織,實現(xiàn)高效重組。 信息抽取技術(shù)的發(fā)展信息抽取技術(shù)的雛形最早出現(xiàn)在二十年前。l ATRANS 系統(tǒng)ATRANS 系統(tǒng)是早在1981年由Cowie研究出來關(guān)于動植物正規(guī)結(jié)構(gòu)描述數(shù)據(jù)庫的系統(tǒng)及其商用化產(chǎn)品。l FRUMP系統(tǒng)FRUMP系統(tǒng)由Gerald Dejong在80年代初實現(xiàn)。它采用關(guān)鍵字檢索、概念句子分析、腳本匹配等方法來尋找新聞故事。l SCISOR系統(tǒng)80年代末,美國GE研究與開發(fā)中心的Lisa (System for Conceptual Information,Organization and Retrieval)系統(tǒng)所處理的對象是有關(guān)公司合并的新聞報導(dǎo)。l MUC(Message Understanding Conference)是一個ARPA資助的、為推動IE技術(shù)發(fā)展的一個重要的系列工程。1987年的MUC1和1989年的MUC2主要集中在從小規(guī)模的海軍信息文本中抽取相關(guān)的信息。1993年的MUC5的文本主題是關(guān)于合資企業(yè)的商業(yè)新聞以及微電子芯片的制作方面的新聞,涉及英語和日語文檔。涉及到多語言和多領(lǐng)域的文檔,以便進行抽取信息的性能評價比較。除了場景模板(scenario)任務(wù)以外,名稱項、指同項和模板元素(template element)信息抽取任務(wù)均與特定專業(yè)領(lǐng)域無關(guān)。1998年的MUC7是最近的一次信息理解會議。文檔包含多語種的新聞稿。l FASTUS系統(tǒng)FASTUS系統(tǒng)(Finite State Automaton Text Understanding System)是美國加里福尼亞斯坦福研究所人工智能中心從1991年開始開發(fā)的一個基于多層、非確定有限狀態(tài)自動機模型的自然語言文本信息抽取系統(tǒng)。分解的語言處理使此系統(tǒng)能夠處理大量的與專業(yè)領(lǐng)域無關(guān)的句法結(jié)構(gòu),以致于與專業(yè)領(lǐng)域相關(guān)的語義和語用處理能被應(yīng)用到相當(dāng)大部分的語言結(jié)構(gòu)上。l TIPSTER計劃由美國國防部(DoD)、Defense Advanced Research Projects Agency(DARPA)和Central Intelligence Agency (CIA)共同資助的TIPSTER計劃包括至少15個與工業(yè)和學(xué)術(shù)有關(guān)的項目。TIPSTER的體系結(jié)構(gòu)使用一組通用的文本處理模塊已能滿足不同的文本處理應(yīng)用的需要。在TIPSTER研究的第一階段,參與者通過一些活動如MUC和TREC(Text Retrieval Conferences)對文本檢測和信息抽取所建立算法進行改進以及提高對評價這些改進的技術(shù)。使各種所開發(fā)的工具具有即插即用的性能,增加軟件的共享程度。ACP將采用CORBA(Common Object Request Broker Architecture)結(jié)構(gòu)為研究者提供魯棒及相配的TIPSTER組成構(gòu)件。l SMES系統(tǒng)由德國人工智能研究中心語言技術(shù)實驗室(DFKILT)在Paradime 項目中所開發(fā)的SMES(Saarbr252。文檔的專業(yè)領(lǐng)域包括通訊稿、經(jīng)濟報告和技術(shù)說明書。它還能利用機器學(xué)習(xí)機制使自身能為實現(xiàn)新功能得到訓(xùn)練和配置,并能適應(yīng)所需的信息數(shù)量和各種文檔長度。SMES作為一個有效的智能信息檢索的核心系統(tǒng)已經(jīng)成功地運用于科學(xué)和工業(yè)項目中。1998年2月在東北大學(xué)學(xué)報(自然科學(xué)版)發(fā)表了《中文信息自動抽取》一文,介紹了中文信息抽取的概念和對一些問題進行了初步的探索。 信息抽取技術(shù)的特點信息抽取技術(shù)不同于傳統(tǒng)的信息檢索和自動摘要技術(shù)。l 與自動摘要(Automatic Abstraction)技術(shù)的區(qū)別與傳統(tǒng)的自動文摘(Automatic Abstraction)技術(shù)比較,信息抽取技術(shù)的應(yīng)用前景更好:自動文摘產(chǎn)生的文摘往往質(zhì)量較低,而且容易產(chǎn)生不全面、不連貫和冗余多等等問題;而信息抽取則針對有價值的相關(guān)領(lǐng)域的文本進行結(jié)構(gòu)分析,其效率和質(zhì)量顯著提高,也更容易面向?qū)嶋H應(yīng)用。利用淺層的自然語言處理技術(shù)(Shallow Natural Language Processing Technology,簡稱SNLPT),可以實現(xiàn)高效率的自然語言處理;將非結(jié)構(gòu)化的信息改變?yōu)槔谟嬎銠C存儲、處理的結(jié)構(gòu)化形式,有利于信息的重復(fù)高效利用。目前,在滬深兩地上市的公司數(shù)目已達(dá)幾千家。如果需要在若干年的公告紀(jì)錄中,迅速查找各種相關(guān)的公告,如采取傳統(tǒng)的關(guān)鍵字查找技術(shù),恐怕難以獲取很高效率。由于股市公告文本具有以下一些特點,故認(rèn)為采取信息抽取技術(shù)能夠大幅度提高系統(tǒng)的性能表現(xiàn)。在一般股市公告中,通常以簡單而表意清楚陳述句式為主。這為自然語言處理和信息抽取提供了較好的先決條件。常見的股市公告大致可以分為若干種,如:停牌公告、財務(wù)指數(shù)公告、董事會決議公告、配送股公告、新股上市公告、等等。l 文本量大。一年累計的公告文本約有6MB(約300萬漢字)。l 多語種特性。而各國的證券市場在第一時間通常只能以一種或有限的幾種語言發(fā)布公告信息,這就給股市公告帶來了天生的多語種特性。股市公告的文本量龐大,但結(jié)構(gòu)固定、內(nèi)容單一,這正適合于計算機處理。同時
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1