freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語股市公告信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文-免費(fèi)閱讀

2025-07-22 01:14 上一頁面

下一頁面
  

【正文】 正是大家的共同努力、激烈研討,才使研究有所成果。在張老師的幫助下,使我的課題研究能夠順利開展,并取得一定階段性成果。這有待相關(guān)理論的發(fā)展和應(yīng)用上的嘗試。目前的人工標(biāo)注標(biāo)準(zhǔn)仍然具有一定的模糊性,可能因?yàn)橹饔^差異導(dǎo)致標(biāo)注尺度掌握的不同。但是根據(jù)信息抽取技術(shù)的特征,構(gòu)建跨語種的信息抽取系統(tǒng)是可能的。l 分析了簡化信息抽取模型的必要性,給出了簡化后的信息抽取模型。具有較強(qiáng)的可擴(kuò)充性,只要訓(xùn)練獲取合適的模型參數(shù),即可對(duì)更復(fù)雜的文本類型進(jìn)行抽取,而準(zhǔn)確率仍有一定的保障。經(jīng)過對(duì)人工分詞標(biāo)注的語料庫的單詞統(tǒng)計(jì),共獲得領(lǐng)域單詞1995個(gè)。使用的數(shù)據(jù)庫系統(tǒng)是IBM的DB2 7通用數(shù)據(jù)庫系統(tǒng)。該算法是一種迭代算法,初始時(shí)刻由用戶給出各參數(shù)的經(jīng)驗(yàn)估計(jì)值,通過不斷迭代,使個(gè)參數(shù)逐漸趨向更為合理的較優(yōu)值。對(duì)于給定的觀察序列,為了找到單個(gè)最佳狀態(tài)序列,需要定義一個(gè)量:即:是沿著一條路徑在t時(shí)刻的最好得分(最高概率),它說明產(chǎn)生頭t個(gè)觀察符號(hào)且終止于狀態(tài)。4. 模板實(shí)例(template instance):是指用適合的填槽物填充了模板中全部或部分屬性槽(關(guān)鍵屬性槽必須填充)后得到的實(shí)例對(duì)象。一般地,由于當(dāng)A、B確定后,M、N也隨即確定,故通常將一個(gè)HMM描述為。即:觀察事件是依存于狀態(tài)的概率函數(shù),這是在HMM中的一個(gè)基本隨機(jī)過程,另一個(gè)隨機(jī)過程為狀態(tài)轉(zhuǎn)移隨機(jī)過程,但這一過程是隱藏著的,不能直接觀察到,而只有通過生成觀察序列的另外一個(gè)概率過程才能間接地觀察到。其中最重要的,是應(yīng)用隱馬爾科夫模型(HMM)進(jìn)行自然語言處理的方法。如果能夠充分地利用這些統(tǒng)計(jì)現(xiàn)象、規(guī)律,就可以構(gòu)造基于語料庫的統(tǒng)計(jì)學(xué)信息抽取算法。改變分析方法可以從根本上突破形式文法的局限性。對(duì)于這個(gè)問題,有兩條解決途徑。fstpC 四砂股份因刊登NSCmavlenNSCununsndate股東大會(huì)決議公告,9月13日DS’S停牌一天。而這對(duì)于一個(gè)實(shí)用系統(tǒng)而言,卻往往是致命的缺陷。然而在一個(gè)中文的信息抽取的實(shí)用系統(tǒng)中充分應(yīng)用這些分析方法,卻存在著困難。公告類別公告文本量(篇)百分比決議公告93%財(cái)務(wù)指數(shù)公告415%停牌公告21%其它公告63%共計(jì)592100%表二:人工標(biāo)注文本量統(tǒng)計(jì)在進(jìn)行了自動(dòng)分詞和詞類標(biāo)注的基礎(chǔ)上,下一章將詳細(xì)探討如何利用標(biāo)注信息填充模板的具體算法??紤]根據(jù)以上的模板,抽取以下的公告實(shí)例:“東盛科技”(600771)因刊登公告,9月11日上午停牌半天。但是,我們認(rèn)為在特定領(lǐng)域的信息抽取任務(wù)中,從詞性開始的詞類標(biāo)注并非必要。統(tǒng)計(jì)各類詞匯出現(xiàn)的概率,構(gòu)造詞典。已見諸報(bào)道的研究成果如:北京航空航天大學(xué)計(jì)算機(jī)系的CDWS分詞系統(tǒng),山西大學(xué)的現(xiàn)代漢語自動(dòng)分詞及詞性標(biāo)注系統(tǒng)[1],北京大學(xué)計(jì)算語言學(xué)研究所的漢語切分與標(biāo)注軟件,清華大學(xué)SEG分詞系統(tǒng)和SEGTAG系統(tǒng),哈工大統(tǒng)計(jì)分詞系統(tǒng),杭州大學(xué)改進(jìn)的MM分詞系統(tǒng),Microsoft Research漢語句法分析器中的自動(dòng)分詞,等等[15]??梢詫?duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。而有些系統(tǒng)則在后續(xù)過程中來處理歧義切分問題,其分詞過程只是整個(gè)語言理解過程的一小部分。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。 自動(dòng)分詞近年來,國內(nèi)眾多研究機(jī)構(gòu)已經(jīng)在計(jì)算機(jī)漢語文本自動(dòng)分詞方面進(jìn)行了大量的研究,并取得了很多成就。分詞處理詞典股市公告文本A類文本自動(dòng)標(biāo)注B類文本自動(dòng)標(biāo)注C類文本自動(dòng)標(biāo)注A類模板填充B類模板填充C類模板填充文本自動(dòng)分類信息庫基于以上觀點(diǎn),考慮將信息抽取中的某些步驟合并簡化。一方面,股市公告文本的主題分類比較明顯。顯然,過低的查準(zhǔn)率和查全率,對(duì)于一個(gè)應(yīng)用系統(tǒng)是缺乏實(shí)用意義的。根據(jù)傳統(tǒng)的自然語言處理技術(shù),漢語的信息抽取模塊中大致應(yīng)包含的處理步驟應(yīng)當(dāng)包括了分詞處理、名稱分析、語法分析、語義分析、場景匹配、一致性分析、推理判斷、模板匹配填充,等等。具體探討了信息抽取模塊中信息抽取的幾種關(guān)鍵算法。 本文內(nèi)容簡介本文將詳細(xì)論述股市公告信息抽取系統(tǒng)中,信息抽取模塊的設(shè)計(jì)和實(shí)現(xiàn)。因此需要一種較好的方式來將查詢結(jié)果反饋給用戶。該模塊是系統(tǒng)的控制中心,體現(xiàn)了以用戶需求為核心的設(shè)計(jì)思想。同時(shí),信息抽取能夠采用獨(dú)立于語種的方式存儲(chǔ)信息。一年累計(jì)的公告文本約有6MB(約300萬漢字)。在一般股市公告中,通常以簡單而表意清楚陳述句式為主。利用淺層的自然語言處理技術(shù)(Shallow Natural Language Processing Technology,簡稱SNLPT),可以實(shí)現(xiàn)高效率的自然語言處理;將非結(jié)構(gòu)化的信息改變?yōu)槔谟?jì)算機(jī)存儲(chǔ)、處理的結(jié)構(gòu)化形式,有利于信息的重復(fù)高效利用。SMES作為一個(gè)有效的智能信息檢索的核心系統(tǒng)已經(jīng)成功地運(yùn)用于科學(xué)和工業(yè)項(xiàng)目中。ACP將采用CORBA(Common Object Request Broker Architecture)結(jié)構(gòu)為研究者提供魯棒及相配的TIPSTER組成構(gòu)件。l TIPSTER計(jì)劃由美國國防部(DoD)、Defense Advanced Research Projects Agency(DARPA)和Central Intelligence Agency (CIA)共同資助的TIPSTER計(jì)劃包括至少15個(gè)與工業(yè)和學(xué)術(shù)有關(guān)的項(xiàng)目。1998年的MUC7是最近的一次信息理解會(huì)議。1987年的MUC1和1989年的MUC2主要集中在從小規(guī)模的海軍信息文本中抽取相關(guān)的信息。l FRUMP系統(tǒng)FRUMP系統(tǒng)由Gerald Dejong在80年代初實(shí)現(xiàn)。如何高效獲取有用信息成為有效利用信息的關(guān)鍵。信息抽取(Information Extraction,簡稱IE)技術(shù),是自然語言處理領(lǐng)域中一種新興的技術(shù)。該系統(tǒng)把有限新聞網(wǎng)絡(luò)作為數(shù)據(jù)源,使用一些新聞故事的簡單腳本來對(duì)有限新聞網(wǎng)絡(luò)進(jìn)行監(jiān)控。1991年的MUC3和1992年的MUC4采用的文本主題和類型發(fā)生了變化,采用關(guān)于拉丁美洲國家恐怖事件通用主題的報(bào)紙和有線新聞文本作為語料源,系統(tǒng)包括預(yù)定義好的信息模板和輔助抽取規(guī)則,基本任務(wù)是從在線文本中抽取有關(guān)信息填入預(yù)定義的模板中的屬性槽中。它的信息抽取任務(wù)涉及抽取文檔中的名稱項(xiàng)(人名、組織名和地點(diǎn)名);指同項(xiàng);確定模板元素之間的關(guān)系,如地點(diǎn)關(guān)系、雇傭關(guān)系和生產(chǎn)關(guān)系等;抽取文檔中的事件。目的是改進(jìn)文本處理的流行技術(shù)。它將支持TIPSTER體系結(jié)構(gòu)的擴(kuò)展,以便與機(jī)器翻譯、語音和光學(xué)字符識(shí)別、圖象觀察、用戶界面構(gòu)件以及大規(guī)模信息系統(tǒng)相適應(yīng)。國內(nèi)對(duì)信息抽取的研究才剛剛起步。 股市公告信息抽取系統(tǒng)(SBIES) 應(yīng)用背景隨著我國改革開放的深入,市場經(jīng)濟(jì)的發(fā)展,證券市場的到了空前的繁榮。幾乎不出現(xiàn)具有二義性的語句。對(duì)于計(jì)算機(jī)而言,這個(gè)數(shù)量可謂及其微小,而對(duì)于人工閱讀而言卻是一個(gè)繁復(fù)而耗時(shí)的工作。這樣,用戶就不必關(guān)心原始文本的語種,可以用他(她)所熟悉的語種進(jìn)行抽取請求,并得到以他(她)希望語種表示的信息抽取結(jié)果。該模塊能為用戶提供一個(gè)智能化的易用界面。由于信息抽取技術(shù)的結(jié)果能夠使信息以獨(dú)立于語種的方式進(jìn)行存儲(chǔ),如果結(jié)合相應(yīng)的不同語種的自然語言生成技術(shù),即可使根據(jù)用戶的要求,獲得以各種語言表述的查詢結(jié)構(gòu)。第一章,概述。比較了采用傳統(tǒng)語言學(xué)方法和統(tǒng)計(jì)學(xué)方法進(jìn)行信息抽取的優(yōu)缺點(diǎn)和適用情況。但子過程的串聯(lián),帶來的問題是,各個(gè)階段處理的準(zhǔn)確性高度依賴于前端輸出的正確性。因此,要構(gòu)建可實(shí)用的信息抽取系統(tǒng),有兩個(gè)種途徑:其一,進(jìn)一步探討各個(gè)處理模塊的更有效的處理方法,以達(dá)到更高的查準(zhǔn)率和查全率;其二,改變信息抽取模型結(jié)構(gòu),根據(jù)應(yīng)用領(lǐng)域的特殊性,簡化串行結(jié)構(gòu)的長度,以提高模塊整體的性能表現(xiàn)。一般而言,股市公告主要包括了停牌公告、財(cái)務(wù)指數(shù)公告、董事會(huì)決議公告、配送股公告、新股上市公告等若干種類型。簡化后的高性能系統(tǒng)結(jié)構(gòu)如圖三所示。二十年來,已經(jīng)提出了許多分詞算法。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。定義兩個(gè)字的互現(xiàn)信息為: ,其中 是漢字X、Y的相鄰共現(xiàn)概率, 、 分別是X、Y在語料中出現(xiàn)的概率。這些切分與標(biāo)注軟件大都通過大量跨領(lǐng)域文本的測試,具有較為穩(wěn)定的性能表現(xiàn)。在分詞時(shí)處于性能考慮,采用了較簡單的最長匹配法分詞規(guī)則。由于信息抽取實(shí)際上是在給定語義框架(用模板描述)的基礎(chǔ)上,對(duì)語義框架中的關(guān)鍵部分(屬性槽Slot)以相應(yīng)內(nèi)容(填槽物Slot Filler)填充,所以可以期望直接標(biāo)注出全部或部分的關(guān)鍵內(nèi)容。將獲取如下XML文檔作為結(jié)果:?xml version=”” encoding=”GB2312” ?停牌公告 股票名稱東盛科技/股票名稱 股票代碼600771/股票代碼停牌時(shí)間9月11日上午/停牌時(shí)間 時(shí)間跨度半天/時(shí)間跨度停牌原因刊登公告/停牌原因/停牌公告此例充分體現(xiàn)了股市公告文本句法特殊,結(jié)構(gòu)固定的特點(diǎn)。3 信息抽取的關(guān)鍵算法在前一章里,已經(jīng)將信息抽取的問題歸結(jié)為對(duì)文本的自動(dòng)分詞、自動(dòng)標(biāo)注和模板填充三個(gè)步驟,并且已經(jīng)簡單介紹了前兩個(gè)步驟的設(shè)計(jì)和實(shí)現(xiàn)方法。首先,信息抽取技術(shù)應(yīng)當(dāng)避免采用深層自然語言處理技術(shù)(DNLPT)。因此,可以采用較簡單的語法規(guī)則,來抽取相關(guān)的基本語義信息。conjun未caeNsn、sidN上海醫(yī)藥600849sid600783圖四:分析樹示例在獲取分析樹的結(jié)果上,可以通過對(duì)樹的遍歷來填充模板。其一,對(duì)LR分析法進(jìn)行擴(kuò)充。下一節(jié)就將討論采用統(tǒng)計(jì)方法來設(shè)計(jì)信息抽取模塊中的模板匹配算法?,F(xiàn)代語言學(xué)研究已經(jīng)形成兩個(gè)大的陣營,結(jié)構(gòu)主義和功能主義(或稱為理性主義和功能主義)。 隱馬爾科夫模型(HMM)簡介l 馬爾科夫(Markov)過程的定義一般地,考慮只取有限個(gè)(或可數(shù)個(gè))值的隨機(jī)過程:若,就說過程在n時(shí)刻處于狀態(tài)i,假設(shè)每當(dāng)過
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1