freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

藏文信息處理技術(shù)的研究現(xiàn)狀及展望(編輯修改稿)

2025-07-25 11:13 本頁面
 

【文章內(nèi)容簡(jiǎn)介】 1 個(gè)。除此之外,針對(duì)藏文近 6000 字(大字符集)的國家標(biāo)準(zhǔn)《藏文編碼字符集 輔助集》的研制工作也正在進(jìn)行中。藏文字形標(biāo)準(zhǔn)只完成了 GB/《信息技術(shù) 交換用藏文編碼字符集(基本5系國外開發(fā),目前國內(nèi)比較流行的一套藏文字處理軟件。集)24*48 點(diǎn)陣字形 第一部分:白體》部分,其他字體標(biāo)準(zhǔn)也正在制定當(dāng)中。藏文字符鍵盤布局標(biāo)準(zhǔn)將 GB169591997 中規(guī)定的 169 個(gè)藏文字符,一一分配到各個(gè)鍵位上。據(jù)稱該標(biāo)準(zhǔn)鍵盤的編號(hào)系統(tǒng)、鍵數(shù)、鍵的排列分布和分組分級(jí)都采用了最新的國際標(biāo)準(zhǔn)??梢院敛豢鋸埖卣f,藏文編碼體系國家標(biāo)準(zhǔn)和藏文編碼字符集國際標(biāo)準(zhǔn)的通過,標(biāo)志著藏文開始步入信息時(shí)代,為藏文在以計(jì)算機(jī)和網(wǎng)絡(luò)為主體的信息化社會(huì)中實(shí)現(xiàn)信息處理和交換打下了堅(jiān)實(shí)的基礎(chǔ),使這一古老的民族文字有可能在信息數(shù)代煥發(fā)出新的活力。3.藏語信息處理 語言信息處理技術(shù)包括機(jī)器翻譯、信息檢索、信息提取、文本校對(duì)、文本生成、文本分類、自動(dòng)摘要以及文字識(shí)別和語音識(shí)別等應(yīng)用領(lǐng)域 [24]。藏語信息處理研究工作在短短的十幾年里取得了不少成績(jī),產(chǎn)生了積極的社會(huì)效益。最早利用計(jì)算機(jī)進(jìn)行藏語信息處理層面的研究工作,其實(shí)文獻(xiàn)[6][9][10]中都有所涉及,但是由于受當(dāng)時(shí)計(jì)算機(jī)軟硬件條件和整個(gè)藏文信息處理技術(shù)的限制,這些研究很大意義上只是作為藏字處理系統(tǒng)的“點(diǎn)綴”品出現(xiàn),而不是自覺地利用語言信息處理相關(guān)理論和技術(shù)開展的研究工作。真正意義上的藏語信息處理研究工作始于二十世紀(jì) 90 年代。當(dāng)時(shí)北大方正和濰坊華光藏文系統(tǒng)的研制成功和迅速普及,極大地推動(dòng)了藏文信息處理技術(shù)的發(fā)展,促使藏語信息處理領(lǐng)域的許多應(yīng)用技術(shù)產(chǎn)生了從無到有、從小到大的質(zhì)的飛躍。本節(jié)主要從八個(gè)方面6來分別予以介紹,一方面希望能給有志于投身到這一領(lǐng)域的研究人員提供一個(gè)階梯式發(fā)展的軌跡圖,另一方面也希望能為這一領(lǐng)域年輕的科研人員在課題的選擇和研究領(lǐng)域的拓展上有所啟示。藏文字詞頻統(tǒng)計(jì)分析和語料庫建設(shè) 這方面的最早報(bào)道見于中國社會(huì)科學(xué)院民族研究所江狄、董穎紅和中央民族大學(xué)周季文等人的研究工作[25][26][27]。其中具有代表的要屬文獻(xiàn)[26]的作者所作的有關(guān)藏字基本屬性的統(tǒng)計(jì)工作。其具體做法是:首先在《藏漢拉薩口語詞典》、《》和《》中采集得到常用詞語 30428 條,經(jīng)查重處理得到 3926 藏字;再以這 3926 個(gè)字為材料,利用計(jì)算機(jī)統(tǒng)計(jì)分析了藏字的結(jié)構(gòu)頻度、字長(zhǎng)、聲母結(jié)構(gòu)頻度、韻母結(jié)構(gòu)頻度、藏字的位置字符及結(jié)構(gòu)方式。這一工作雖然只對(duì)一少部分藏字進(jìn)行了靜態(tài)的統(tǒng)計(jì),但這一工作的意義則遠(yuǎn)遠(yuǎn)大于結(jié)果本身。此后,中國藏學(xué)研究中心扎西次仁利用 2000 萬字《》的藏文對(duì)勘本對(duì)藏字的字符頻、字頻信息進(jìn)行了更加全面和深入的統(tǒng)計(jì)分析,并分別在藏字字符頻、字頻方面得到了許多有價(jià)值的結(jié)果[28]。這一工作對(duì)藏文字庫的制作、藏文教學(xué)都具有重要的參考價(jià)值。除此之外,目前西北民族學(xué)院、中國藏學(xué)研究中心、青海師范大學(xué)和中國社會(huì)科學(xué)院民族研究所等單位在藏語語料庫建設(shè)以及利用語料庫進(jìn)行藏文信息處理研究方面都有一定的探索和進(jìn)展。藏文自動(dòng)分詞 藏文也與漢語、日語等東方語言相似,詞與詞之間無明確的分割標(biāo)記,要進(jìn)行藏語信息處理技術(shù)研究同樣存在著分詞問題。扎西次仁曾設(shè)計(jì)過一個(gè)采用最大匹配算法的人機(jī)互助藏文分詞和登錄新詞的演示系統(tǒng)[30]。羅秉芬、江狄曾提出過一個(gè)藏文計(jì)算機(jī)自動(dòng)分詞的基本規(guī)則[31]。陳玉忠于 2001 年設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于格助詞和接續(xù)特征的藏文分詞系統(tǒng)[29],該系統(tǒng)的技術(shù)特點(diǎn)是:綜合運(yùn)用藏文字、詞、句等各類形態(tài)特征,在藏文格6關(guān)于藏文在信息檢索、信息提取、文本分類以及自動(dòng)摘要等方向上,筆者在國內(nèi)還未見到相關(guān)文獻(xiàn)報(bào)道,故在此沒有專門列條目介紹。助詞、接續(xù)特征、字性知識(shí)庫以及詞典的支持下,采用逐級(jí)定位的確定性算法實(shí)現(xiàn)藏文的自動(dòng)分詞。初步測(cè)試表明,系統(tǒng)分詞正確率在 97%以上,且有不受領(lǐng)域限制、通用性強(qiáng)的特點(diǎn)。機(jī)器翻譯機(jī)器翻譯研究工作最早的報(bào)道見于青海師范大學(xué)陳玉忠(德蓋才郎)、李延福等人在國家 863 計(jì)劃支持下開展的漢藏科技機(jī)器翻譯系統(tǒng)的研制工作[32][33]。該項(xiàng)研究工作從 1994 年開始,1995 年就實(shí)現(xiàn)一個(gè)原型系統(tǒng)。該系統(tǒng)在翻譯模型上選擇了轉(zhuǎn)換模型、系統(tǒng)機(jī)制上采用了基于規(guī)則的方法。他們還根據(jù)漢藏機(jī)器翻譯的需要首次對(duì)藏語詞語進(jìn)行了分類,在漢藏轉(zhuǎn)換、藏語生成等方面也進(jìn)行了比較深入的研究。該系統(tǒng)于 1998 年通過鑒定,系統(tǒng)規(guī)模為漢藏英對(duì)照電子詞典 7 萬余條,各類規(guī)則 800 語條,系統(tǒng)在 DEC486/66 微機(jī)上的翻譯速度為 246 詞/分,譯文的可讀性達(dá) 75% [34]。后來,該課題組在第二個(gè) 863 計(jì)劃的滾動(dòng)支持下開展了實(shí)用化漢藏機(jī)器翻譯系統(tǒng)的研制工作。對(duì)原系統(tǒng)在結(jié)構(gòu)上作了大的改進(jìn),并在藏語格助詞、動(dòng)詞時(shí)態(tài)以及漢藏短語和長(zhǎng)定語處理方面取得了不少成果[35] [36]。實(shí)用化漢藏機(jī)器翻譯系統(tǒng)分為公文和科技兩大翻譯系統(tǒng),其中科技系統(tǒng)又包括數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)四個(gè)子系統(tǒng)。新系統(tǒng)于 2000 年底通過 863 計(jì)劃專家組驗(yàn)收,系統(tǒng)規(guī)模為漢藏英對(duì)照電子詞典 18 萬余條,公文系統(tǒng)規(guī)則 900 余條,科技系統(tǒng)規(guī)則達(dá) 1800 余條。測(cè)試表明公文系統(tǒng)的譯文可讀性達(dá) 78%以上,科技系統(tǒng)的譯文可讀性達(dá) 80%以上[37]。目前,課題組在有關(guān)方面的支持下開展成果轉(zhuǎn)化工作。電子詞典 電子詞典是計(jì)算機(jī)處理自然語言的基礎(chǔ)資源,更是機(jī)器翻譯等典型的自然語言應(yīng)用系統(tǒng)的知識(shí)信息源。電子詞典的規(guī)模、質(zhì)量和信息容量已成為衡量某種語言自然語言處理發(fā)展水平的關(guān)鍵指標(biāo)之一。因此,學(xué)界歷來對(duì)電子詞典的建設(shè)都非常重視。文獻(xiàn)[34][37]先后介紹了陳玉忠(德蓋才郎)、李延福等人在研制漢藏機(jī)器翻譯系統(tǒng)時(shí)開發(fā)的漢藏英三語對(duì)照電子詞典。該詞典總規(guī)模由 1995 年的 7 萬余條增加到 2000 年的 18 萬余條,總詞典包括基本詞典和科技詞典兩大部分。其中,基本詞典的漢語詞條及其詞法句法屬性主要參照了北京大學(xué)計(jì)算語言研究所的現(xiàn)代漢語語法信息詞典;科技詞典則是課題組應(yīng)漢藏雙語教學(xué)和漢藏機(jī)器翻譯系統(tǒng)研制的需求,歷時(shí)十年編譯整理并經(jīng)全國藏文名詞術(shù)語委員會(huì)審定的詞條(部分學(xué)科詞條已由四川民族出版社出版)。整個(gè)詞典的藏文部分標(biāo)注了詳細(xì)的語法、語義信息。這部電子詞典無論從規(guī)模、質(zhì)量還是從包含的語法語義信息來看,可堪稱是目前國內(nèi)外最大的一部藏文電子詞典。我們有理由相信,這部詞典必將會(huì)對(duì)藏外、外藏機(jī)器翻譯系統(tǒng)開發(fā)以及其他藏文信息處理技術(shù)研究發(fā)揮重要的作用。藏文識(shí)別 這方面最早的報(bào)道始于清華大學(xué)自動(dòng)化系王浩軍、趙南元等人的研究工作[38]。他們根據(jù)藏文在字型和書寫方式上的特點(diǎn),實(shí)現(xiàn)了一種是用于藏文識(shí)別的預(yù)處理技術(shù)。整個(gè)預(yù)處理過程包括二值化、版面分析、傾斜校正、字符切分和歸一化,在預(yù)處理過程中還提取了一些有關(guān)字丁的基本結(jié)構(gòu)特征,可用于識(shí)別系統(tǒng)的粗分類和后處理。2002 年王維蘭、丁曉青、祁坤鈺等人報(bào)道了在藏文識(shí)別中相似字丁區(qū)分研究方面的最新進(jìn)展,他們利用已實(shí)現(xiàn)的系統(tǒng)對(duì)61篇測(cè)試文本總共63503個(gè)樣本字符數(shù)的測(cè)試表明:%[39]。這一結(jié)果說明藏文識(shí)別已經(jīng)向?qū)嵱没a(chǎn)品開發(fā)方向邁進(jìn)。語音數(shù)據(jù)庫這方面的研究報(bào)道最早見于中國社會(huì)科學(xué)院民族研究所鮑懷翹等人在藏語語音數(shù)據(jù)庫研究方面的工作[40]。文章詳細(xì)介紹了他們從 1989 年以來研究建立的第一個(gè)藏語拉薩話語音聲學(xué)參數(shù)數(shù)據(jù)庫。該數(shù)據(jù)庫是在分析測(cè)量了藏語拉薩花 733 個(gè)單音節(jié)基礎(chǔ)上形成的。全部聲學(xué)數(shù)據(jù)分為聲母(輔音)、核心元音、鼻音和聲調(diào)四個(gè)數(shù)據(jù)庫,共 30 項(xiàng)特征。該數(shù)據(jù)庫同時(shí)還配置了排序檢索、統(tǒng)計(jì)分析和繪圖功能。此后,鄭玉玲、孫宏開等人[41] [42]在藏語方言 15 個(gè)調(diào)查點(diǎn)、3000 至 5000 詞規(guī)模的語音數(shù)據(jù)庫基礎(chǔ)上,對(duì)各方言的詞匯語音特征進(jìn)行了單項(xiàng)統(tǒng)計(jì)、綜合統(tǒng)計(jì)和方言親屬關(guān)系的計(jì)量描述。藏文字詞校對(duì)中國藏學(xué)研究中心扎西次仁于 1998 年設(shè)計(jì)開發(fā)了一個(gè)基于 DOS 的藏文拼寫檢查系統(tǒng)[43]。在此前后,北京怡和科技信息發(fā)展有限公司研制了《桑布扎》藏文校對(duì)系統(tǒng)[44]。3.綜合應(yīng)用二十多年來藏文信息處理技術(shù)在其他領(lǐng)域的應(yīng)用研究也取得了不少成果[45] [47],產(chǎn)生了積極的社會(huì)效益和經(jīng)濟(jì)效益,并有力地推動(dòng)了藏文信息技術(shù)發(fā)展。因篇幅所限,本文不作詳細(xì)介紹。對(duì)這方面有興趣的研究人員可參閱[5] [46][47] [48]等相關(guān)文獻(xiàn)的介紹。關(guān)于藏文信息處理的戰(zhàn)略思考
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1