freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

藏文信息處理技術(shù)的研究現(xiàn)狀及展望-文庫吧資料

2025-07-04 11:13本頁面
  

【正文】 在甚至包括漢語也存在?哪些差距又是個(gè)性的,即只有藏文信息處理當(dāng)中存在?接下來的問題是我們?nèi)绾伪M快抓住本質(zhì)的或事關(guān)全局的東西,如何采取切實(shí)可行的措施,在有限的時(shí)間內(nèi)把它給解決好,從而縮短差距甚至趕上語言文字信息處理的世界發(fā)展潮流呢?本文以下試圖通過回答這些問題來提出我們的一些思考和看法。但我們應(yīng)當(dāng)清醒地認(rèn)識到,如果拿目前國內(nèi)外語言文字信息處理技術(shù)的總體發(fā)展水平和研究狀況作為基準(zhǔn),來衡量藏文信息處理技術(shù)的發(fā)展水平和研究狀況,似乎其差距不可同日而語,而抓緊時(shí)間迎頭趕上更是不言而喻的事情。這樣做無疑對我們進(jìn)一步開展后續(xù)工作是有益的而且也是非常必要的。關(guān)于藏文信息處理的戰(zhàn)略思考和展望 在對藏文信息處理技術(shù)的發(fā)展歷史和研究現(xiàn)狀有了一個(gè)清醒的認(rèn)識和全局的把握的基礎(chǔ)上,接下來首先應(yīng)該做一番檢討:發(fā)現(xiàn)問題的癥結(jié),找到差距的根源。因篇幅所限,本文不作詳細(xì)介紹。在此前后,北京怡和科技信息發(fā)展有限公司研制了《桑布扎》藏文校對系統(tǒng)[44]。此后,鄭玉玲、孫宏開等人[41] [42]在藏語方言 15 個(gè)調(diào)查點(diǎn)、3000 至 5000 詞規(guī)模的語音數(shù)據(jù)庫基礎(chǔ)上,對各方言的詞匯語音特征進(jìn)行了單項(xiàng)統(tǒng)計(jì)、綜合統(tǒng)計(jì)和方言親屬關(guān)系的計(jì)量描述。全部聲學(xué)數(shù)據(jù)分為聲母(輔音)、核心元音、鼻音和聲調(diào)四個(gè)數(shù)據(jù)庫,共 30 項(xiàng)特征。文章詳細(xì)介紹了他們從 1989 年以來研究建立的第一個(gè)藏語拉薩話語音聲學(xué)參數(shù)數(shù)據(jù)庫。這一結(jié)果說明藏文識別已經(jīng)向?qū)嵱没a(chǎn)品開發(fā)方向邁進(jìn)。整個(gè)預(yù)處理過程包括二值化、版面分析、傾斜校正、字符切分和歸一化,在預(yù)處理過程中還提取了一些有關(guān)字丁的基本結(jié)構(gòu)特征,可用于識別系統(tǒng)的粗分類和后處理。藏文識別 這方面最早的報(bào)道始于清華大學(xué)自動(dòng)化系王浩軍、趙南元等人的研究工作[38]。這部電子詞典無論從規(guī)模、質(zhì)量還是從包含的語法語義信息來看,可堪稱是目前國內(nèi)外最大的一部藏文電子詞典。其中,基本詞典的漢語詞條及其詞法句法屬性主要參照了北京大學(xué)計(jì)算語言研究所的現(xiàn)代漢語語法信息詞典;科技詞典則是課題組應(yīng)漢藏雙語教學(xué)和漢藏機(jī)器翻譯系統(tǒng)研制的需求,歷時(shí)十年編譯整理并經(jīng)全國藏文名詞術(shù)語委員會(huì)審定的詞條(部分學(xué)科詞條已由四川民族出版社出版)。文獻(xiàn)[34][37]先后介紹了陳玉忠(德蓋才郎)、李延福等人在研制漢藏機(jī)器翻譯系統(tǒng)時(shí)開發(fā)的漢藏英三語對照電子詞典。電子詞典的規(guī)模、質(zhì)量和信息容量已成為衡量某種語言自然語言處理發(fā)展水平的關(guān)鍵指標(biāo)之一。目前,課題組在有關(guān)方面的支持下開展成果轉(zhuǎn)化工作。新系統(tǒng)于 2000 年底通過 863 計(jì)劃專家組驗(yàn)收,系統(tǒng)規(guī)模為漢藏英對照電子詞典 18 萬余條,公文系統(tǒng)規(guī)則 900 余條,科技系統(tǒng)規(guī)則達(dá) 1800 余條。對原系統(tǒng)在結(jié)構(gòu)上作了大的改進(jìn),并在藏語格助詞、動(dòng)詞時(shí)態(tài)以及漢藏短語和長定語處理方面取得了不少成果[35] [36]。該系統(tǒng)于 1998 年通過鑒定,系統(tǒng)規(guī)模為漢藏英對照電子詞典 7 萬余條,各類規(guī)則 800 語條,系統(tǒng)在 DEC486/66 微機(jī)上的翻譯速度為 246 詞/分,譯文的可讀性達(dá) 75% [34]。該系統(tǒng)在翻譯模型上選擇了轉(zhuǎn)換模型、系統(tǒng)機(jī)制上采用了基于規(guī)則的方法。機(jī)器翻譯機(jī)器翻譯研究工作最早的報(bào)道見于青海師范大學(xué)陳玉忠(德蓋才郎)、李延福等人在國家 863 計(jì)劃支持下開展的漢藏科技機(jī)器翻譯系統(tǒng)的研制工作[32][33]。助詞、接續(xù)特征、字性知識庫以及詞典的支持下,采用逐級定位的確定性算法實(shí)現(xiàn)藏文的自動(dòng)分詞。羅秉芬、江狄曾提出過一個(gè)藏文計(jì)算機(jī)自動(dòng)分詞的基本規(guī)則[31]。藏文自動(dòng)分詞 藏文也與漢語、日語等東方語言相似,詞與詞之間無明確的分割標(biāo)記,要進(jìn)行藏語信息處理技術(shù)研究同樣存在著分詞問題。這一工作對藏文字庫的制作、藏文教學(xué)都具有重要的參考價(jià)值。這一工作雖然只對一少部分藏字進(jìn)行了靜態(tài)的統(tǒng)計(jì),但這一工作的意義則遠(yuǎn)遠(yuǎn)大于結(jié)果本身。其中具有代表的要屬文獻(xiàn)[26]的作者所作的有關(guān)藏字基本屬性的統(tǒng)計(jì)工作。本節(jié)主要從八個(gè)方面6來分別予以介紹,一方面希望能給有志于投身到這一領(lǐng)域的研究人員提供一個(gè)階梯式發(fā)展的軌跡圖,另一方面也希望能為這一領(lǐng)域年輕的科研人員在課題的選擇和研究領(lǐng)域的拓展上有所啟示。真正意義上的藏語信息處理研究工作始于二十世紀(jì) 90 年代。藏語信息處理研究工作在短短的十幾年里取得了不少成績,產(chǎn)生了積極的社會(huì)效益??梢院敛豢鋸埖卣f,藏文編碼體系國家標(biāo)準(zhǔn)和藏文編碼字符集國際標(biāo)準(zhǔn)的通過,標(biāo)志著藏文開始步入信息時(shí)代,為藏文在以計(jì)算機(jī)和網(wǎng)絡(luò)為主體的信息化社會(huì)中實(shí)現(xiàn)信息處理和交換打下了堅(jiān)實(shí)的基礎(chǔ),使這一古老的民族文字有可能在信息數(shù)代煥發(fā)出新的活力。藏文字符鍵盤布局標(biāo)準(zhǔn)將 GB169591997 中規(guī)定的 169 個(gè)藏文字符,一一分配到各個(gè)鍵位上。藏文字形標(biāo)準(zhǔn)只完成了 GB/《信息技術(shù) 交換用藏文編碼字符集(基本5系國外開發(fā),目前國內(nèi)比較流行的一套藏文字處理軟件。包括藏文字母 30 個(gè)、梵音藏文字母 11 個(gè)、藏文組合用字符 58 個(gè)、藏文數(shù)字符 20 個(gè)、其他圖形字符 49 個(gè)、控制字符 1 個(gè)。藏文編碼字符集標(biāo)準(zhǔn)是實(shí)現(xiàn)人機(jī)、機(jī)機(jī)、系統(tǒng)間信息交換的基礎(chǔ)。經(jīng)過 5 年的艱苦努力,在國家民委和國家技術(shù)監(jiān)督局以及電子部的直接支持和指導(dǎo)下,由西藏自治區(qū)藏語文工作委員會(huì)辦公室牽頭,西藏大學(xué)、西藏技術(shù)監(jiān)督局、西北民族學(xué)院、青海師范大學(xué)等單位于 1997 年共同完成了 GB169591997《信息技術(shù) 交換用藏文編碼字符集 基本集》、GB/《信息技術(shù) 交換用藏文編碼字符集(基本集)24*48 點(diǎn)陣字形第一部分:白體》和 GB169591997 藏文字符鍵盤布局等三項(xiàng)國家標(biāo)準(zhǔn)的研制任務(wù)。藏文信息技術(shù)標(biāo)準(zhǔn)化的問題首先由國際標(biāo)準(zhǔn)化組織(ISO)于 1992 年提出,其核心任務(wù)是藏文編碼體系的標(biāo)準(zhǔn)化問題。我國也已批準(zhǔn)和發(fā)布信息技術(shù)國家標(biāo)準(zhǔn)450 余項(xiàng)[23]。特別是INTERNET 得到迅猛發(fā)展和廣泛普及的今天,藏文信息技術(shù)的標(biāo)準(zhǔn)化和國際化是藏文信息處理技術(shù)必須解決的首要問題。信息技術(shù)標(biāo)準(zhǔn)化是應(yīng)用信息技術(shù)的前提,也是信息系統(tǒng)有效運(yùn)行的保證[22]。這一點(diǎn)從漢字信息處理發(fā)展的歷史來看是如此,從華光藏文系統(tǒng)和北大方正藏文系統(tǒng)的成功也證明了這一點(diǎn)。(4)從技術(shù)實(shí)現(xiàn)角度來看,這些系統(tǒng)主要是在應(yīng)用層面利用 WINDOWS 的 API 或WORD API 函數(shù)掛接實(shí)現(xiàn),因此,真正的系統(tǒng)一級的藏文 WINDOWS 操作系統(tǒng)的開發(fā)還任重而道遠(yuǎn)。(3)更有甚者只是針對某個(gè)WINDOWS應(yīng)用軟件實(shí)現(xiàn)藏文字處理功能,如SAMBHOTA5就是典型的僅在WORD上實(shí)現(xiàn)的一個(gè)藏文字處理軟件。4從這些系統(tǒng)所具備的功能來看,仍然不具備系統(tǒng)一級的藏文支持能力,即不具備真正的藏文WINDOWS操作系統(tǒng)的功能。其中有的字庫占用 00FF 區(qū) ASCII 碼的碼位,有的占用 GB2312 的 1015 區(qū)或 8894 區(qū)的空余碼位,有的字庫干脆占用漢字GB2312 的 15 區(qū)至 81 區(qū)的某段碼位。從這些系統(tǒng)所具備的功能來看,只具備一般的藏字處理功能,因此,我們最多只能稱其為基于 WINDOWS 的藏文字處理軟件,而不是真正意義上的藏文WINDOWS 操作系統(tǒng)。2001 年西藏大學(xué)尼瑪扎西、洛藏等人和四川火狐信息技術(shù)有限公司合作實(shí)現(xiàn)了一個(gè)基于WINDOWS的藏文字處理軟件——“火狐”藏文字處理軟件[21]。北大方正 1997 年推出了基于WIN31 的藏文維思彩色印刷系統(tǒng),但藏文的輸入、編輯過程仍需切換到DOS環(huán)境下進(jìn)行;西北民族學(xué)院信息所于洪志、戴玉剛等人于 2000 年實(shí)現(xiàn)了一個(gè)基于WINDOWS的藏文字處理軟件4,即同元藏文字處理軟件[18],其主要實(shí)現(xiàn)技術(shù)是通過WORD API的動(dòng)態(tài)鏈接庫WLL嵌入藏文輸入法,并在WINDOWS下掛接一個(gè)TRUETYPE字庫實(shí)現(xiàn)。由于 WINDOWS 系統(tǒng)結(jié)構(gòu)龐雜,沒有公開的系統(tǒng)內(nèi)核代碼可參照,加之產(chǎn)品更新?lián)Q代速度極快,一般研究單位在系統(tǒng)一級實(shí)現(xiàn)藏化基本上是不可能的。因此,基于圖形界面的藏文 WINDOWS 操作系統(tǒng)的研制和開發(fā)便成為了這一時(shí)期藏字信息處理的核心任務(wù)之一。這一時(shí)期在國家的大力支持下,在國內(nèi)各主要研究單位和企業(yè)的通力協(xié)作下,基于 DOS的藏文操作系統(tǒng)基本上與漢文操作系統(tǒng)同步實(shí)現(xiàn)了本地化工作。此后在很長一段時(shí)期內(nèi),這兩個(gè)系統(tǒng)一直是國內(nèi)藏文信息處理研究領(lǐng)域的基本平臺(tái)。中國計(jì)算機(jī)軟件與技術(shù)服務(wù)總公司、民族印刷廠、北京大學(xué)計(jì)算機(jī)研究所、中國民族語文翻譯中心在華光藏文系統(tǒng)的基礎(chǔ)上,于 1990 年底聯(lián)合推出了北
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1