freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音識(shí)別外文文獻(xiàn)翻譯-其他專業(yè)(參考版)

2025-01-23 02:11本頁面
  

【正文】 。但據(jù)了解,對(duì)于文字和音素 知覺線索的性質(zhì),其所需要整合的功能,反映了音節(jié)的動(dòng)態(tài),這是動(dòng)態(tài)性的變動(dòng)整合。 如何把韻律信息整合到識(shí)別系統(tǒng)中來是一個(gè)尚未解決的關(guān)鍵性問題。通過音量、語調(diào)和節(jié)奏來表達(dá)文 字識(shí)別和用戶意圖的重要信息(例如,諷刺、憤怒)。 在飛機(jī)任務(wù)上的發(fā)展, 意味著在這一領(lǐng)域中的進(jìn)展,但仍有許多工作要做。系統(tǒng)必須有一些方法來檢 測(cè)超綱的詞匯,否則最終將會(huì)從詞匯單詞映射到未知的單詞,導(dǎo)致發(fā)生錯(cuò)誤。 超綱詞匯: 系統(tǒng)設(shè)計(jì)使用一套特定的單詞,但系統(tǒng)的用戶可能不知道哪些詞是屬于詞匯系統(tǒng)中 的。這些分?jǐn)?shù)不提供或不充分表 明他們是否有一個(gè)假設(shè)是 正確的,只是因?yàn)檫@些假設(shè)優(yōu)于其他。隨著 詞匯量的增長(zhǎng)和其他方面的限制放寬,創(chuàng)造更適合人類居住的系統(tǒng),這將使越來越重要的 語言模型可以得到盡可能多的約束,也許結(jié)合句法,并不能由純粹的統(tǒng)計(jì)模型捕獲語義約 束。 適應(yīng): 如何能 適應(yīng)系統(tǒng)不斷變化的條件(新?lián)P聲器,麥克風(fēng),任務(wù)等)和使用,通過使用改 進(jìn)?這種適應(yīng)可能發(fā)生在多層次的系統(tǒng),模型子字,詞的發(fā)音,語言模型等。目前,當(dāng)系統(tǒng)時(shí)常遭受重大 退化時(shí),它便移動(dòng)到一個(gè)新的任務(wù)上。在信道特征的差異和聲學(xué)環(huán)境上應(yīng)受到特別重視。 三 未來發(fā)展方向 1992 年,美國(guó)國(guó) 家科學(xué)基金會(huì)主辦的研討會(huì),以確定人類語言技術(shù)領(lǐng)域重點(diǎn)研究的 挑戰(zhàn),以及工作需要的基礎(chǔ)設(shè)施支持。在語料庫的總機(jī)電話 交談字識(shí)別率是 50%左右。他們的表現(xiàn)可以得到進(jìn)一步加強(qiáng),如果可以報(bào)考,如支配的具體領(lǐng)域限制的醫(yī) 療報(bào)告。 目前,一些非常大的詞匯聽寫系統(tǒng)可用于文檔生成。在語音撥號(hào),例如,用戶可以撥打 10 20 語音電話號(hào)碼(例如,打 電話回家后)登記,說他們的聲音與電話號(hào)碼相關(guān)的話。在未來幾年中,語音識(shí)別的電話網(wǎng)絡(luò)將在世界各地普 遍存在。 隨著語音識(shí)別性能的不斷改善,系統(tǒng)現(xiàn)正部署在電話和許多國(guó)家的蜂窩網(wǎng)絡(luò)。語音系統(tǒng)成立多年,使用鼓勵(lì)詞 后,研究機(jī)構(gòu)從 1992 年開始向超大詞匯( 20210 字以上),高混亂度( P≈200),獨(dú)立連 續(xù) 語音識(shí)別發(fā)展。例如,在航空旅游信息服務(wù)( ATIS)域,超過 3%的誤碼誤率少報(bào)了近 2021 字的詞 匯和二元語言模型大約 15 的混亂度。最好的獨(dú)立執(zhí)行任務(wù)的語音設(shè)備執(zhí)行 RM 任務(wù)不超過 4%,用文字語言模型約束給定的單詞。對(duì)于美國(guó)英語,獨(dú) 立演講者的連續(xù)數(shù)字串識(shí)別和電話寬帶限制的語音可以達(dá)到 %的誤碼率,前提是字符 串的長(zhǎng)度已知。 事實(shí)上,合理性能的語音識(shí)別系統(tǒng)現(xiàn)在可以 在無附加設(shè)備的高端工作站隨時(shí)運(yùn)行 這在幾年之前仍是個(gè)不可思議的想象。 提供大容量存儲(chǔ)能力的快速 且低廉的電腦,使研究人員能夠短時(shí)間運(yùn)行許多大型規(guī)模的實(shí)驗(yàn)。公共 領(lǐng)域最近提供的數(shù)據(jù)按照評(píng)價(jià)標(biāo)準(zhǔn)的規(guī)范,致使試驗(yàn)結(jié)果相同,從而有助于提高監(jiān)測(cè)的可 靠性(語料庫發(fā)展活動(dòng)的主體和評(píng)價(jià)方法,分別在 12 和 13 章作了總結(jié))。 十年前,研究人員僅測(cè)試他們的 系統(tǒng)培訓(xùn)和利用當(dāng)?shù)厥占臄?shù)據(jù),并沒有很仔細(xì)劃分培訓(xùn)和測(cè)試。盡管許多語料(如論文利用 TIMIT,馬 幣,車號(hào)自動(dòng)識(shí)別等,參見 節(jié))原本是在美國(guó)國(guó)防部高級(jí)研究計(jì)劃局的贊助下收集的 人類的語言來刺激其承辦商的技術(shù)發(fā)展,然而他們獲 得了世界的廣泛認(rèn)可(例如,英國(guó), 加拿大,法國(guó),德國(guó),日本,)作為評(píng)價(jià)標(biāo)準(zhǔn)來建立語音識(shí)別。 如今,這并非罕見有成千上 萬可行的句子提供給系統(tǒng)來訓(xùn)練及測(cè)試。 第二,很大的努力已經(jīng)投入到語音系統(tǒng)大量詞匯識(shí)別的發(fā)展、訓(xùn)練和測(cè)試上。 首先, HMM 時(shí)代即將到來?;? 礎(chǔ)技術(shù)已取得了重大的進(jìn)展,從而降低了說話人獨(dú)立語音,連續(xù)語音及大詞匯量語音識(shí)別的障礙。 過去十年目睹識(shí)別技術(shù)在語音方面取得重大進(jìn)展。 例如,當(dāng)詞匯量小,整個(gè)單詞可以建模為一個(gè)單元。 二 目前發(fā)展現(xiàn)狀 討論目前的發(fā)展?fàn)顩r ,需要聯(lián)系到具體應(yīng)用的環(huán)境 ,他影響到了任務(wù)的制約性。另一種方法,是先找出語音片段,然后將這些片段分類并使用片段性 能來識(shí)別文字?;? HMM 是一種雙隨機(jī)模型,基本音素字符串和框架的生成,表面聲波的變現(xiàn)都作為馬氏過 程來表述,在本章節(jié)中所討論的和 節(jié)中的神經(jīng)網(wǎng)絡(luò)也被用來估算框架的基本性能,然 后將這些性能集成到基于 HMM 的系統(tǒng)架構(gòu)中,即現(xiàn)在被稱為的混合系統(tǒng)所述的,參見第 節(jié)。統(tǒng)計(jì)語言的模型 基于對(duì)字序列的發(fā)生頻率的估計(jì),常常通過可能的詞序來引導(dǎo)搜索。 字級(jí)差異可以由發(fā)音網(wǎng)絡(luò)中可描述的字詞的候選發(fā)音來處理。語音改編法則還開發(fā)出適應(yīng)說話人獨(dú)立聲學(xué)模型 以適應(yīng)那些目前在系統(tǒng)中使用的說 話人語音樣本(參見文章)。在信號(hào)描述的層面上,研究 人員已經(jīng)開發(fā)出了感性地強(qiáng)調(diào)重要發(fā)言者獨(dú)立語音信號(hào)的特征,以及忽略發(fā)言者依賴環(huán)境 的語音信號(hào)特征。 整個(gè)過程中,訓(xùn)練數(shù)據(jù)是用來確定模型 參數(shù)值的。數(shù)字化語音信號(hào)先轉(zhuǎn)換 成一系列有用 的測(cè)量值或有特定速率的特征,通常每次間隔 10 20毫秒(見第 章節(jié),分別描述了模 擬信號(hào)和數(shù)字信號(hào)的處理)。最后,社 會(huì)語言學(xué)背景,方言的差異和聲道的大小和形狀更進(jìn)一步促進(jìn)了演講者的差異性 。 其次,聲變異可能由環(huán)境變化,以及傳輸介質(zhì)的位置和特征引起。 這些語音的變異性正好由音素的聲學(xué)差異做出了驗(yàn)證 。 語音識(shí)別是一個(gè)困難的問題,主要是因?yàn)榕c信號(hào)相關(guān)的變異有很多來源。 一種普及的任務(wù)的難度測(cè)量,詞匯量和語言模型相結(jié)合的語音比較復(fù)雜,大量語音的 幾何意義可以按照語音模型的應(yīng)用定義寬泛些(參見文章對(duì)語言模型普遍性與復(fù)雜性的詳 細(xì)討論)。 最簡(jiǎn)單的語言模型可以被指定為一個(gè)有限狀態(tài)網(wǎng)絡(luò),每個(gè)語音所包含的所有允許的詞 語都能顧及到。 當(dāng)詞匯量比較大或有較多象聲詞的 時(shí)候,識(shí)別起來一般比較困難。有些系統(tǒng)要求發(fā)言者登記 —— 即用 戶在使用系統(tǒng)前必須為系統(tǒng)提供演講樣本或發(fā)言底稿,而其他系統(tǒng)據(jù)說是獨(dú)立揚(yáng)聲器,因 為沒有必要登記。它們也 可以作為處理輸入的語言,以便進(jìn)一步實(shí)現(xiàn)語音理解,在第一個(gè)主題涵蓋。s intentions (., sarcasm, anger). Current systems do not capture prosodic structure. How to integrate prosodic information into the recognition architecture is a critical question that has not yet been answered. Modeling Dynamics: Systems assume a sequence of input frames which are treated as if they were independent. But it is known that perceptual cues for words and phonemes require the integration of features that reflect the movements of the articulators, which are dynamic in nature. How to model dynamics and incorporate this information into recognition systems is an unsolved problem. 語音識(shí)別 舒維都,羅恩科爾,韋恩沃德 麻省理工學(xué)院計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室,劍橋,馬薩諸塞州,美國(guó) 俄勒岡科學(xué)與技術(shù)學(xué)院,波特蘭,俄勒岡州,美國(guó) 卡耐基梅隆大學(xué),匹茲堡,賓夕法尼亞州,美國(guó) 一 定義問題 語音識(shí)別是指音頻信號(hào)的轉(zhuǎn)換過程,被電話或麥克風(fēng)的所捕獲的一系列的消息。T, on the other hand, has installed a call routing system using speakerindependent wordspotting technology that can detect a few key phrases (., person to person, calling card) in sentences such as: I want to charge it to my calling card. At present, several very large vocabulary dictation systems are available for document generation. These systems generally require speakers to pause between words. Their performance can be further enhanced if one can apply constraints of the specific domain such as dictating medical reports. Even though much progress is being made, machines are a long way from recognizing conversational speech. Word recognition rates on telephone conversations in the Switchboard corpus are around 50%. It will be man
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1