正文內(nèi)容

語音技術(shù)前沿及應用(編輯修改稿)

2025-09-12 03:02 本頁面

　

【文章內(nèi)容簡介】音人在表達不同情感時聲源參數(shù)對應的“音質(zhì)” (Voice Quality)特征的變化規(guī)律； 4. 情感語音合成系統(tǒng)的建立，包括采用參數(shù)調(diào)整、 Voice Conversion方法等。中立合成情感合成高興生氣難過語音識別技術(shù) ? 即 Automatic Speech Recognition過程 ,簡稱ASR技術(shù) ? 主要解決將語音信息轉(zhuǎn)化為文本狀態(tài)的文字信息的問題 ? 可以分為以下幾個方面的技術(shù) – 說話人鑒別 – 孤立詞識別 – 連續(xù)語音識別語音識別技術(shù)回顧語音識別的歷史 ? 相對語音合成，語音識別更加困難，在電子計算機發(fā)明以前，很難進行這方面的工作年代里程碑 1970’s HMM統(tǒng)計參數(shù)模型被發(fā)明，引發(fā)了語音識別的革命 1971 DARPA開始支持語音識別工作 1982 第一個語音識別公司： Dragon公司成立 1994 Nuance公司成立，現(xiàn)在最強大的語音識別技術(shù)提供商 ? 語音識別的復雜性 – 孤立詞 /連續(xù)語音？ Isolated or Continuous speech – 認人 /不認人？ Speakerdependent or Independent – 小詞匯量 /大詞匯量？ Small or large vocabulary – 安靜環(huán)境 /噪雜環(huán)境？ Environment robustness – 一般信道 /電話信道？ Channel adaptability 語音識別技術(shù) 語音輸入結(jié)果輸出判決比較特征提取模板 ? 最基本的孤立字識別系統(tǒng) 語音識別技術(shù) ? 現(xiàn)代語音識別系統(tǒng)組成 – 前端處理（特征參數(shù)提?。? ? 最大限度地冗余信息的剔出，和最大限度地語音的區(qū)別特征的保留，同時具有 ROBUST。例： LPC， LSP， DFT， MFCC。 – 模型的建立與學習（生學模型、語言模型） ? 聲學模型建立與學習：模板， HMM。 ? 語言模型建立與學習：詞 BIGRAM， TRIGRAM,POS BIGRAM， ? 有監(jiān)督學習和無監(jiān)督學習 ? 自適應學習： OFF LINE 有監(jiān)督與無監(jiān)督， ON LINE 無監(jiān)督 – 識別（分類） ? 最佳路徑搜索，決策最可能的結(jié)果 ? 識別方法的有效性（運算量與最優(yōu)性的矛盾）， ROBUST性語音識別技術(shù) 電壓放大A/D轉(zhuǎn)換端點檢測預加重語音文件特征提取基元匹配語法分析模型庫語言模型低通濾波預處理部分聲學－語音學匹配層語言學匹配層實時輸入非實時輸入模擬語音組合成字或詞字典現(xiàn)代語音識別系統(tǒng)系統(tǒng)構(gòu)成圖語音識別技術(shù) 隱馬爾可夫模型（ HMM）語音識別技術(shù) ? 電話語音識別技術(shù) – 電話信道環(huán)境下的非特定人連續(xù)語音識別 – 考慮到電話信道特性，噪音，話機的差別等因素的語音識別 ROBUST問題的研究 – 電話信道環(huán)境下的非特定人連續(xù)語音識別數(shù)據(jù)庫的建立語音識別技術(shù) 安徽炫鈴 20次實際撥打記錄分析 ? 撥打時間： 2022512 ? 20次撥打，識別動作 436次，產(chǎn)生聲音 296句占％，人聲 171句占％ ? 171句人聲，語法內(nèi)句子％ ? 語法內(nèi)正確識別率 % 嵌入式語音識別現(xiàn)有 ASR的技術(shù)應用 ? 近年來 ASR核心研究的前進步伐放慢，性能幾乎飽和 ? 現(xiàn)有系統(tǒng)魯棒性還比較差 – 使用時需要用戶很好配合 – 在噪聲背景下，識別性能下降明顯，現(xiàn)有的信號處理方法收效甚微 – 面對對話中出現(xiàn)不符合語法的病句，集外詞，任務外的詞，說話習慣的嗯啊 ….等，現(xiàn)有的系統(tǒng)難以勝任 ? 和人類識別語音相比誤差率要大一到兩個數(shù)量級。 ? 這樣的識別性能難以直接應用，但只要用戶界面設計、實現(xiàn)的好，現(xiàn)有的技術(shù)可以發(fā)揮其應有的價值！語音編碼技術(shù) ? 語音編碼技術(shù)的基本原理 – 產(chǎn)生語音信號的源濾波器模型 – 碼激勵語音編碼技術(shù) – 分析 /合成語音編碼技術(shù) 語音編碼技術(shù) 產(chǎn)生語音信號的源濾波器模型沖激序列發(fā)生器音調(diào)周期隨機噪聲發(fā)生器聲門波模型XX振幅Av振幅Au聲道模型信號輻射模型語音信號濁/ 清音開關(guān)語音壓縮編碼技術(shù)最新動態(tài) MOS分速率 ( kb /s)壞 1差 2可 3良 4優(yōu) 52 1684 6432ttt混合編碼波形編碼P CM聲碼器tG. 7 2 8G. 7 2 1G. 7 1 1G. 7 1 1 6 4 kb /s P CMG. 7 2 1 3 2 kb /s A DPCMG. 7 2 8 1 6 kb /s L D CEL PtttG. 7 2 9G. 7 2 3 .1G. 7 2 9 8 kb /s CSACEL PG. 7 2 3 .1 5 .3 kb /s MPM L Q kb/s AC EL P語音編碼技術(shù) 身份識別和確認（聲紋識別） ? 功能：通過語音識別或確認說話人身份 ? 分類： – 身份確認、身份識別 – 文本相關(guān)、文本無關(guān) ? 難點： – 相同人不同身體狀態(tài)的音色有差別 – 要防止惡意的模仿 ? 方法： – GMM， HMM ? 水平： – 1000個人， 97%以上的識別正確率音色分類 ? 功能：通過語音識別或確認說話人音色 ? 分類： – 男女、老中少、南北方 ?

點擊復制文檔內(nèi)容

教學課件相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

語音技術(shù)前沿及應用(編輯修改稿)

vpn技術(shù)及應用ppt課件-資料下載頁

cr技術(shù)及應用ppt課件-資料下載頁

ki技術(shù)及應用ppt課件-資料下載頁

光纖技術(shù)及應用ppt課件-資料下載頁

a生物工程前沿技術(shù)-資料下載頁

gnss測量技術(shù)及應用-資料下載頁

mstp技術(shù)及組網(wǎng)應用-資料下載頁

dsp技術(shù)原理及應用-資料下載頁

bim技術(shù)應用及案例-資料下載頁

plc控制技術(shù)及應用-資料下載頁

巷道爆破技術(shù)及應用-資料下載頁

網(wǎng)絡rtk技術(shù)及應用-資料下載頁

強化傳熱技術(shù)及應用-資料下載頁

erp技術(shù)原理及應用-資料下載頁

adsl技術(shù)原理及應用-資料下載頁

語音技術(shù)前沿及應用-文庫吧在線文庫

語音技術(shù)前沿及應用(完整版)

語音技術(shù)前沿及應用(更新版)

語音技術(shù)前沿及應用(專業(yè)版)

語音技術(shù)前沿及應用(留存版)