freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

語音技術(shù)前沿及應(yīng)用(編輯修改稿)

2024-09-12 03:02 本頁面
 

【文章內(nèi)容簡介】 音人在表達(dá)不同情感時聲源參數(shù)對應(yīng)的“音質(zhì)” (Voice Quality)特征的變化規(guī)律; 4. 情感語音合成系統(tǒng)的建立,包括采用參數(shù)調(diào)整、 Voice Conversion方法等。 中立合成 情感合成 高興 生氣 難過 語音識別技術(shù) ? 即 Automatic Speech Recognition過程 ,簡稱ASR技術(shù) ? 主要解決將語音信息轉(zhuǎn)化為文本狀態(tài)的文字信息的問題 ? 可以分為以下幾個方面的技術(shù) – 說話人鑒別 – 孤立詞識別 – 連續(xù)語音識別 語音識別技術(shù)回顧 語音識別的歷史 ? 相對語音合成,語音識別更加困難,在電子計(jì)算機(jī)發(fā)明以前,很難進(jìn)行這方面的工作 年代 里程碑 1970’s HMM統(tǒng)計(jì)參數(shù)模型被發(fā)明,引發(fā)了語音識別的革命 1971 DARPA開始支持語音識別工作 1982 第一個語音識別公司: Dragon公司成立 1994 Nuance公司成立,現(xiàn)在最強(qiáng)大的語音識別技術(shù)提供商 ? 語音識別的復(fù)雜性 – 孤立詞 /連續(xù)語音? Isolated or Continuous speech – 認(rèn)人 /不認(rèn)人? Speakerdependent or Independent – 小詞匯量 /大詞匯量? Small or large vocabulary – 安靜環(huán)境 /噪雜環(huán)境? Environment robustness – 一般信道 /電話信道? Channel adaptability 語音識別技術(shù) 語音輸入 結(jié)果輸出 判 決 比 較 特征提取 模 板 ? 最基本的孤立字識別系統(tǒng) 語音識別技術(shù) ? 現(xiàn)代語音識別系統(tǒng)組成 – 前端處理(特征參數(shù)提取) ? 最大限度地冗余信息的剔出, 和最大限度地語音的區(qū)別特征的保留,同時具有 ROBUST。 例: LPC, LSP, DFT, MFCC。 – 模型的建立與學(xué)習(xí)(生學(xué)模型、語言模型) ? 聲學(xué)模型建立與學(xué)習(xí):模板, HMM。 ? 語言模型建立與學(xué)習(xí):詞 BIGRAM, TRIGRAM,POS BIGRAM, ? 有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí) ? 自適應(yīng)學(xué)習(xí): OFF LINE 有監(jiān)督與無監(jiān)督, ON LINE 無監(jiān)督 – 識別(分類) ? 最佳路徑搜索,決策最可能的結(jié)果 ? 識別方法的有效性(運(yùn)算量與最優(yōu)性的矛盾), ROBUST性 語音識別技術(shù) 電壓放大A/D轉(zhuǎn)換端點(diǎn)檢測預(yù)加重語音文件特征提取基元匹配語法分析模型庫 語言模型低通濾波預(yù)處理部分聲學(xué)-語音學(xué)匹配層語言學(xué)匹配層實(shí)時輸入非實(shí)時輸入模擬語音組合成字或詞字典現(xiàn)代語音識別系統(tǒng)系統(tǒng)構(gòu)成圖 語音識別技術(shù) 隱馬爾可夫模型( HMM) 語音識別技術(shù) ? 電話語音識別技術(shù) – 電話信道環(huán)境下的非特定人連續(xù)語音識別 – 考慮到電話信道特性,噪音,話機(jī)的差別等因素的語音識別 ROBUST問題的研究 – 電話信道環(huán)境下的非特定人連續(xù)語音識別數(shù)據(jù)庫的建立 語音識別技術(shù) 安徽炫鈴 20次實(shí)際撥打記錄分析 ? 撥打時間: 2022512 ? 20次撥打,識別動作 436次,產(chǎn)生聲音 296句占%,人聲 171句占 % ? 171句人聲,語法內(nèi)句子 % ? 語法內(nèi)正確識別率 % 嵌入式語音識別 現(xiàn)有 ASR的技術(shù)應(yīng)用 ? 近年來 ASR核心研究的前進(jìn)步伐放慢,性能幾乎飽和 ? 現(xiàn)有系統(tǒng)魯棒性還比較差 – 使用時需要用戶很好配合 – 在噪聲背景下,識別性能下降明顯,現(xiàn)有的信號處理方法收效甚微 – 面對對話中出現(xiàn)不符合語法的病句,集外詞,任務(wù)外的詞,說話習(xí)慣的嗯啊 ….等,現(xiàn)有的系統(tǒng)難以勝任 ? 和人類識別語音相比誤差率要大一到兩個數(shù)量級。 ? 這樣的識別性能難以直接應(yīng)用,但只要用戶界面設(shè)計(jì)、實(shí)現(xiàn)的好,現(xiàn)有的技術(shù)可以發(fā)揮其應(yīng)有的價(jià)值! 語音編碼技術(shù) ? 語音編碼技術(shù)的基本原理 – 產(chǎn)生語音信號的源 濾波器模型 – 碼激勵語音編碼技術(shù) – 分析 /合成語音編碼技術(shù) 語音編碼技術(shù) 產(chǎn)生語音信號的源 濾波器模型 沖激序列 發(fā)生器音調(diào)周期隨機(jī)噪聲發(fā)生器聲門波 模型XX振幅Av振幅Au聲道模型信號輻射模型語音信號濁/ 清音開關(guān)語音壓縮編碼技術(shù)最新動態(tài) MOS分速率 ( kb /s)壞 1差 2可 3良 4優(yōu) 52 1684 6432ttt混合編碼波形編碼P CM聲碼器tG. 7 2 8G. 7 2 1G. 7 1 1G. 7 1 1 6 4 kb /s P CMG. 7 2 1 3 2 kb /s A DPCMG. 7 2 8 1 6 kb /s L D CEL PtttG. 7 2 9G. 7 2 3 .1G. 7 2 9 8 kb /s CSACEL PG. 7 2 3 .1 5 .3 kb /s MPM L Q kb/s AC EL P語音編碼技術(shù) 身份識別和確認(rèn)(聲紋識別 ) ? 功能:通過語音識別或確認(rèn)說話人身份 ? 分類: – 身份確認(rèn)、身份識別 – 文本相關(guān)、文本無關(guān) ? 難點(diǎn): – 相同人不同身體狀態(tài)的音色有差別 – 要防止惡意的模仿 ? 方法: – GMM, HMM ? 水平: – 1000個人, 97%以上的識別正確率 音色分類 ? 功能:通過語音識別或確認(rèn)說話人音色 ? 分類: – 男女、老中少、南北方 ?
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1