【正文】
峰頻率等。 共振峰的分布位置是建立在 聲音 產(chǎn)生媒介的共鳴物理結(jié)構(gòu)基礎(chǔ)上的( Resonant Physical Structure)。 語音情感識別系統(tǒng) 預 處 理 特 征 提 取情 感 語 音 輸 入模 式 匹 配模 板 庫參 考 模 式識 別 結(jié) 果 輸 出 圖 21 典型語音情感識別系統(tǒng)的框圖 語音情感識別系統(tǒng)與語音識別系統(tǒng)類似,分為 語音情感語句預處理、特征參數(shù)提取和模式匹配三個部分。相對于自然型情感語音,表演型情感語音較容易獲取,可控制性較強,可以根據(jù)需要錄制任意說話內(nèi)容的情感語句。 情感語音數(shù)據(jù)庫 要對語音進行情感識別,情感語音數(shù)據(jù)庫的建立是基礎(chǔ)。而 Plutchik 提出過八種基本情緒 [17]悲痛、恐懼 、驚奇、接受、狂喜、狂怒、警惕、憎恨 。 第五章重點介紹了倒譜法提取共振峰的過程。 ,并得出結(jié)論。 ( 1)虛假峰值 ( 2)共振峰合并 ( 3)高音調(diào)語音 。 臺灣大同大學資訊工程學系的包蒼龍教授領(lǐng)導的數(shù)據(jù)通訊與信號處理實驗室也較早地致力于普通話語音情感識別的研究。首次將語音的聲學信息、詞匯和語義信息結(jié)合,并將模糊推論系統(tǒng)用于識別系統(tǒng),初步試驗結(jié)果表明,結(jié)合這三種信息進行語音信號的情感識別要比單純使用聲學信息識別率平均提 高了%[9]。 2 美國 MIT 媒體實驗室 Rosalind Wpicard 教授領(lǐng)導的情感研究組織首次嘗試了用基頻、時長、音質(zhì)和清晰度等聲學參數(shù)的變化來合成情感語音。共振峰作為情感特征信息的非韻律特征參數(shù),我們研究提取它的方法對包含在語音信號中的情感信息分析和處理是極其有意義的 [1][2]。近年來,人們研究發(fā)現(xiàn)情感所引起的語音信號變化對語音識別、語音合成、說話人確認等方面有較大影響,所以語音情感處理的研究逐步提高了人們的重視。 Formant parameters。所以研究情感語音信號中共振峰參數(shù)是有很大意義的。 ( 4)求根法提取共振峰:找出多項式復根 的過程通常采用牛頓 — 拉夫遜 ( NewtonRaphson) 算法。所以共 振峰已經(jīng)廣泛地用作語音識別的主要特征和語音編碼的基本信息。 原始數(shù)據(jù): 1:共振峰研究意義 隨著多模態(tài)人機交互技術(shù)的發(fā)展,新型人機交互模式的應用前景更加廣闊。 4:寫一篇論文并給出共振峰提取結(jié)果。人在語音感知中也利用了共振峰信息。 ( 3) LPC法提取共振峰:從線性預測導出的聲道濾波器是頻譜包絡估計器的最新形式, 線 性預測提供了一個優(yōu)良的聲道模型 (條件是語音不含噪聲) 。共振峰頻率是反映聲道諧振特性的重要特征,它代表了發(fā)音信息的最直接的來源。 關(guān)鍵詞 : 語音情感識別;共振峰參數(shù);共振峰提取方法;倒譜法 II Extraction method of emotional speech signal of the formant parameters Abstract Speech emotion recognition is one of the hot research of new humanputer interaction technology, which has a wide application prospect in artificial intelligence. Formant frequency is an important characteristic of reflecting the resonant characteristics of channel, it represents the pronunciation of the most direct source of information. So the research of emotional speech signal of the formant parameters is of great significance. Based on the importance of formant parameter in the emotional speech signals, this paper mainly studied the extraction method of emotional speech signal of the formant parameters. Several main methods of extraction of formant are: spectral envelope extraction, cepstrum method and LPC method. Since cepstrum based on the number of inverse Fourier transform power spectrum, it can separate spectral envelope and the fine structure and get very precise information on the formant, so this paper focuses on research cepstrum formant extraction. This paper use MATLAB software cepstrum emotional state to achieve happy, angry and neutral three formant parameter extraction. Analysis to extract a result, I get some of the following conclusions: Relative to the neutral pronunciation, the happy and angry the first formant frequency is relatively increased. Pronunciation features from the human point of view, people are happy and angry expression, mouth to pronounce than when Zhang was more calm, so there will be such an oute. So, you can use the formant speech as a means to distinguish between different emotions. Key Words: Speech Emotion Recognition。語音情感識別是語音識別的一個重要的分支,而語音識別則是數(shù)字信號處理技術(shù)與語音學的交叉學科,它和心理學、計算機科學、認知科學、 語言學、人工智能和模式識別等學科緊密聯(lián)系。如果講話者的發(fā)音中包含喜、怒、哀、樂等情感信息,那么講話者的聲道形狀就會發(fā)生不同的變化。 國際情感語音識別發(fā)展現(xiàn)狀 目前,關(guān)于情感的研究正處在不斷的深入之中,語音的情感識別因為涉及到不同語種之間的差異,發(fā)展也不盡相同。在語音情感識別方面,他們以客服系統(tǒng)的呼叫中心為應用背景,研究識別正面情感和負面情感。將韻律特征分解為純語音的特征和純情感的特征,并將后者運用于語音情感識別,用多層 感知器對六種情感進行識別,得到平均 %的識別率 [12]。 。 ,并利用這種方法提取情感 語音中的共振峰。包括譜包絡提取法、倒譜法提取共振峰、 LPC 法提取共振峰、求根法提取共振峰和 LPC 倒譜法提取共振峰,并簡單分析了這幾種提取共振峰方法的優(yōu)缺點。 美國心理學家 Eckman 提出了六種基本情緒 [16]: 憤怒、恐懼、悲傷、驚訝、高興和厭惡。 盡管心理學、認知學等領(lǐng)域的研究人員對于情感種類的定義五花八門,但在目前絕大多數(shù)的語音情感識別系統(tǒng)中 ,使用的情感類別是 MPEG4 國際標準定義的五種情感狀態(tài),即 “憤 怒 (Anger)”、“ 恐懼 (Fear)”、“ 高興 (Happiness)”、“ 悲傷 (Sadness)” 和 “ 驚訝 (Surprise)” ,外加 “中立 (Neutral)” 來表征語音不具有情感含義。 表演型情感語音是指情感表現(xiàn)力較強的演員模仿不同情感朗誦指定語句獲得的情感語料。本文應用的是由高興、生氣、中立三種情感語音組成的情感語音數(shù)據(jù)庫,每種情感語音分別有中英文兩種語言,所用情感語句的中文文本為“我到北京去”英文文本為“ Good morning”以 wav 格式存儲,持續(xù)時間五秒以內(nèi),經(jīng)過反復的主觀聽覺實驗,認為該情感語音數(shù)據(jù)庫的語料情感辨識度較高,自然度也比較理想,可以滿足本文的研究需求。共振峰信息包含在頻率包絡之中,因此共振峰參數(shù)提取的關(guān)鍵是估計自然語音頻譜包絡,一般認為譜包絡中的最大值就是共振峰 [1]。我們之所以能夠區(qū)分不同的人聲、元音,主要也是依靠它們的共振峰分布的位置。甚至在采用線性預測方法時,也并非沒有虛假峰值。即使采用線性預測進行頻譜包絡估計也會出現(xiàn)這個問題。這樣,由 h(n)經(jīng) DFT 得到的 H(k),就是聲道的離散譜曲線,用 H(k)代替直接 DFT 的頻譜,因為去除了激勵引起的 諧波波動,所以可以更精確地得到共振峰參數(shù)。為了 提高 DFT 的頻率分辨率,可以采用補 0 的辦法增加序列的時間長度,即用( 1, a1, a2,?, ap, 0,0,?, 0)進行 DFT,為了能利用 FFT,長度一般取為 64 點、 128 點、 256 點、 512 點等。 具體過程是:設(shè):ijii erz ??為第一個根,則其共軛值 ijii erz ???也是一個根。下面求 h(n)的倒譜 )(nh? ,首先根據(jù)同態(tài)分析方法,有 )(log)(? zHzH ? 因為)(zH 是最小相位的,即在單位圓內(nèi)是解析的,所以 )(?zH 一定可以展開成級數(shù)形式,即???? ?? 1 )(?)(? n nznhzH 就是說 )(?zH 的逆變換 )(?nh 是存在的。 求根法求取共振峰的優(yōu)點在于通過對預測多項式系數(shù)的分解可以精確地確定共振峰的中心頻率和帶寬。研究討論了數(shù)字濾波器 H(z)在 z平面上的幅 頻、相 頻特性,分析比較了對數(shù)幅 頻特性的二次導數(shù)、相 頻特性的一次導數(shù)和三次導數(shù)的頻率分辨率。采用了優(yōu)化動態(tài)搜索的算法,提高了運算速度。 16 第 5章 倒譜法提取共振峰的實現(xiàn) 倒譜的定義 設(shè)信號 )(nx 的 z 變換為 )]([)( nxzzX ? ,其對數(shù)為 ) ] ]([ln [)(ln)(? nxzzXzX ?? () 那么 )(?zX 的逆 z 變換可寫成 )]]([[ ln)]([ ln)](?[)(? 111 nxzzzXzzXznx ??? ??? () 取 ?jez? ,式( )可寫為 )](a r g [)(ln)](l n [)(? ???? jjjj eXjeXeXeX ??? () 式( )可寫為 ??? ?? ?? ?? deeXnx njj )(?21)(? () 則式( )即為信號 )(nx 的復倒譜 )(?nx 的定義。選擇最普遍的極零模型來描述聲道響應 x(n),其 z 變換的形式為: ? ? ? ?? ? ? ?? ?? ?? ??? ???????iipkpkkkmkmkkkzdzczbzaAzX1 111 11001111)( () 經(jīng)過傅立葉變換、取對數(shù)和逆傅立葉變換后可以得到其復倒譜: ???????????????? ?? ?? ???? ?0 01 11 1)0()0()0(ln)(?mkpknknkpkmknknknndnbnnancnAnxi i () 對于倒譜可以只考慮它的幅度特性,可以看出,它是一個衰減序列,且衰減的速度n1快。對倒譜進行低時選窗,通過語音倒譜分析系統(tǒng)的最后一級,進行 DFT 后的輸出即為平滑后的對數(shù)模函數(shù),這個平滑的對數(shù)譜顯示了特定輸入語音段的諧振結(jié)構(gòu),即譜的 峰值基本上對應于共振峰頻率,對平滑過的對數(shù)譜中的峰值進行定位,即可提取共振峰。 ( 3) 重點介紹倒譜法以及倒譜法提取語音信號中共振峰的原理與具體過程,并實現(xiàn)運用倒譜法實現(xiàn)共振峰的提取。所以需要對情感語音共振峰提取方法做出進一步改進,使提取效果更佳完善。 其次我要感謝在論文研究期間一起討論,互相學習的同組同學,是他們讓我看到了自己的不足,也讓我在討論中得到了進步。在我有問題向她請教時,無論問題大小,她都耐心的給我講解。同時提高情感語音表達的自然度,擴大情感語料的涉及范圍,并且盡可能的使語音庫涵蓋多個語種。