【正文】
and Machines, 1999, 9:443447. [4] Cowie R and Cornelius R. Describing the emotional stares that are expressed in Speech[J], HumanComputer Studies, 2020, 40:53. [5] D Ververidis and C Kotropoulos, Emotional speech recognition:Resources, features and methods[J], Speech Communication, 2020, 48(9):11621181. [6] Cowie, , , MeMahon, , , ’:An Instrument for Recording Perceived Emotion in Real Time. In ISCA Workshop on Speech and Emotion, Belfast 2020. [7] Cowie, , and hearers are people:Reflections on Speech deterioration as a consequence of acquired deafness in Profound Deafness and Speech Communication. London, 1995. [8] , , statistical analysis of the signal and prosodic signs of emotion in Proc. 4th Int. Conf. Spoken Language , PA, 1996:19891992. [9] 趙力 , 蔣春輝 , 鄒采榮 . 語音信號(hào)中的情感特征分析和識(shí)別的研究 [N]. 電子學(xué)報(bào) , 2020, 4:606609. [10] 付麗琴 , 王玉寶 , 王長江 . 基于多特征向量的語音情感識(shí)別 [J]. 計(jì)算機(jī)科學(xué) , 2020, 36(6):231134. 專業(yè)班級(jí) 通信 0902 班 學(xué)生 趙智越 要求設(shè)計(jì)(論文)工作起止日期 2020 年 2 月 25 日 — 2020 年 6 月 16 日 指導(dǎo)教師簽字 日期 教研室主任審查簽字 日期 系主任批準(zhǔn)簽字 日期 第 4 頁 I 情感語音信號(hào)中共振峰參數(shù)的提取方法 摘 要 語音情感 識(shí)別是新型人機(jī)交互技術(shù)的研究熱點(diǎn)之一,在人工智能方面有著較廣泛的應(yīng)用前景。 去除了激勵(lì)引起的諧波波動(dòng), 所以可以更精確地得到共振峰參數(shù)。所以共振峰是語音信號(hào)處理中非常重要的特征參數(shù),已經(jīng)廣泛地用作語音識(shí)別的主要特征和語音編碼傳輸?shù)幕拘畔ⅰ? 3:用一種共振峰提取方法實(shí)現(xiàn)情感語音中共振峰的提取。語音作 為一種自然有效的人機(jī)交互方式,成為當(dāng)前的研 究熱點(diǎn)。 語音的頻率特性主要是由共振峰決定的,當(dāng)聲音沿聲管傳播時(shí),其頻譜形狀就會(huì)隨聲管而改變。 ( 5) LPC 倒譜法提取共振峰:語音信號(hào)的倒譜可以通過對(duì)信號(hào)做傅里葉變換, 取模的對(duì) 數(shù), 再求反傅里葉變換得到。 基于共振峰參數(shù)在情感語音信號(hào)中的重要性,本文主要研究了情感語音信號(hào)中共振峰參數(shù)的提取方法。 Formant extraction method。目前有很多研究者在致力于研究并處理語音情感信息有效方法以及情感對(duì)語音的影響。 情感語音識(shí)別技術(shù)的國內(nèi)外發(fā)展現(xiàn)狀 九十年代中期 之后,語音情感信息處理受到了越來越多的關(guān)注,這方面的研 究也在不斷深入,并取得了一定的進(jìn)展。她后來又驗(yàn)證了情感狀態(tài)與語音聲學(xué)參數(shù)的相關(guān)性,并提出悲傷情感最容易區(qū)分,而高興、驚訝和憤怒等具有相似的語音特性參數(shù),不容易區(qū)分 [3]。 C N Anagnostopoulos 和 T ,提取了 133 個(gè)語音特征來識(shí)別其中語音情感,根據(jù)統(tǒng)計(jì)分析來估計(jì)每種語音特征、人工神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練情感分類,最后達(dá)到了平均 51%的識(shí)別率 [10]。他們構(gòu)建一個(gè)包含憤怒、高興、悲傷、厭煩和中立五個(gè)情感類別,約 800 句情感語音的普通話情感語音數(shù)據(jù)庫。 ( 1)譜包絡(luò)提取法 共振峰信息包含在語音頻譜包絡(luò)中,因此共振峰參數(shù)提取的關(guān)鍵是估計(jì)自然語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。 本文的結(jié)構(gòu)安排 第一章是緒論,說明了本文的選題意義,概括介紹了情感語音識(shí)別的國內(nèi)外發(fā)展現(xiàn)狀,最后介紹了本文的主要研究內(nèi)容及結(jié)構(gòu)安排。首先介紹了倒譜的定義以及倒譜法提取共振峰的原理,接下來畫出了共振峰提取框圖和共振峰提取流程圖,最后給出了情感語音中高興、生氣和中立的共振峰提取結(jié)果。 Shaver 等人則認(rèn)為原始情緒有憤怒、愛、高興、害怕、悲傷、驚訝六類 [18],這和 Eckman 的六類墓本情緒存在微小差異 。怎么樣才能獲取高質(zhì)量的情感語音是建立語音庫的關(guān)鍵問題。然而表演型情感語句中的情感成分被夸張了,而且自然度也受說話人的演技高低影響。其識(shí)別過程如下 :首先對(duì)情感語句進(jìn)行預(yù)處理,語音情感語句預(yù)處理包括預(yù)加重、分幀加窗和端點(diǎn)檢測(cè)等 。 無論是人聲還是樂器,它們的聲音特性都源自兩個(gè)因素,一個(gè)是發(fā)聲 系統(tǒng),如人的聲帶或樂器的 振動(dòng) 簧片,另一個(gè)是共鳴系統(tǒng)。共振峰是反映聲道諧振特性的重要特征,它 代表了發(fā)音信息的最直接來源,而且人在語音感知中利用 了共振峰信息,所以共振峰參數(shù)的提取一直以來都是語音信號(hào)處理領(lǐng)域中重要的研究題之一。 ( 2)共振峰合并。 9 第 4章 共振峰的提取方法及分析 譜包絡(luò)提取法 共振峰信息包含在語音頻譜包絡(luò)中,因此共振峰參數(shù)提取的關(guān)鍵是估計(jì)自然語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。盡管線性預(yù)測(cè)法的頻率靈敏度和人耳不相匹配,但它仍是最廉價(jià)、最優(yōu)良的行之有效的方法。 圖 43 LPC 譜估計(jì)法求取的共振峰參數(shù)圖 求根法提取共振峰 找出多項(xiàng)式復(fù)根的過程通常采用牛頓 — 拉夫遜( NewtonRaphson)算法。 因?yàn)轭A(yù)測(cè)器階數(shù) p 是預(yù)先選定的,所以復(fù)共軛對(duì)的數(shù)量最多是 p/2。這個(gè)倒譜是根據(jù)現(xiàn)行預(yù)測(cè)模型得到的,又稱為 LPC 倒譜。 14 圖 45 共振峰參數(shù)求取三種方法比較分析圖 當(dāng)前還有很多種新的共振峰提取方法,每個(gè)方法都是在傳統(tǒng)共振峰提取方法的基礎(chǔ)上進(jìn)行研究和改進(jìn)提出的,在一定的基礎(chǔ)上較好的實(shí)現(xiàn)了共振峰的提取,效果也較為理想,但都保留了一定的改進(jìn)空間供后來者繼承和研究創(chuàng)新。并且,與L(2)( ? ), ? (1)( ? )相比, ? (3)( ? )隨 k??? 增加而衰減得最快,并最終說明 ? (3)(? )具有最高的頻率分辨率, 能更有效地解決共振峰合并的問題,提取更精確的語音信號(hào)共振峰參數(shù) [24]。 LPC 法的缺點(diǎn)是用一個(gè)全極點(diǎn)模型逼近語音譜,對(duì)于含有零點(diǎn)的某些音來說 A(z)的根反映了極零點(diǎn)的復(fù)合效應(yīng),無法區(qū)分這些根是相 對(duì)于零點(diǎn)還是極點(diǎn),或完全與聲道的諧振極點(diǎn)有關(guān)。如果對(duì))( ?jeX 的絕對(duì)值取對(duì)數(shù),得 )(ln)(? ?? jj eXeX ? () 則 )(? ?jeX 為實(shí)數(shù),由此求出的倒頻譜 c(n)為實(shí)倒譜,簡(jiǎn)稱為倒譜,即 ??? ?? ?? ?? deeXnc njj )(ln21)( () 在式( )中,實(shí)部是可以取唯一值的,但對(duì)于虛部,會(huì)引起唯一性問題,因此要求相角為 ? 的連續(xù)奇函數(shù) [3]。 倒譜算法運(yùn)用對(duì)數(shù)運(yùn)算和二次變換將基音諧波和聲道的頻譜包絡(luò)分離開來。 18 分 幀 加 窗 ┃ F F T ┃ l o g I F F T 加 窗┃ F F T ┃l o g平 滑 處 理共 振 峰 圖 51 共振峰提取框圖 計(jì)算語音基音周期N點(diǎn)取倒譜的前N點(diǎn)加N點(diǎn)漢明窗計(jì)算頻譜formant1formant(1:2)=formant1(:2)T=2?平滑處理formant=formant2formant()=formant2(1)*+formant2()*+frmant2(+1)*繪圖 圖 52 共振峰提取流程圖 19 共振峰提取結(jié)果及結(jié)論分析 情感語音原始波形 圖 53 情感語音 —— 高興原始波形 圖 54 情感語音 —— 生氣原始波形 20 圖 55 情感語音 —— 中立原始波形 情感語音共振峰提取結(jié)果 圖 56 情感語音 —— 高興共振峰提取結(jié)果 21 圖 57 情感語音 —— 生氣共振峰提取結(jié)果 圖 58 情感語音 —— 中立共振峰提取結(jié)果 22 結(jié)論分析 本文所研究的高興、生氣、中立三種情感語音的錄音文本為“ Good morning”,時(shí)長為一秒,這三種情感語音的原始波形分別如圖 5 54 和 55 所示。 展望 本文對(duì)語音情感識(shí)別做了一些基礎(chǔ)性的研究,基本完成了情感識(shí)別和情感特征參數(shù)中共振峰的提取工作,但是在語音庫建立、情感語音共振峰提取方法 的選擇等很多方面仍然不夠完善,還需要進(jìn)行改進(jìn)和進(jìn)一步地深入研究,對(duì)于下一步 的研究工作建議從以下幾個(gè)方面開展 。孫老師嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度、淵博的知識(shí)和誨人不倦的師者風(fēng)范使我受益匪淺。 最后,我要感謝所有支持我和關(guān)心我的家人和朋友,衷心的謝謝你們! 27 外文原文 Formant position based weighted spectral features for emotion recognition Abstract In this paper, we propose novel spectrally weighted melfrequency cepstral coefficient (WMFCC) features for emotion recognition from speech. The idea is based on the fact that formant locations carry emotionrelated information, and therefore critical spectral bands around formant locations can be emphasized during the calculation of MFCC features. The spectral weighting is derived from the normalized inverse harmonic mean function of the line spectral frequency (LSF) features, which are known to be localized around formant frequencies. The above approach can be considered as an early data fusion of spectral content and formant location information. We also investigate methods for late decision fusion of unimodal classifiers. We evaluate the proposed WMFCC features together with the standard spectral and prosody features using HMM based classifiers on the spontaneous FAU Aibo emotional speech corpus. The results show that unimodal classifiers with the WMFCC features perform significantly better than the classifiers with standard spectral features. Late decision fusi