【正文】
太原理工大學(xué) 畢業(yè)設(shè)計(jì)(論文)任務(wù) 書 畢業(yè)設(shè)計(jì)(論文)題目: 情感語音信號(hào)中共振峰參數(shù)的提取方法 畢業(yè)設(shè)計(jì)(論文)要求及原始數(shù)據(jù)(資料): 要求: 1:大量查閱關(guān)于共振峰提取技術(shù)的資料(通過 Inter 或圖書館)。 2:分析總結(jié)各種共振峰的提取方法。 3:用一種共振峰提取方法實(shí)現(xiàn)情感語音中共振峰的提取。 4:寫一篇論文并給出共振峰提取結(jié)果。 原始數(shù)據(jù): 1:共振峰研究意義 隨著多模態(tài)人機(jī)交互技術(shù)的發(fā)展,新型人機(jī)交互模式的應(yīng)用前景更加廣闊。語音作 為一種自然有效的人機(jī)交互方式,成為當(dāng)前的研 究熱點(diǎn)。語音信號(hào)不僅包含語音信息, 還包含著說話人的情感信息。語音情感信息處理技術(shù)的研究對(duì)于提高計(jì)算機(jī)的智能化具 有重要的現(xiàn)實(shí)意義。 語音情感信息處理技術(shù)作為一個(gè)重要的研究領(lǐng)域已經(jīng)有很長(zhǎng)時(shí)間的研究歷史了,然 而在傳統(tǒng)語音信號(hào)處理中往往忽略了在語音信號(hào)中的情感因素。共振峰是反映聲道諧振 第 1 頁(yè) 特性的重要特征,它代表了發(fā)音信息的最直接的來源,而且人在語音感 知中利用了共振峰信息。所以共振峰是語音信號(hào)處理中非常重要的特征參數(shù),已經(jīng)廣泛地用作語音識(shí)別的主要特征和語音編碼傳輸?shù)幕拘畔?。人在語音感知中也利用了共振峰信息。所以共 振峰已經(jīng)廣泛地用作語音識(shí)別的主要特征和語音編碼的基本信息。 語音的頻率特性主要是由共振峰決定的,當(dāng)聲音沿聲管傳播時(shí),其頻譜形狀就會(huì)隨聲管而改變。如果講話者的發(fā)音中包含喜、怒、哀、樂等情感信息,那么講話者的聲道形狀就會(huì)發(fā)生不同的變化。共振峰作為情感特征信息的非韻律特征參數(shù),我們研究提取它的方法對(duì)包含在語音信號(hào)中的情感信息分析和處理時(shí)及其有意義的 。 2:共振峰的幾種提取方法 ( 1)譜包絡(luò)提取法:共振峰信息包含在語音頻譜包絡(luò)中, 因此共振峰參數(shù)提取的關(guān)鍵是 估計(jì)自然語音頻譜包絡(luò), 并認(rèn)為譜包絡(luò)中的最大值就是共振峰。 ( 2)倒譜法提取共振峰:因?yàn)榈棺V運(yùn)用對(duì)數(shù)運(yùn)算和二次變換將基音諧波和聲道的頻譜包 絡(luò)分離開來。 去除了激勵(lì)引起的諧波波動(dòng), 所以可以更精確地得到共振峰參數(shù)。 ( 3) LPC法提取共振峰:從線性預(yù)測(cè)導(dǎo)出的聲道濾波器是頻譜包絡(luò)估計(jì)器的最新形式, 線 性預(yù)測(cè)提供了一個(gè)優(yōu)良的聲道模型 (條件是語音不含噪聲) 。 ( 4)求根法提取共振峰:找出多項(xiàng)式復(fù)根 的過程通常采用牛頓 — 拉夫遜 ( NewtonRaphson) 算法。 ( 5) LPC 倒譜法提取共振峰:語音信號(hào)的倒譜可以通過對(duì)信號(hào)做傅里葉變換, 取模的對(duì) 數(shù), 再求反傅里葉變換得到。 第 2 頁(yè) 畢業(yè)設(shè)計(jì)(論文)主要內(nèi)容: 1:介紹情感語音信號(hào)共振峰提取的背景及研究意義,分析語音合成技術(shù)的國(guó)內(nèi)外研究現(xiàn) 狀、應(yīng)用領(lǐng)域。 。 ( 1)虛假峰值 ( 2)共振峰合并 ( 3)高音調(diào)語音 ,對(duì)多種共振峰提取方法進(jìn)行比較和分析。 ( 1)譜包絡(luò)提取法 ( 2)倒譜法提取共振峰 ( 3) LPC 法提取共振峰 ( 4)求根法提取共振峰 ( 5) LPC 倒譜法提取共振峰 ,分析其優(yōu)缺點(diǎn)并利用這種方法提取情感語 音中的共振峰。 學(xué)生應(yīng)交出的設(shè)計(jì)文件(論文): 1:開題報(bào)告 2:中期檢查 3:畢業(yè)論文 第 3 頁(yè) 主要參考文獻(xiàn)(資料): [1] 胡航 . 語音信號(hào)處理 [M]. 哈爾濱 : 哈爾濱工業(yè)大學(xué)出版社 , 2020: 113116. [2] 張剛 , 張雪英 , 馬建芬 . 語音處理與編碼 [M]. 北京 , 兵器工業(yè)出版社 , 2020. [3] Rosalind W Picard. Affective puting[J], Minds and Machines, 1999, 9:443447. [4] Cowie R and Cornelius R. Describing the emotional stares that are expressed in Speech[J], HumanComputer Studies, 2020, 40:53. [5] D Ververidis and C Kotropoulos, Emotional speech recognition:Resources, features and methods[J], Speech Communication, 2020, 48(9):11621181. [6] Cowie, , , MeMahon, , , ’:An Instrument for Recording Perceived Emotion in Real Time. In ISCA Workshop on Speech and Emotion, Belfast 2020. [7] Cowie, , and hearers are people:Reflections on Speech deterioration as a consequence of acquired deafness in Profound Deafness and Speech Communication. London, 1995. [8] , , statistical analysis of the signal and prosodic signs of emotion in Proc. 4th Int. Conf. Spoken Language , PA, 1996:19891992. [9] 趙力 , 蔣春輝 , 鄒采榮 . 語音信號(hào)中的情感特征分析和識(shí)別的研究 [N]. 電子學(xué)報(bào) , 2020, 4:606609. [10] 付麗琴 , 王玉寶 , 王長(zhǎng)江 . 基于多特征向量的語音情感識(shí)別 [J]. 計(jì)算機(jī)科學(xué) , 2020, 36(6):231134. 專業(yè)班級(jí) 通信 0902 班 學(xué)生 趙智越 要求設(shè)計(jì)(論文)工作起止日期 2020 年 2 月 25 日 — 2020 年 6 月 16 日 指導(dǎo)教師簽字 日期 教研室主任審查簽字 日期 系主任批準(zhǔn)簽字 日期 第 4 頁(yè) I 情感語音信號(hào)中共振峰參數(shù)的提取方法 摘 要 語音情感 識(shí)別是新型人機(jī)交互技術(shù)的研究熱點(diǎn)之一,在人工智能方面有著較廣泛的應(yīng)用前景。共振峰頻率是反映聲道諧振特性的重要特征,它代表了發(fā)音信息的最直接的來源。所以研究情感語音信號(hào)中共振峰參數(shù)是有很大意義的。 基于共振峰參數(shù)在情感語音信號(hào)中的重要性,本文主要研究了情感語音信號(hào)中共振峰參數(shù)的提取方法。提取共振峰的常用方法包括:譜包絡(luò)提取法、倒譜法和 LPC 法。由于倒譜法根據(jù)對(duì)數(shù)功率譜的逆傅立葉變換,能夠分離頻譜包絡(luò)和細(xì)微結(jié)構(gòu),很精確地得到共振峰信息,所以本文重點(diǎn)研究倒譜法提取共振峰。 本文通過 MATLAB 軟件利用倒譜法實(shí)現(xiàn)了 對(duì)高興、生氣、中立三種情感狀態(tài)的共振峰參數(shù)的提取。分析提取結(jié)果,得到了下面的一些結(jié)論:相對(duì)于中立發(fā)音而言 , 高興和生氣的第一共振峰頻率相對(duì)升高,從人的發(fā)音特點(diǎn)來看,人們?cè)诒磉_(dá)高興和生氣時(shí),嘴比平靜發(fā)音時(shí)張得更大,因此會(huì)出現(xiàn)這樣的結(jié)果。所以說,可以用共振峰作為區(qū)分不同情感語音的手段。 關(guān)鍵詞 : 語音情感識(shí)別;共振峰參數(shù);共振峰提取方法;倒譜法 II Extraction method of emotional speech signal of the formant parameters Abstract Speech emotion recognition is one of the hot research of new humanputer interaction technology, which has a wide application prospect in artificial intelligence. Formant frequency is an important characteristic of reflecting the resonant characteristics of channel, it represents the pronunciation of the most direct source of information. So the research of emotional speech signal of the formant parameters is of great significance. Based on the importance of formant parameter in the emotional speech signals, this paper mainly studied the extraction method of emotional speech signal of the formant parameters. Several main methods of extraction of formant are: spectral envelope extraction, cepstrum method and LPC method. Since cepstrum based on the number of inverse Fourier transform power spectrum, it can separate spectral envelope and the fine structure and get very precise information on the formant, so this paper focuses on research cepstrum formant extraction. This paper use MATLAB software cepstrum emotional state to achieve happy, angry and neutral three formant parameter extraction. Analysis to extract a result, I get some of the following conclusions: Relative to the neutral pronunciation, the happy and angry the first formant frequency is relatively increased. Pronunciation features from the human point of view, people are happy and angry expression, mouth to pronounce than when Zhang was more calm, so there will be such an oute. So, you can use the formant speech as a means to distinguish between different emotions. Key Words: Speech Emotion Recognition。 Formant parameters。 Formant extraction method。 Cepstrum III 目錄 摘 要 .................................................................... I Abstract ................................................................ II 第 1章 緒論 .............................................................. 1 選題意義 ......................................................... 1 情感語音識(shí)別技術(shù)的國(guó)內(nèi)外發(fā)展現(xiàn)狀 ................................. 1 國(guó)際情感語音識(shí)別發(fā)展現(xiàn)狀 ................................... 1 國(guó)內(nèi)情感語音識(shí)別發(fā)展現(xiàn)狀 ................................... 2 本