正文內(nèi)容

音頻信息的獲取與處理(參考版)

2024-10-11 16:45本頁面

　　

【正文】例如在美國英語中，字母 t在 two, true, 和 butter中的發(fā)聲不同。雖然日常生活中常用的詞匯最多不超過一兩萬個，但每個專業(yè)的術語不少于幾萬條。詞匯量小的識別系統(tǒng)需要用戶發(fā)出簡單的命令，而朗讀文件時，這一系統(tǒng)就必需有大的詞匯量。顯然，連續(xù)語音識別（ Continuous Speech Recognition）比不連續(xù)的識別更受歡迎，但它卻需要更多的處理能力。隨著科學技術突飛猛進的發(fā)展，尤其是網(wǎng)絡技術的迅速崛起、飛速發(fā)展，文語轉換技術將在人類社會生活中有著越來越廣泛的應用。 ?信息服務利用 TTS系統(tǒng)通過電話查詢信息。 ?計算機訓練利用 TTS系統(tǒng)對學生進行某些特殊的言語訓練。目前，已經(jīng)逐步實用化的有： ?殘障人士康復發(fā)聲障礙者通過 TTS系統(tǒng)與其他人交談。隨著這兩方面技術的不斷發(fā)展，將會從根本上改善人機接口，從而使計算機以嶄新的面貌進入人類生活，使計算機發(fā)揮出更大的作用。因此，構造一個以語音為媒介與計算機進行交互的系統(tǒng)，即智能計算機界面，是人們長久以來的夢想，也是科技人員孜孜以求的目標。當今，人與計算機之間進行交互的最常規(guī)手段是通過鍵盤輸入信息，通過屏幕或打印機以視覺形式輸出信息。因此，研究更好的文語轉換方法，提高合成語音的自然度就成為當務之急。總之， TTS系統(tǒng)最根本的問題便在于它的自然度，自然度是衡量一個 TTS系統(tǒng)好壞的最重要的指標。因為連貫 TTS只播放一個 WAV文件，所以它只用很少的處理能力。連貫 TTS可以被看成是一種聲音壓縮形式，因為單詞和常用的短語只能錄一次。數(shù)字化錄音是連貫的，因為聲音是事先錄制的語音，聽起來很舒服。通過這種方式， TTS就能讀出任何單詞，甚至自造的詞，但是它發(fā)出的聲音不帶任何感情，帶有明顯的機器語音味道。 %1 0 0???? N DISE TTS分為綜合的和連貫的兩種類型。也就是說，要使計算機具有象人一樣、甚至比人更強的說話能力。語音識別系統(tǒng)的性能通常用單詞錯誤率 E來度量：其中， N是測試集的單詞總數(shù)， S， I 和 D分別是替代、插入和刪除的總數(shù)。目前語音識別的主要應用是通過 TTS（ TexttoSpeech，文本 ——語音轉換器）和 SR（ Speech Recognition，語音識別器）實現(xiàn)的。隨著計算機科學和應用的飛速發(fā)展，語音技術已日益廣泛地應用于實際中。早在 70年代，國外就開始致力于語音識別技術的研究。 ? 語音識別技術及應用 ? 語音識別技術概述人的表達方式有多種，其中語音是最迅速、最常用和最自然的一種。只是硬波表的音色庫是存放在聲卡的 ROM或 RAM中，而軟波表的音色庫則以文件的形式存放在硬盤里，需要時再通過 CPU進行調用。而且音色庫越大，所需的存儲器就越多，相應地成本也就越高。該卡采用了 EMU8000波表處理芯片，提供 16位 MIDI通道和 32位的復音效果。聲音樣本記錄了各種真實樂器的波形采樣，并保存在聲卡上的 ROM中。樂音樣本的采集相對比較直觀，音樂家在真實樂器上演奏不同的音符，選擇的采樣頻率、 16比特的量化位數(shù)，這相當于 CDDA的質量，把不同音符的真實聲音記錄下來，這就完成了樂音樣本的采集。為子能真實地再現(xiàn)樂音，目前的聲卡一般采用樂音樣本合成法，即波表合成法。 FM合成法生成樂音的基本原理是，用數(shù)字信號來表示不同樂音的波形，然后把它們組合起來，再通過數(shù)模轉換器（ＤＡＣ）生成樂音播放。利用合成器產(chǎn)生 MIDI樂音的主要方法是 FM合成法和波表合成法。信息的后一部分描述哪一個鍵被按下了。這個信息就包含了狀態(tài)信息及數(shù)據(jù)信息兩部分。狀態(tài)信息用于描述音符被演奏還是聲音被加強這樣的信息，而數(shù)據(jù)信息則重點描述哪個音符被演奏了，或被加強的聲音的強度如何等可以用量來表示的信息。它包括音符、節(jié)拍、樂器種類等。 MIDI的工作過程理解 MIDI工作方式的最直接的方法就是看看 MIDI消息是什么。最后，將 MIDI消息送往音樂合成器，由合成器將 MIDI消息進行解釋并產(chǎn)生波形，然后通過聲音發(fā)生器送往揚聲器播放出來。這一系列消息可記錄以 .MID 為擴展名的MIDI文件中。 ? MIDI的工作過程 MIDI電子樂器通過 MIDI接口與計算機相連， MIDI靠這個接口來傳遞消息而進行彼此通信。到目前為止，使用采樣器仍然是滿足其對新增音色的最佳手段。而采樣器則是一種開放式的音源，它可以對任何聲音進行取樣，并把它們編輯成音色來供電腦音樂系統(tǒng)使用。 YAMAHA QY700 音序器硬件音源 ROLAND JV1080 ?采樣器音樂的表現(xiàn)力是無限的，因此人們對于音色的要求也是無限的。軟件音序器因為其顯示界面擴大（使用電腦顯示器），功能增強，特別是操作方便獲得了絕大多數(shù)音樂制作者的認可，大有淘汰硬件音序器之勢。常見的型號有 Yamaha QY700等。它可以是一個獨立的設備，也可以內(nèi)置于合成器里。音序器分硬件和軟件的兩種。軟音源的產(chǎn)生為 MIDI的大眾化作出了很大的貢獻，它使人們不需購買專門設備就可以進行 MIDI的創(chuàng)作和演奏。軟件音源也是隨著電腦的高速發(fā)展而產(chǎn)生的，它們也必須安裝在電腦上才能使用。但有些聲卡 (如 Sound Blaster Live)的音源質量較好，可達到準專業(yè) 級。硬件音源是現(xiàn)在專業(yè)MIDI制作不可缺少的設備，因為它們可以提供比任何一塊聲卡上的波表都要好很多的音色，這些獨立音源基本上是專業(yè)人士使用的，常見的型號有Roland JV1080和 Yamaha MU100R等。至于何時調用資源 (使用哪種音色 )不是音源的工作，這項任務是由音序器來完成的。音源內(nèi)部有很多不同音色的樣本波形，譬如鋼琴就有鋼琴的音色的真實樣本，吉它就有吉它的音色真實樣本 (即波表 )。又由于獨立的硬件音源和采樣技術的普及，人們覺得合成器的音色也是多余的，因為獨立音源可以提供更好的音色，于是不帶音序器和音色的 MIDI控制鍵盤也隨即產(chǎn)生，這類鍵盤有較強的控制功能，音色用音源的，音序器用軟件的，可謂是專物專用，而且只要添加音源或采樣器就可以得到更多的音色，更換音序軟件就可以使用更強的功能。隨著軟件音序器的普及，合成器的硬件音序器由于它的繁瑣而魅力大減，音源，音序器，鍵盤三位一體的方式受到挑戰(zhàn)。它擁有大量真實的采樣音色可供演奏使用，它擁有自己的音序器可以錄制編輯音樂，它擁有 MIDI接口可以與其他設備交換信息。這些數(shù)字控制信號還可以同時被記錄在合成器內(nèi)部被稱作 “ 音序器 ” 的裝置中。合成器是通過控制面板上的按鈕產(chǎn)生數(shù)字信號來控制的。合成器自誕生以來，其概念已發(fā)生了很多變化。利用 MIDI技術將電子合成器、電子音源與音序器連接在一起即可演奏模擬出音色變化萬千的音響效果，又可將演奏中的多種按鍵數(shù)據(jù)存儲起來，極大的改善了音樂演奏的能力和條件。這些設備可以是獨立的，也可以是集成的。 ? MIDI系統(tǒng)的組成 MIDI系統(tǒng)實際就是一個作曲、配器、電子模擬的演奏系統(tǒng)。從一個 MIDI設備轉送到另一個 MIDI設備上去的數(shù)據(jù)就是 MIDI信息。按照這種思路，MIDI使電腦能夠利用 “ 記譜 ” 的方法進行音樂的數(shù)字化錄音及放音。打個比方 ,如果數(shù)字音響是一盤錄了某個人小提琴獨奏的磁帶 ,則 MIDI就是該獨奏的樂譜 ,盡管樂譜本身并不產(chǎn)生任何實際聲音 ,但它確實定義了演奏的速度、音符及演奏聲音的大小。這樣，任何電子樂器，只要有處理 MIDI信息的處理器和適當?shù)挠布涌诙寄茏兂?MIDI裝置。 MIDI是由軟件部分和硬件部分共同組成的系統(tǒng)規(guī)范 , 這個規(guī)范定義了 MIDI設備間數(shù)字傳送時電纜硬件接口和協(xié)議?；蛘哒f， MIDI是用來將電子樂器相互連接，或將 MIDI設備與電腦連接成系統(tǒng)的一種通信協(xié)議。 ? 響度：對聲音強度的衡量 YM3812音樂系統(tǒng)框圖微機或微處理器地址數(shù)據(jù)總線總線控制 YM3812 DAC 音頻放大系統(tǒng)時鐘 MIDI規(guī)范（術語） 1. MIDI文件 2. 通道（ channels） 3. 音序器（ sequencer） 4. 合成器（ synthesizer） 5. 樂器（ instrument） 6. 復音（ puyphone） 7. 音色（ tmbre） 8. 音軌（ tack） 9. 合成音色映射器（ patch apper）（ channel mapping） ? 樂器數(shù)字接口 ——MIDI 在音樂創(chuàng)作領域，由于 MIDI、電子樂器和多媒體計算機的結合，給人們提供了一種快捷、獨特的制作方式，它更加強調音色的非常規(guī)化、電子化、空間感和對比等，并且日益形成一種嶄新的音樂風格。 ? 波形表合成（ wavetable）樂音必備的三要素： ? 音高：指聲波的基頻，基頻越低給人感覺越低沉。也被稱為。 AC3 提供了 5個聲道從 20HZ 到 20KHZ的全通帶頻，即正前方的左（ L）中（ C）右（ R），后邊兩個獨立的環(huán)繞立體聲通道左后（ LS）和右后（ RS）。（見結構圖）（ 2）編碼層次層 I包括將數(shù)字音頻變成 32個子帶的基本映射；層 II 提供了位分配，縮放因子和抽樣的附加編碼；層 III采用混合帶通濾波器來提高頻率分辨率。編碼器的輸入和解碼器的輸出與現(xiàn)存的 PCM 標準兼容。MPEG標準有 MPEGI ， MPEGII， MPEGIV，MPEGVII等， MPEGI中一部分對應于ISO/IEC111723及 MPE音頻。律PCM Sl(k) d(k) I(k) Se(k) dq(k) St(k) 32kb/s輸出 ADPCM解碼器結構圖轉化為PCM 同步編碼調節(jié) 逆自適應預測器 32kb/s輸入 64kb/s輸出 A律或 181。(A) 181。音頻編碼標準國際電報電話咨詢委員會（ CCITT）和國際標準化組織（ ISO）先后提出了一系列有關音頻編碼的標準。（ 2） DPCM：即只傳輸語音預測值和樣本值的差值，以此降低音頻數(shù)據(jù)的編碼率。常用三種波形編碼的方法：（ 1） PCM：直接對語音信號進行模數(shù)轉換。（ 3）基于人的聽覺特性進行編碼，利用掩蔽效應，設計心理學模型，從而實現(xiàn)高效率的數(shù)字音頻的壓縮。如 PCM ， DPCM， ADPCM。第三、人而對語音信號的相位變化不敏感。 ?總線接口負責為總線和聲卡各部分提供握手信號和數(shù)據(jù)傳輸。 PC 總線數(shù)據(jù)總線驅動器總線接口和控制器游戲接口 MIDI 接口混合信號處理器數(shù)字聲音處理器 MIC放大器功率放大器音樂合成器音樂合成器地址總線控制總線 MIC 揚聲器 CD line 音頻卡的工作原理圖音頻卡的工作原理 ?音頻卡簡稱聲卡，它將模擬音頻進行模數(shù)轉換送入計算機，進行處理后再經(jīng)過數(shù)模轉換，輸出加工后的合成音頻。普通的性能，過大的體型，還有居高不下的價格，但也有一些產(chǎn)品的價格較低?，F(xiàn)在已經(jīng)出現(xiàn)了 6聲道的板載聲卡，板載。目前市場上 90%以上的主板都集成 AC‘97聲卡。計算聲音文件公式如下： S=D x R x（ r/8） x聲道數(shù) D代表采樣頻率， R代表采樣時間以秒計算， r代表量化位（二）、音頻卡的分類 (2) 一、獨立音頻卡，插在主板的 ISA或 PCI槽中。位數(shù)越高，量化精度越高，音質越好。波形表音樂合成（詳見后續(xù)章節(jié)）文語轉換和語音識別文語轉換就是把計算機內(nèi)的文本轉換成聲音語音識別將語音識別為計算機能理解的文字或命令（二）音頻卡的分類 (1) 音頻卡的分類主要是根據(jù)采樣量化的位數(shù)來分類的。它是對聲音文件進行多種特殊效果處理，包括以下內(nèi)容：倒播增加回音靜噪淡入和淡出往返放聲交換聲道聲音移位 MIDI和音樂合成 MIDI 是樂器數(shù)字接口的標準，它規(guī)定了電子樂器與計算機之間相互數(shù)據(jù)通信的協(xié)議。高級的音色庫定制和編輯，使用戶可以在計算機上制作音樂，進行作曲。它提供了高質真實樂器感的 64復音的 MIDI合成器，使得游戲和多媒體應用程序的音響效果比以前更為逼真。這里的 32和 64不再表示數(shù)字音頻的位數(shù)，而是表示 32和 64種復音的波表合成技術，它

點擊復制文檔內(nèi)容

環(huán)評公示相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

音頻信息的獲取與處理(參考版)