【正文】
征就越全局化。其次,計(jì)算=1mi=1m(x(i))(x(i))T,假設(shè)x為一數(shù)據(jù)結(jié)構(gòu),其中每列表示一個(gè)訓(xùn)練樣本(所以x是一個(gè)nm的矩陣);sigma = x * x39。 * x。如圖所示:圖中濾波器長(zhǎng)度為5,輸入長(zhǎng)度為7。① 圖像分類CNN已經(jīng)被用于圖像分類很長(zhǎng)時(shí)間,相比于其他的方法,CNN由于其特征學(xué)習(xí)和分類學(xué)習(xí)的結(jié)合能力,在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)了更高的分類準(zhǔn)確率。而模型并行則是,將若干層的模型參數(shù)進(jìn)行切分,不同的GPU上使用相同的數(shù)據(jù)進(jìn)行訓(xùn)練,得到的結(jié)果直接連接作為下一層的輸入。值得一提的是,在2015年的ImageNet LSVRC比賽中,%。第三層卷積: 33的卷積核60個(gè)得到60個(gè)46大小的卷積特征maxpooling: 22的核池化得到60個(gè)23大小的卷積特征。由于時(shí)間信息的大規(guī)模信號(hào)趨向于在移動(dòng)對(duì)象附近變化,因此時(shí)間結(jié)構(gòu)能夠提供原始的速度信號(hào),便于對(duì)象追蹤。因此,圖像的場(chǎng)景標(biāo)記具有挑戰(zhàn)性。若是用100維的詞向量表示一句10個(gè)單詞的句子,我們將得到一個(gè)10x100維的矩陣作為輸入。然后對(duì)每個(gè)特征字典做最大值池化,也就是只記錄每個(gè)特征字典的最大值。單詞顯然是以某些方式組合的,比如形容詞修飾名詞,但若是想理解更高級(jí)特征真正要表達(dá)的含義是什么,并不像計(jì)算機(jī)視覺那么明顯了。CNNs的主要特點(diǎn)在于速度快,非常的快。 語(yǔ)音識(shí)別[6] 利用CNN進(jìn)行語(yǔ)音處理的一個(gè)關(guān)鍵問題是如何將語(yǔ)音特征向量映射成適合CNN處理的特征圖。對(duì)隱含概念的線性可分實(shí)例的提取效果較好。② Inception module:是由Szegedy等人[16]提出,可以被看做NIN的邏輯頂點(diǎn)(logical culmination),使用多種濾波器的大小來捕捉不同大小的不同可視化模式,通過inception module接近最理想的稀疏結(jié)構(gòu)。Lp池化公式為:(i=1N|xIi|p)1p,其中xI1,…,xIN是一組有限的輸入節(jié)點(diǎn),當(dāng)p=1時(shí),Lp池化就相當(dāng)于平均池化,當(dāng)p=2時(shí),是L2池化,當(dāng)p=∞時(shí),即max?(|xI1|,…,|xIN|)相當(dāng)于最大池化。隨機(jī)池化被證明具有最大池化的優(yōu)點(diǎn),并且可以避免過擬合。 目前存在著幾種對(duì)Dropout 的改進(jìn),例如:Wang 等人[22]中提出了一種快速Dropout方法,通過抽樣或整合一個(gè)高斯近似值來實(shí)現(xiàn)更快的Dropout訓(xùn)練。 下圖給出了NoDrop、Dropout和DropConnect網(wǎng)絡(luò)的區(qū)別: 在某個(gè)任務(wù)中,一個(gè)合適的激活函數(shù)能顯著改善CNN的性能。[16]中的實(shí)驗(yàn)表明了使用ReLU作為激活函數(shù)的深度網(wǎng)絡(luò)可以被有效地訓(xùn)練。[28]同時(shí)針對(duì)標(biāo)準(zhǔn)圖像分類任務(wù)對(duì)ReLU、LReLU以及RReLU函數(shù)進(jìn)行評(píng)估,得出結(jié)論:在調(diào)整激活單元的負(fù)軸部分加入非零梯度可以提高分類性能。另一種方法是從內(nèi)容和元數(shù)據(jù)中預(yù)測(cè)用戶的偏好。在這些信息資源中,音頻信號(hào)是最難以被有效使用的,這是因?yàn)?,一方面,音頻間存在相當(dāng)大的語(yǔ)義鴻溝(semantic gap),另一方面,音樂存在著影響聽眾偏好的多種方面。 卷積層的濾波器如圖中紅色矩形框所示,采用ReLU激活函數(shù),注意到,不同于圖像的情況,頻譜圖兩個(gè)坐標(biāo)軸的意義是不同的,所以這些卷積只在時(shí)間維度上移動(dòng)。通過訓(xùn)練這個(gè)神經(jīng)網(wǎng)絡(luò)來最小化從協(xié)同過濾算法中獲得的隱含因子和從音頻中預(yù)測(cè)的隱含因子之間的均方差(MSE)。, Unterthiner T, Hochreiter S. Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)[J]. Computer Science, 2015.[30] Farabet C, Couprie C, Najman L, et al. Learning Hierarchical Features for Scene Labeling[J]. IEEE Transactions on Pattern Analysis amp。 Language Processing, 2015, 22(10):15331545.[7] ScienceOpen. Visualizing and Comparing Convolutional Neural Networks[J]. 2014.[8] Gu J, Wang Z, Kuen J, et al. Recent Advances in Convolutional Neural Networks[J]. Computer Science, 2015.[9] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.[10] Fan J, Xu W, Wu Y, et al. Human Tracking Using Convolutional Neural Networks[J]. IEEE Transactions on Neural Networks, 2010, 21(10):16101623.[11] Toshev A, Szegedy C. DeepPose: Human Pose Estimation via Deep Neural Networks[C]// Computer Vision amp。這與圖像不同,對(duì)于圖像來說,如果我們檢測(cè)出這個(gè)特征在最上方,那么它可能代表的是一片云,如果在最下方,那么它可能是一只羊。 文章所采用方法的基本思想是利用加權(quán)矩陣因式分解(WMF)算法從訓(xùn)練集可用的慣用數(shù)據(jù)中提取隱含因子向量,作為ground truth數(shù)據(jù),然后通過訓(xùn)練一個(gè)回歸模型來預(yù)測(cè)歌曲的隱含因子,如下圖a,最后使用tSNE算法將其映射到二維的協(xié)同過濾空間(即用戶和歌曲空間),如下圖b,相似的歌曲被聚集在一起,說唱音樂在左上角,電子音樂在右下角。這種方法在Netflix Prize中被證明是非常有效的。五、卷積神經(jīng)網(wǎng)絡(luò)在音樂推薦中的應(yīng)用3 自動(dòng)音樂推薦系統(tǒng)由于其允許聽眾根據(jù)自己的偏好發(fā)現(xiàn)新音樂并使在線音樂商店能夠根據(jù)自己的用戶訂購(gòu)音樂商品而得到長(zhǎng)足發(fā)展。與ReLU相比,LReLU壓縮了負(fù)軸部分而不是將它始終映射為0,使得函數(shù)在不活躍單元也具有了較小的非零梯度,從而便于權(quán)值調(diào)整。tanh函數(shù)fx=exexex+ex,與sigmoid函數(shù)趨勢(shì)類似,如下圖所示。 ② DropConnect[19]:將Dropout的想法更進(jìn)一步,代替了其設(shè)置神經(jīng)元的輸出為0,而是在前向傳導(dǎo)時(shí),輸入的時(shí)候隨機(jī)讓一些輸入神經(jīng)元以一定的概率p不工作,在BP訓(xùn)練時(shí),這些不工作的神經(jīng)元顯然也不會(huì)得到誤差貢獻(xiàn)。 ① Dropout:也就是在每次訓(xùn)練的時(shí)候,讓網(wǎng)絡(luò)某些隱含層神經(jīng)元以一定的概率p不工作。③ 隨機(jī)池化(Stochastic pooling)[21]:保證特征圖的非線性激活值可以被利用。池化是CNN的一個(gè)重要概念,它通過減少卷積層的連接數(shù)量降低計(jì)算負(fù)擔(dān)。NIN的整體結(jié)構(gòu)就是這些為網(wǎng)絡(luò)的堆積。另外,可以只考慮正規(guī)化頻率變化。即使Google也最多不超過5grams。慶幸的是,這并不意味著CNNs沒有效果。人們也許會(huì)很在意一個(gè)詞在句子中出現(xiàn)的位置。盡管高度,或者區(qū)域大小可以隨意調(diào)整,但一般滑動(dòng)窗口的覆蓋范圍是2~5行。(NLP)1NLP任務(wù)的輸入不再是像素點(diǎn)了,大多數(shù)情況下是以矩陣表示的句子或者文檔。提出串聯(lián)7層CNN來構(gòu)成姿態(tài)的整體表示。② 對(duì)象追蹤Object tracking對(duì)象追蹤在計(jì)算機(jī)視覺的應(yīng)用中起著重要作用,對(duì)象追蹤的成功在很大程度上依賴于如何健壯的表示目標(biāo)外觀,它面臨的挑戰(zhàn)如視點(diǎn)改變、光照變化以及遮擋等。如下圖所示,該結(jié)構(gòu)與ImageNet的具體參數(shù)類似:上圖模型的基本參數(shù)為:輸入:3139大小的圖片,1通道第一層卷積: 44大小的卷積核20個(gè)得到20個(gè)2836大小的卷積特征。在這樣的設(shè)置中,之間卷積層的大小被擴(kuò)展以便于獲得更有意義的特征。下圖即為Alex的CNN結(jié)構(gòu)圖。上面所有例子中的步長(zhǎng)都是1,相鄰兩個(gè)濾波器有重疊。在矩陣的中部使用33的濾波器沒有問題,在矩陣的邊緣該怎么辦呢?左上角的元素沒有頂部和左側(cè)相鄰的元素,該如何濾波呢?解決的辦法是采用補(bǔ)零法(zeropadding)。矩陣 U 將包含 Sigma 的特征向量(一個(gè)特征向量一列,從主向量開始排序),矩陣S 對(duì)角線上的元素將包含對(duì)應(yīng)的特征值(同樣降序排列)。補(bǔ)充:PCA白化和ZCA白化算法首先,我們需要確保數(shù)據(jù)的均值(近似)為零。對(duì)于分類任務(wù),softmax回歸由于其可以生成輸出的wellformed概率分布[4]而被普遍使用。這些概要統(tǒng)計(jì)特征不僅具有低得多的維度 (相比使用所有提取得到的特征),同時(shí)還會(huì)改善結(jié)果(不容易過擬合)。其中需要注意的是,四個(gè)通道上每個(gè)通道對(duì)應(yīng)一個(gè)卷積核,先將W1忽略,只看W0,那么在W0的某位置(i,j)處的值,是由四個(gè)通道上(i,j)處鄰近區(qū)域的卷積結(jié)果相加然后再取激活函數(shù)(假設(shè)選擇tanh函數(shù))值得到的。特別是,我們可以用從 88 樣本中所學(xué)習(xí)到的特征跟原本的大尺寸圖像作卷積,從而對(duì)這個(gè)大尺寸圖像上的任一位置獲得一個(gè)不同特征的激活值。在上右圖中,假如每個(gè)神經(jīng)元只和它前一層鄰近的1010個(gè)像素值相連,那么權(quán)值數(shù)據(jù)為1000000100個(gè)參數(shù),減少為原來的萬(wàn)分之一。下面對(duì)各層進(jìn)行詳細(xì)的分析與介紹:在圖像處理中,往往把圖像表示為像素的向量,比如一個(gè)10001000的圖像,可以表示為一個(gè)1000000的向量。典型的激活函數(shù)有sigmoid、tanh和ReLU。 卷積層旨在學(xué)習(xí)輸入的特征表示。其對(duì)應(yīng)的公式如下:比較類似的,可以拓展到有2,3,4,5,…個(gè)隱含層。CNN主要用來識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形。它包括8個(gè)學(xué)習(xí)層(5個(gè)卷積與池化層和3個(gè)全連接層),前邊的幾層劃分到2個(gè)GPU上,(和ImageNet是同一個(gè))并且它在卷積層使用