【正文】
atch)的一個(gè)廣義的線性模型(GLM)。許多在CNN卷積第一層學(xué)到的濾波器捕捉到的特征與ngrams非常相似(但不局限),但是以更緊湊的方式表征。正如詞袋模型(Bag of Words model),它明顯是基于錯誤假設(shè)的過于簡化模型,但這不影響它多年來一直被作為NLP的標(biāo)準(zhǔn)方法,并且取得了不錯的效果。同樣,組合性也不見得明顯。每個(gè)濾波器對句子矩陣做卷積運(yùn)算,得到(不同程度的)特征字典。通常,這些向量都是word embeddings(一種底維度表示)的形式,如word2vec和GloVe,但是也可以用onehot向量的形式,也即根據(jù)詞在詞表中的索引。一般來說,由于尺度、光照以及姿態(tài)變化因素影響,自然圖像中的“事物”像素(汽車、人等)是完全不同的,而“物體”像素(路、海洋等)是非常相似的。在離線訓(xùn)練期間學(xué)習(xí)特征,與傳統(tǒng)追蹤器不同的是,CNN追蹤器只提取局部空間結(jié)構(gòu),通過考慮兩個(gè)連續(xù)幀的圖像來提取空間和時(shí)間結(jié)構(gòu)。maxpooling: 22的核池化得到40個(gè)68大小的卷積特征。GoogleNet增加了網(wǎng)絡(luò)的深度和寬度,相比于較淺和較窄的網(wǎng)絡(luò),在計(jì)算需求的適當(dāng)增加上實(shí)現(xiàn)了顯著的質(zhì)量提升。數(shù)據(jù)并行是指在不同的GPU上,模型結(jié)構(gòu)相同,但將訓(xùn)練數(shù)據(jù)進(jìn)行切分,分別訓(xùn)練得到不同的模型, 然后再將模型進(jìn)行融合。 計(jì)算機(jī)視覺在計(jì)算機(jī)視覺中的應(yīng)用包括:圖像分類、對象追蹤、姿態(tài)估計(jì)、視覺顯著性檢測、行為識別、場景標(biāo)識等。補(bǔ)零法又被稱為是寬卷積,不使用補(bǔ)零的方法則被稱為窄卷積。最后,計(jì)算PCA白化后的數(shù)據(jù)xPCAwhite和ZCA白化后的數(shù)據(jù)xZCAwhite:xPCAwhite = diag(1./sqrt(diag(S) + epsilon)) * U39。 % 分別為每個(gè)圖像塊計(jì)算像素強(qiáng)度的均值x = x repmat(avg, size(x, 1), 1)。至此,卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和原理已經(jīng)闡述完畢。那么,我們把卷積特征劃分到數(shù)個(gè)大小為mn的不相交區(qū)域上,然后用這些區(qū)域的平均(或最大)特征來獲取池化后的卷積特征。理論上講,人們可以用所有提取得到的特征去訓(xùn)練分類器,例如 softmax 分類器,但這樣做面臨計(jì)算量的挑戰(zhàn)。(圖片為gif格式)多卷積核上面所述只有100個(gè)參數(shù)時(shí),表明只有1個(gè)1010的卷積核,顯然,特征提取是不充分的,我們可以添加多個(gè)卷積核,比如32個(gè)卷積核,可以學(xué)習(xí)32種特征。在上面的局部連接中,每個(gè)神經(jīng)元都對應(yīng)100個(gè)參數(shù),一共1000000個(gè)神經(jīng)元,如果這1000000個(gè)神經(jīng)元的100個(gè)參數(shù)都是相等的,那么參數(shù)數(shù)目就變?yōu)?00了。一般認(rèn)為人對外界的認(rèn)知是從局部到全局的,而圖像的空間聯(lián)系也是局部的像素聯(lián)系較為緊密,而距離較遠(yuǎn)的像素相關(guān)性則較弱。每個(gè)池化層的特征圖和它相應(yīng)的前一卷積層的特征圖相連,因此它們的特征圖數(shù)量相同。為了計(jì)算一個(gè)新的特征圖,輸入特征圖首先與一個(gè)學(xué)習(xí)好的卷積核(也被稱為濾波器、特征檢測器)做卷積,然后將結(jié)果傳遞給一個(gè)非線性激活函數(shù)。(netk) ?netk?ωkj=yj 令?J?netk=δk,可得?J?ωkj=δkyj2對隱層權(quán)系數(shù)的微分:?J?ωji=?J?netj?netj?ωji隱含層第j個(gè)神經(jīng)元的總輸入:netj=i=1dωjixi+ωj0 yj=f(netj)?J?netj=?J?yj?yj?netj=(k=1c?J?netk?netk?yj)?yj?netj=(k=1cδkωkj)f39。注:紅色數(shù)字表示相應(yīng)文獻(xiàn)的引用量。一旦該局部特征被提取后,它與其它特征間的位置關(guān)系也隨之確定下來;其二是特征映射,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。因此,在接下來近十年的時(shí)間里,卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)研究趨于停滯,原因有兩個(gè):一是研究人員意識到多層神經(jīng)網(wǎng)絡(luò)在進(jìn)行BP訓(xùn)練時(shí)的計(jì)算量極其之大,當(dāng)時(shí)的硬件計(jì)算能力完全不可能實(shí)現(xiàn);二是包括SVM在內(nèi)的淺層機(jī)器學(xué)習(xí)算法也漸漸開始暫露頭腳?,F(xiàn)在,CNN已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,特別是在模式分類領(lǐng)域,由于該網(wǎng)絡(luò)避免了對圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,因而得到了更為廣泛的應(yīng)用。隨著1986年BP算法以及TC問題[3](即權(quán)值共享和池化)9508的提出, LeCun和其合作者遵循這一想法,使用誤差梯度(the error gradient)設(shè)計(jì)和訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),在一些模式識別任務(wù)中獲得了最先進(jìn)的性能[4][5]。其中,值得注意的是Krizhevsky等人提出的一個(gè)經(jīng)典的CNN架構(gòu),相對于圖像分類任務(wù)之前的方法,在性能方面表現(xiàn)出了顯著的改善2674。這兩種操作形成了CNN的卷積層。當(dāng)將多個(gè)單元組合起來并具有分層結(jié)構(gòu)時(shí),就形成了神經(jīng)網(wǎng)絡(luò)模型。目前有許多CNN架構(gòu)的變體,但它們的基本結(jié)構(gòu)非常相似。(也就是權(quán)值共享)這樣的一個(gè)權(quán)值共享模式有幾個(gè)優(yōu)點(diǎn),如可以減少模型的復(fù)雜度,使網(wǎng)絡(luò)更易訓(xùn)練等。 幾個(gè)卷積和池化層之后,通常有一個(gè)或多個(gè)全連接層。視覺皮層的神經(jīng)元就是局部接受信息的(即這些神經(jīng)元只響應(yīng)某些特定區(qū) 域的刺激)。這也意味著我們在這一部分學(xué)習(xí)的特征也能用在另一部分上,所以對于這個(gè)圖像上的所有位置,我們都能使用同樣的學(xué)習(xí)特征。比如兩個(gè)卷積核就可以將生成兩幅圖像,這兩幅圖像可以看做是一張圖像的不同的通道,如下圖所示。為了解決這個(gè)問題,首先回憶一下,我們之所以決定使用卷積后的特征是因?yàn)閳D像具有一種“靜態(tài)性”的屬性,這也就意味著在一個(gè)圖像區(qū)域有用的特征極有可能在另一個(gè)區(qū)域同樣適用。它們將前一層所有的神經(jīng)元與當(dāng)前層的每個(gè)神經(jīng)元相連接,即與標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)各層之間的連接相同,在全連接層不保存空間信息。白化的目的就是降低輸入的冗余性;更正式的說,希望通過白化過程使得學(xué)習(xí)算法的輸入具有如下性質(zhì):(1)特征之間相關(guān)性較低;(2)所有特征具有相同的方差。接下來,PCA計(jì)算∑的特征向量。 * x。在上圖中,窄卷積輸出的長度是 (75)+1=3,寬卷積輸出的長度是(7+2*45)+1=11。(1)AlexNet網(wǎng)絡(luò)介紹:ImageNet LSVRC是一個(gè)圖片分類的比賽,其訓(xùn)練集包括127W+張圖片,驗(yàn)證集有5W張圖片,測試集有15W張圖片。三個(gè)最具代表性的網(wǎng)絡(luò)是ZFNet、VGGNet和GoogleNet。(2)DeepID網(wǎng)絡(luò)介紹:DeepID網(wǎng)絡(luò)結(jié)構(gòu)是香港中文大學(xué)的Sun Yi開發(fā)出來用來學(xué)習(xí)人臉特征的卷積神經(jīng)網(wǎng)絡(luò)[13]。全連接層以第四層卷積(160維)和第三層maxpooling的輸出(6023=360維)作為全連接層的輸入,這樣可以學(xué)習(xí)到局部的和全局的特征。DeepPose[11]是CNN在人體姿態(tài)估計(jì)問題中的第一個(gè)應(yīng)用(2014)。在這個(gè)場景中,CNN被用來直接從局部圖像塊中建模像素的類估計(jì),它們能夠?qū)W習(xí)強(qiáng)大的特征,來區(qū)分局部視覺像素微妙的變化。在計(jì)算機(jī)視覺的例子里,濾波器每次只對圖像的一小塊區(qū)域運(yùn)算,但在處理自然語言時(shí)濾波器通常覆蓋上下幾行(幾個(gè)詞)。最后的softmax層以這個(gè)特征向量作為輸入,用其來對句子做分類;我們假設(shè)這里是二分類問題,因此得到兩個(gè)可能的輸出狀態(tài)。遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)更直觀一些。相比于ngrams,CNNs表征方式的效率也更勝一籌。當(dāng)然還有多種選擇可以精確地將語音特征轉(zhuǎn)化為特征圖,如圖b所示,語音特征可以被表示成3個(gè)二維的特征圖,每個(gè)代表MFSC(melfrequency spectral coefficients)特征的信息(即靜態(tài)、delta以及deltadelta特征)沿著頻率和時(shí)間軸的分布。① Network in network(NIN):是由Lin等人[15]提出的一種網(wǎng)絡(luò)結(jié)構(gòu)。11的卷積被放在33和55的卷積之前作為維度下降模塊,在不增加計(jì)算復(fù)雜度的情況下增加CNN的深度和寬度?;旌铣鼗椒ü交癁椋簓kij=λmax(p,q)∈Rijxkpq+(1λ)1|Rij|(p,q)∈Rijxkpq,其中ykij是第k個(gè)特征圖相應(yīng)位置(i,j)處池化操作的輸出,λ是0~1之間的隨機(jī)值,Rij是位置(i,j)的局部鄰域,xkpq是第k個(gè)特征圖池化區(qū)域Rij內(nèi)在(p,q)處的元素。 Regularization 過擬合是深度CNN一個(gè)不可忽視的問題,這一問題可以通過正則化有效地減少。在Tompson 等人[24]中發(fā)現(xiàn)在11卷積層之前應(yīng)用標(biāo)準(zhǔn)Dropout會增加訓(xùn)練時(shí)間但不能防止過擬合,因此他們提出了一種新的Dropout方法叫做SpatialDropout,在整個(gè)特征圖上擴(kuò)展了Dropout的值。其中sigmoid函數(shù),即fx=11+ex,是神經(jīng)元的非線性作用函數(shù)。但大量實(shí)證研究表明ReLU仍然比sigmoid和tanh激活函數(shù)效果更好。ELU利用了飽和函數(shù)作為負(fù)軸部分,對噪聲具有魯棒性。當(dāng)慣用數(shù)據(jù)不可用時(shí),協(xié)同過濾方法面臨著冷啟動問題,即不能有效的推薦新的和不流行的歌曲。盡管面臨著這些問題,但通過分析音頻信號來進(jìn)行音樂推薦仍然是一種理想的方式。在最后一層卷積之后,添加了一層全局時(shí)間池化層,包括均值、最大值和歐幾里得距離(L2norm)三種池化函數(shù),這一層在整個(gè)時(shí)間軸上有效地統(tǒng)計(jì)之前學(xué)習(xí)到的特征。s visual cortex[J]. Journal of Physiology, 1962, 160(1):106–154.[2] Fukushima K. Neocognitron: A selforganizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J]. Biological Cybernetics, 1980, 36(4):193202.[3] Rumelhart D E, Hinton G E, Williams R J. Learning Internal Representations by Error Propagation[C]// MIT Press, 1986:318362.[4] L233。3 (Remending music on Spotify with deep learning)利用CNN實(shí)現(xiàn)在Spotify上的音樂推薦4