freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[工學(xué)]8人工神經(jīng)網(wǎng)絡(luò)-文庫吧資料

2024-10-24 23:31本頁面
  

【正文】 ? 迭代的次數(shù)到了一個固定值時停止 ? 當(dāng)在訓(xùn)練樣例上的誤差降到某個閾值以下 ? 在分離的驗證樣例集合上的誤差符合某個標(biāo)準(zhǔn) ? 終止條件很重要,太少的迭代無法有效地降低誤差,太多的迭代會導(dǎo)致對訓(xùn)練數(shù)據(jù)的過度擬合 增加沖量項 ? 因為反向傳播算法的應(yīng)用如此廣泛,所以已經(jīng)開發(fā)出了很多反向傳播算法的變體 ? 修改權(quán)值更新法則,使第 n次迭代時的權(quán)值的更新部分地依賴于發(fā)生在第 n1次迭代時的更新,比如 ? ?wji(n)=??jxji+??wji(n1) ? 右側(cè)第一項就是表 42中的權(quán)值更新法則,第二項被稱為沖量項 ? 梯度下降的搜索軌跡就像一個球沿誤差曲面滾下,沖量使球從一次迭代到下一次迭代時以同樣的方向滾動 ? 沖量有時會使這個球滾過誤差曲面的局部極小值或平坦區(qū)域 ? 沖量也具有在梯度不變的區(qū)域逐漸增大搜索步長的效果,從而加快收斂 學(xué)習(xí)任意的無環(huán)網(wǎng)絡(luò) ? 表 42的算法可以簡單地推廣到任意深度的前饋網(wǎng)絡(luò) ? 第 m層的單元 r的 ?r值由更深的第 m+1層 ?值根據(jù)下式計算 ? 將這個算法推廣到任何有向無環(huán)結(jié)構(gòu)也同樣簡單,而不論網(wǎng)絡(luò)中的單元是否被排列在統(tǒng)一的層上,計算任意內(nèi)部單元的 ?的法則是: , Downstream(r)是在網(wǎng)絡(luò)中單元 r的直接下游單元的集合,即輸入中包括 r的輸出的所有單元 ????? 層1)1( ms ssrrrr woo ?????? )()1( rD o w n s tr e a ms ssrrrr woo ??反向傳播法則的推導(dǎo) ? 隨機(jī)梯度下降算法迭代處理訓(xùn)練樣例,每次處理一個,對于每個訓(xùn)練樣例 d,利用關(guān)于這個樣例的誤差 Ed的梯度修改權(quán)值 jidji wEw????? ?????o u tp u tskkkd otwE2)(21)( ?符號說明 ? xji,單元 j的第 i個輸入 ? wji,與 xji相關(guān)聯(lián)的權(quán)值 ? j,單元 j的輸入的加權(quán)和 ? oj,單元 j計算出的輸出 ? tj,單元 j的目標(biāo)輸出 ? ?, sigmoid函數(shù) ? outputs,網(wǎng)絡(luò)最后一層的輸出單元的集合 ? Downstream(j),單元 j的輸出到達(dá)的單元的集合 隨機(jī)梯度下降法則的推導(dǎo) ,分情況討論 的推導(dǎo) ? 輸出單元 jijdjijjdjid xne tEwne tne tEwE??????????jdE??jjjdjdne tooEne tE???????jdoE??)()()(221)(21)(2122jjjjjjjjjjo u tp u tskkkjotootototooto???????????????? ??)1()( jjjjjj oone tne tne to ??????? ?)1()( jjjjjd oootn e tE ??????jijjjjjidji xoootwEw )1()( ???????? ??隨機(jī)梯度下降法則的推導(dǎo)(2) ? 隱藏單元 ?????????????????????????????????????)()()()()()()1()1(jD ow ns tr e a mkkjkjjjD ow ns tr e a mkjjkjkjD ow ns tr e a mk jjkjkjD ow ns tr e a mk jjjkkjD ow ns tr e a mk jkkjD ow ns tr e a mk jkkdwoooown e town e toon e tn e tn e tn e tn e tn e tE?????jdE???????? )()1( jD o w n s tr e a mk kjkjjjiji wooxw ??收斂性和局部極小值 ? 對于多層網(wǎng)絡(luò),誤差曲面可能含有多個不同的局部極小值,梯度下降可能陷入這些局部極小值中的任何一個 ? 對于多層網(wǎng)絡(luò),反向傳播算法僅能保證收斂到誤差 E的某個局部極小值,不一定收斂到全局最小誤差 ? 盡管缺乏對收斂到全局最小誤差的保證,反向傳播算法在實踐中仍是非常有效的函數(shù)逼近算法 收斂性和局部極小值(2) ? 網(wǎng)絡(luò)的權(quán)越多,誤差曲面的維數(shù)越多,也就越可能為梯度下降提供更多的逃逸路線 ? 考慮隨著訓(xùn)練中迭代次數(shù)的增加網(wǎng)絡(luò)權(quán)值的演化方式 ? 如果把網(wǎng)絡(luò)的權(quán)值初始化為接近于 0的值,那么在早期的梯度下降步驟中,網(wǎng)絡(luò)將表現(xiàn)為一個非常平滑的函數(shù),近似為輸入的線性函數(shù),這是因為 sigmoid函數(shù)本身在權(quán)值靠近 0時接近線性 ? 僅當(dāng)權(quán)值增長一定時間后,它們才會到達(dá)可以表示高度非線性網(wǎng)絡(luò)函數(shù)的程度,可以預(yù)期在這個能表示更復(fù)雜函數(shù)的權(quán)空間區(qū)域存在更多的局部極小值 ? 但是當(dāng)權(quán)到達(dá)這一點時,它們已經(jīng)足夠靠近全局最小值,即便它是這個區(qū)域的局部最小值也是可以接受的 收斂性和局部極小值( 3) ? 用來緩解局部極小值問題的啟發(fā)式規(guī)則 ? 為梯度更新法則加一個沖量,可以帶動梯度下降過程,沖過狹窄的局部極小值(原則上,也可能沖過狹窄的全局最小值) ? 使用隨機(jī)的梯度下降而不是真正的梯度下降。 ? 隱藏單元 h的誤差項 ? 因為訓(xùn)練樣例僅對網(wǎng)絡(luò)的輸出提供了目標(biāo)值 tk,所以缺少直接的目標(biāo)值來計算隱藏單元的誤差值 ? 采取以下的間接方法計算隱藏單元的誤差項:對受隱藏單元 h影響的每一個單元的誤差 ?k進(jìn)行加權(quán)求和,每個誤差 ?k權(quán)值為 wkh, wkh就是從隱藏單元 h到輸出單元k的權(quán)值。 ? 表 42是反向傳播算法的增量梯度下降(或隨機(jī)梯度下降)版本 ? 使用的符號做了如下擴(kuò)展 ? 網(wǎng)絡(luò)中每個節(jié)點被賦予一個序號,這里的節(jié)點要么是網(wǎng)絡(luò)的輸入,要么是網(wǎng)絡(luò)中某個單元的輸出 ? xji表示節(jié)點 i到單元 j的輸入, wji表示對應(yīng)的權(quán)值 ? ?n表示與單元 n相關(guān)聯(lián)的誤差項。?是學(xué)習(xí)速率, nin是網(wǎng)絡(luò)輸入的數(shù)量, nhidden是隱藏層單元數(shù), nout是輸出單元數(shù),從單元 i到單元 j的輸入表示為 xji,單元 i到單元 j的權(quán)值表示為 wji。 Papert 1969) ? 如果訓(xùn)練樣例線性可分,并且使用了充分小的 ? ? 否則,不能保證 梯度下降和 delta法則 ? delta法則克服感應(yīng)器法則的不足,在線性不可分的訓(xùn)練樣本上,收斂到目標(biāo)概念的最佳近似 ? delta法則的關(guān)鍵思想是,使用梯度下降來搜索可能的權(quán)向量的假設(shè)空間,以找到最佳擬合訓(xùn)練樣例的權(quán)向量 ? delta法則為反向傳播算法提供了基礎(chǔ),而反向傳播算法能夠?qū)W習(xí)多個單元的互連網(wǎng)絡(luò) ? 對于包含多種不同類型的連續(xù)參數(shù)化假設(shè)的假設(shè)空間,梯度下降是必須遍歷這樣的空間的所有算法的基礎(chǔ) 梯度下降和 delta法則( 2) ? 把 delta訓(xùn)練法則理解為訓(xùn)練一個無閾值的感知器 ? 指定一個度量標(biāo)準(zhǔn)來衡量假設(shè)相對于訓(xùn)練樣例的訓(xùn)練誤差 xwxo ??? ??)(????Dddd otwE2)(21)( ?可視化假設(shè)空間 ? 圖 44 ? 根據(jù) E的定義,誤差曲面是一個拋物面,存在一個單一全局最小值 ? 梯度下降搜索從一個任意的初始權(quán)向量開始,然后沿誤差曲面最陡峭下降的方向,以很小的步伐反復(fù)修改這個向量,直到得
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1