freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

[工學]8人工神經網絡-資料下載頁

2024-10-18 23:31本頁面
  

【正文】 設定為 ,沖量設定為 ? 賦予這兩個參數更低的值會產生大體相當的泛化精度,但需要更長的訓練時間 ? 如果賦予更高的值,訓練將不能收斂到一個具有可接受誤差的網絡 ? 適用完全的梯度下降 ? 輸出單元的權值被初始化為小的隨機值 ? 輸入單元的權值被初始化為 0 ? 訓練的迭代次數的選擇可以通過分割可用的數據為訓練集合和驗證集合來實現(xiàn) ? 最終選擇的網絡是對驗證集合精度最高的網絡 ? 最終報告的精度是在沒有對訓練產生任何影響的第三個集合 ——測試集合上測量得到的 學習到的隱藏層表示 ? 圖中緊挨人臉圖像下的 4個矩形,每個矩形描繪了網絡中4個輸出單元中的一個權值,每個矩形中的 4個小方形表示和這個輸出單元關聯(lián)的 4個權值 ? 隱藏單元的權值顯示在輸出單元的下邊,每個隱藏單元接受所有 30x32個像素輸入。與這些輸入關聯(lián)的 30x32個權值被顯示在它們對應的像素的位置 ? 針對每一個訓練樣例,梯度下降迭代 100次后的網絡權值顯示在圖的下部。 ? 如果一個人的臉是轉向他的右面,那么他的亮度高的皮膚會大致與這個隱藏單元中的較大正值對齊,同時他的亮度低的頭發(fā)會大致與負權值對齊,這導致此單元輸出一個較大的值,同樣的圖像會使第 3個隱藏單元輸出一個接近 0的值。 其他可選的誤差函數 ? 為權值增加一個懲罰項 ? 把一個隨著權向量幅度增長的項加入到 E中,這導致梯度下降搜尋較小的權值向量,從而減小過度擬合的風險,等價于使用權衰減策略 ? 對誤差增加一項目標函數的斜率或導數 ? 某些情況下,訓練信息中不僅有目標值,而且還有關于目標函數的導數 ? ??? ? ??? Dd ji jio u tp u tsk kdkd wotwE , 22)(21)( ??? ? ?? ? ? ???????????????? ???????? Dd o u tp u tsk in p u tsj jdkdjdkdkdkd xoxtotwE22)(21)( ??其他可選的誤差函數( 2) ? 使網絡對目標值的交叉熵最小化 ? 比如根據借貸申請者的年齡和存款余額,預測他是否會還貸,目標函數最好以申請者還貸的概率的形式輸出,而不是輸出明確的 0和 1。在這種情況下,可以證明最小化交叉熵的網絡可以給出最好的概率估計。交叉熵定義如下: ? 第 6章討論了何時及為什么最可能的網絡假設就是使交叉熵最小化的假設,并推導了相應的 sigmoid單元的梯度下降權值調整法則,還描述了在什么條件下最可能的假設就是使誤差平方和最小化的假設。 )1l o g ()1(l o g ddDd ddotot ???? ??其他可選的誤差函數( 3) ? 通過權值共享改變有效誤差函數 ? 把與不同單元或輸入相關聯(lián)的權 “ 捆綁在一起 ” ,強迫不同的網絡權值取一致的值,通常是為了實施人類設計者事先知道的某個約束 ? 約束了假設的潛在空間,減小了過度擬合的風險 ? 實現(xiàn)方法,首先在共享權值的每個單元分別更新各個權值,然后取這些權值的平均,再用這個平均值替換每個需要共享的權值。 ? 被共享的權值比沒有共享的權值更有效地適應一個不同的誤差函數 其他可選的誤差最小化過程 ? 梯度下降是搜尋使誤差函數最小化的假設的最通用的方法之一,但不是最高效的 ? 不妨把權值更新方法看作是要決定這樣兩個問題: ? 選擇一個改變當前權值向量的方向(梯度的負值) ? 選擇要移動的距離(學習速率) ? 線搜索,每當選定了一條確定權值更新方向的路線,那么權更新的距離是通過沿這條線尋找誤差函數的最小值來選擇的 ? 共軛梯度,進行一系列線搜索來搜索誤差曲面的最小值,這一系列搜索的第一步仍然使用梯度的反方向,在后來的每一步中,選擇使誤差梯度分量剛好為 0并保持為 0的方向 ? 像共軛梯度這樣的方法對最終網絡的泛化誤差沒有明顯的影響,唯一可能的影響是,不同的誤差最小化過程會陷入不同的局部最小值 遞歸網絡 ? 遞歸網絡是有如下特征的人工神經網絡 ? 適用于時序數據 ? 使用網絡單元在時間 t的輸出作為其他單元在時間 t+1的輸入 ? 遞歸網絡支持在網絡中使用某種形式的有向環(huán) ? 考慮一個時序預測任務 ? 根據當天的經濟指標 x(t),預測下一天的股票平均市值 y(t+1) ? 訓練一個前饋網絡預測輸出 y(t+1),圖 411a 遞歸網絡 ? 預測 y(t+1)時,考慮任意過去的時間窗內的信息,圖 411b ? 圖 411b那樣的遞歸網絡可以使用反向傳播算法的簡單變體來訓練 ? 把遞歸網絡拷貝成幾份,用不同拷貝間的連接替換掉反饋環(huán),這個大的網絡不再包含回路,所以可以直接使用反向傳播算法來訓練 ? 實踐中,我們僅保留一份遞歸網絡和權值集合的拷貝,在訓練了展開的網絡后,可以取不同拷貝中權值的平均值作為最終網絡的對應的權值 ? 實踐中,遞歸網絡比沒有反饋環(huán)的網絡更難以訓練,泛化的可靠性也不如后者,然而它們仍因較強的表征力而保持著重要性 動態(tài)修改網絡結構 ? 動態(tài)增長或壓縮網絡單元和單元間連接的數量 ? 從一個不包含隱藏單元的網絡開始,然后根據需要增加隱藏單元來增長網絡,直到訓練誤差下降到某個可接受的水平 ? 級聯(lián)相關算法,每當加入一個新的隱藏單元,它的輸入包括所有原始的網絡輸入和已經存在的隱藏單元的輸出,網絡以這種方式增長,積聚隱藏單元,直到網絡的殘余誤差下降到某個可接受的水平 ? 由于每一步僅有一層網絡在被訓練,級聯(lián)相關算法顯著減少了訓練時間 ? 算法的一個實際困難是,因為算法可以無限制地增加單元,很容易過度擬合訓練數據。 動態(tài)修改網絡結構 ? 從一個復雜的網絡開始修剪掉某些連接 ? 判斷某個權是否無關緊要的一種方法是看它的值是否接近 0 ? 在實踐中更加成功的方法是考慮這個權值的一個小的變化對誤差的影響(連接的顯著性) ? 最不顯著的連接被拆除,重復這個過程,直到遇到某個終止條件為止(最優(yōu)腦損傷法) ? 一般而言,動態(tài)修改網絡結構的方法能否穩(wěn)定地提高反向傳播算法的泛化精度還有待研究 小結 ? 人工神經網絡為學習實數值和向量值函數提供了一種實際的方法,對于連續(xù)值和離散值的屬性都可以使用,并且對訓練數據中的噪聲具有很好的健壯性。 ? 反向傳播算法是最常見的網絡學習算法 ? 反向傳播算法考慮的假設空間是固定連接的有權網絡所能表示的所有函數的空間 ? 包含 3層單元的前饋網絡能夠以任意精度逼近任意函數,只要每一層有足夠數量的單元。即使是一個實際大小的網絡也能夠表示很大范圍的高度非線性函數 ? 反向傳播算法使用梯度下降方法搜索可能假設的空間,迭代減小網絡的誤差以擬合訓練數據 小結( 2) ? 梯度下降收斂到訓練誤差相對網絡權值的局部極小值。只要訓練誤差是假設參數的可微函數,梯度下降可用來搜索很多連續(xù)參數構成的假設空間 ? 反向傳播算法能夠創(chuàng)造出網絡輸入中沒有明確出現(xiàn)的特征。 ? 交叉驗證方法可以用來估計梯度下降搜索的合適終止點,從而最小化過度擬合的風險 ? 其他 ANN學習算法,遞歸網絡方法訓練包含有向環(huán)的網絡,級聯(lián)相關算法改變權和網絡結構 補充讀物 ? 本書其他與 ANN學習相關的章節(jié) ? 第 6章給出了選擇最小化誤差平方和的貝葉斯論證,以及在某些情況下,用最小化交叉熵代替最小化誤差平方和的方法 ? 第 7章討論了為可靠學習布爾函數所需要的訓練實例數量的理論結果,以及某些類型網絡的VC維 ? 第 5章討論了過度擬合和避免過度擬合的方法 ? 第 12章討論了使用以前知識來提高泛化精度的方法 補充讀物( 2) ? 發(fā)展歷程 ? McCulloch amp。 Pitts ? Widrow amp。 Hoff ? Rosenblatt ? Minsky amp。 Papert ? Rumelhart amp。 McClelland。 Parker ? 教科書 ? Duda amp。 Hart ? Windrow amp。 Stearns ? Rumelhart amp。 McClelland
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1