【正文】
s review somebackground material on generalization error. Generalization error can bebroken down into three additive parts, noise variance + estimation variance+ squared estimation bias. Noise variance is the same for all subsets ofinputs. Bias is nonzero for subsets that are not good, but it39。 .,there is no crossing. While various people have suggested thatcrossvalidation be applied to early stopping, the proper way of doing so isnot obvious. The distinction between crossvalidation and splitsample validation isextremely important because crossvalidation is markedly superior for smalldata sets。根據(jù)以上過(guò)程重復(fù)K次,因此每個(gè)子集都有機(jī)會(huì)進(jìn)行測(cè)試,根據(jù)k次迭代后得到的MSE平均值來(lái)估計(jì)期望泛化誤差,最后選擇一組最優(yōu)的參數(shù)。EA與kCV正確的搭配方法,是將dataset分成k等份的subsets后,每次取1份subset作為test set,其余k1份作為training set,并且將該組training set套用到EA的fitness function計(jì)算中(至于該training set如何進(jìn)一步利用則沒(méi)有限制)。 每一回合中幾乎所有的樣本皆用于訓(xùn)練model,因此最接近母體樣本的分布,估測(cè)所得的generalization error比較可靠。Double crossvalidation也稱2fold crossvalidation(2CV),作法是將dataset分成兩個(gè)相等大小的subsets,進(jìn)行兩回合的分類器訓(xùn)練。在往下敘述之前,這邊就必須點(diǎn)出一個(gè)極為重要的觀念:只有training data才可以用在model的訓(xùn)練過(guò)程中,test data則必須在model完成之后才被用來(lái)評(píng)估m(xù)odel優(yōu)劣的依據(jù)。 8. 利用測(cè)試集測(cè)試模型,得到精度。抽樣技術(shù)有分層抽樣,簡(jiǎn)單抽樣(等概率抽樣) 4. 將數(shù)據(jù)轉(zhuǎn)化為軟件(接口)所支持的格式。k 折交叉驗(yàn)證(kfold cross validation) 是將訓(xùn)練集合分成 k 個(gè)大小相同的子集。非常重要的一點(diǎn)是0 Kij ≤1與多項(xiàng)式核相反,核值可能趨向無(wú)限(γxi xj + r 1)或者0 γxi xj + r 1,跨度非常大。選擇核函數(shù)。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,前者是保證經(jīng)驗(yàn)風(fēng)險(xiǎn)(經(jīng)驗(yàn)風(fēng)險(xiǎn)和期望風(fēng)險(xiǎn)依賴于學(xué)習(xí)機(jī)器函數(shù)族的選擇)最小,而后者使分類間隔最大,導(dǎo)致 VC 維最小,實(shí)際上就是使推廣性的界中的置信范圍最小,從而達(dá)到使真實(shí)風(fēng)險(xiǎn)最小。 線性可分的問(wèn)題就是滿足最優(yōu)分類面的面要求分類面不但能將兩類樣本正確分開(訓(xùn)練錯(cuò)誤率為 0),而且要使兩類的分類間隔最大(這個(gè)是怎么回事呢?原來(lái)是有根據(jù)的,這個(gè)讓俺郁悶了好久呢。 在有限的訓(xùn)練樣本情況下,當(dāng)樣本數(shù) n 固定時(shí),此時(shí)學(xué)習(xí)機(jī)器的 VC 維越高(學(xué)習(xí)機(jī)器的復(fù)雜性越高),則置信范圍就越大,此時(shí),真實(shí)風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn)之間的差別就越大,這就是為什么會(huì)出現(xiàn)過(guò)學(xué)習(xí)現(xiàn)象的原因。上式中置信范圍Φ 隨n/h增加,單調(diào)下降。train跟kfoldone常用的精度測(cè)試方法有交叉驗(yàn)證,例如10倍交叉驗(yàn)證(10fold cross validation),將數(shù)據(jù)集分成十分,輪流將其中9份做訓(xùn)練1份做測(cè)試,10次的結(jié)果的均值作為對(duì)算法精度的估計(jì),一般還需要進(jìn)行多次10倍交叉驗(yàn)證求均值,例如10次10倍交叉驗(yàn)證,更精確一點(diǎn)。該過(guò)程為 :對(duì)于第i個(gè)訓(xùn)練樣本,將其取出,對(duì)剩下L1個(gè)樣本進(jìn)行訓(xùn)練,得到?jīng)Q策函數(shù),并用其測(cè)試第i個(gè)訓(xùn)練樣本,該過(guò)程重復(fù)L次,用此方法求出的誤差對(duì)于實(shí)際中的測(cè)試誤差來(lái)說(shuō)幾乎是無(wú)偏的。node的個(gè)數(shù)對(duì)于連續(xù)的參數(shù)沒(méi)法調(diào)網(wǎng)絡(luò)的權(quán)值是通過(guò)learningh = f (1/*) 其中, f().是單調(diào)增函數(shù),即 h 與的平方成反比關(guān)系。而C就是松馳因子前面的系數(shù),C0 是一個(gè)自定義的懲罰因子,它控制對(duì)錯(cuò)分樣本懲罰的程度,用來(lái)控制樣本偏差與機(jī)器推廣能力之間的折衷。對(duì)某些參數(shù),Sigmoid核同 RBF 核具有相似的性能[26]。目的是確定好的(C,γ)使得分類器能正確的預(yù)測(cè)未知數(shù)據(jù)(即測(cè)試集數(shù)據(jù)),有較高的分類精確率。 2. 歸一化數(shù)據(jù)。需要提到的這里在對(duì)訓(xùn)練集進(jìn)行分割的時(shí)候涉及到抽樣,一個(gè)較好的方法就是分層抽樣。 1條評(píng)論 如何使用CrossValidation寫這份文件,最主要的目的是介紹如何正確的使用crossvalidation,并舉例一些常犯的錯(cuò)誤。然而隨機(jī)也正是此作法的盲點(diǎn),也是經(jīng)常是可以在數(shù)據(jù)上做手腳的地方。在實(shí)作上,k要夠大才能使各回合中的training set樣本數(shù)夠多,一般而言k=10算是相當(dāng)足夠了。前面說(shuō)過(guò),只有training data才可以用于model的建構(gòu),所以只有training data的辨識(shí)率才可以用在fitness function中。39。39。 Hjorth 1994。sBayesian criterion (called SBC or BIC) when v =n[11/(log(n)1)], where n is the number of training cases. SBCprovides consistent subsetselection, while AIC does not. That is, SBC willchoose the best subset with probability approaching one as the size of thetraining set goes to infinity. AIC has an asymptotic probability of one ofchoosing a good subset, but less than one of choosing the best subset(Stone, 1979). Many simulation studies have also found that AIC overfitsbadly in small samples, and that SBC works well (., Hurvich and Tsai,1989。Kohavi, 1995), for which it can be excessively optimistic. 。 see the discussionbelow of Shao, 1993.) A value of 10 for k is popular for estimatinggeneralization error. Leaveoneout crossvalidation can also run into trouble with variousmodelselection methods. Again, one problem is lack of continuitya smallchange in the data can cause a large change in the model selected (Breiman,1996). For choosing subsets of inputs in linear regression, Breiman andSpector (1992) found 10fold and 5fold crossvalidation to work better thanleaveoneout. Kohavi (1995) also obtained good results for 10foldcrossvalidation with empirical decision trees (). Values of k as smallas 5 or even 2 may work even better if you analyze several different random kway splits of the data to reduce the variability of the crossvalidationestimate. Leaveoneout crossvalidation also has more subtle deficiencies for modelselection. Shao (1995) showed that in linear models, leaveoneoutcrossvalidation is asymptotically equivalent to AIC (and Mallows39。ll get the values , , and , which also agrees with our observations. What are crossvalidation and bootstrapping? Crossvalidation and bootstrapping are both methods for estimatinggeneralization error based on resampling (Weiss and Kulikowski 1991。一般需要循環(huán)k次,直到所有k份數(shù)據(jù)全部被選擇一遍為止。Cross Validation,中文意思是交叉驗(yàn)證,下面是幾種不同類型的Cross validation的解釋,有一個(gè)Idea in p27 in the ideas notebook。但LOOCV的缺點(diǎn)則是計(jì)算成本高,因?yàn)樾枰⒌膍odels數(shù)量與總樣本數(shù)量相同,當(dāng)總樣本數(shù)量相當(dāng)多時(shí),LOOCV在實(shí)作上便有困難,除非每次訓(xùn)練model的速度很快,或是可以用平行化計(jì)算減少計(jì)算所需的時(shí)間。此外,2CV中分subset的變異度大,往往無(wú)法達(dá)到「實(shí)驗(yàn)過(guò)程必須可以被復(fù)制」的要求。其中第2點(diǎn)特別重要,均勻取樣的目的是希望減少training/test set與完整集合之間的偏差(bias),但卻也不易做到。如何使用交叉驗(yàn)證(crossvalidatation) 6. 對(duì)訓(xùn)練集利用交叉驗(yàn)證法選擇最好的參數(shù)C和r(rbf核函數(shù)中的參數(shù)gama)。它可以防止過(guò)擬合的問(wèn)題。使用 RBF 核時(shí),要考慮兩個(gè)參數(shù) C 和γ 。因?yàn)镽BF 核可以將樣本映射到一個(gè)更高維的空間,可以處理當(dāng)類標(biāo)簽(Class Labels)和特征之間的關(guān)系是非線性時(shí)的樣例。這里就出現(xiàn)了新詞松馳因子,干嗎用滴?就是用來(lái)控制錯(cuò)分樣本的啊??梢?jiàn),在保證分類精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))的同時(shí),降低學(xué)習(xí)機(jī)器的 VC 維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn)得到控制,這就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structure Risk Minimization,簡(jiǎn)稱 SRM)的由來(lái)。 推廣的界(經(jīng)驗(yàn)風(fēng)險(xiǎn)和實(shí)際風(fēng)險(xiǎn)之間的關(guān)系,注意引入這個(gè)原因是什么?因?yàn)橛?xùn)練誤差再小也就是在這個(gè)訓(xùn)練集合上,實(shí)際的推廣能力不行就會(huì)引起過(guò)擬合問(wèn)題還。根據(jù)一個(gè)樣本集k次validation之后的誤差的平均值來(lái)估計(jì)一個(gè)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)的泛化誤差結(jié)構(gòu)風(fēng)險(xiǎn)最小化VC 維在有限的訓(xùn)練樣本情況下,當(dāng)樣本數(shù) n 固定時(shí),此時(shí)學(xué)習(xí)機(jī)器的 VC 維越高學(xué)習(xí)機(jī)器的復(fù)雜性越高。validation經(jīng)常被用來(lái)訓(xùn)練NN,SVM等來(lái)確定一個(gè)最優(yōu)的參數(shù)它的基本思想就是將原始的訓(xùn)練集分成兩部分:訓(xùn)練集2(為了與原始訓(xùn)練集相區(qū)別,本處稱之為訓(xùn)練集2)與驗(yàn)證集從原始訓(xùn)練集中選擇n/k個(gè)元素組成驗(yàn)證集剩下的(k1)*n/k個(gè)元素用來(lái)做訓(xùn)練集2