freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)面試題目-wenkub

2023-04-09 04:09:59 本頁面
 

【正文】 選擇結(jié)果,比如可以統(tǒng)計(jì)某個(gè)特征被認(rèn)為是重要特征的頻率(被選為重要特征的次數(shù)除以它所在的子集被測(cè)試的次數(shù))。一般不需要feature engineering、調(diào)參等繁瑣的步驟。二是增強(qiáng)對(duì)特征和特征值之間的理解常見的特征選擇方式:1. 去除方差較小的特征2. 正則化?;舅枷刖褪?,如果一個(gè)變量j足夠重要,那么改變它會(huì)極大的增加測(cè)試誤差;反之,如果改變它測(cè)試誤差沒有增大,則說明該變量不是那么的重要。然后迭代46次,這個(gè)補(bǔ)缺失值的思想和KNN有些類似12。2. 缺失值較少,其余的特征缺失值都在10%以內(nèi),我們可以采取很多的方式來處理:1) 把NaN直接作為一個(gè)特征,假設(shè)用0表示;2) 用均值填充;3) 用隨機(jī)森林等算法預(yù)測(cè)填充 隨機(jī)森林如何處理缺失值()方法一()簡(jiǎn)單粗暴,對(duì)于訓(xùn)練集,同一個(gè)class下的數(shù)據(jù),如果是分類變量缺失,用眾數(shù)補(bǔ)上,如果是連續(xù)型變量缺失,用中位數(shù)補(bǔ)。而像adaboost、gbdt、xgboost、svm、lr、KNN、KMeans之類的最優(yōu)化問題就需要?dú)w一化。如果不做歸一化,梯度下降過程容易走之字,很難收斂甚至不能收斂2)把有量綱表達(dá)式變?yōu)闊o量綱表達(dá)式, 有可能提高精度。L1求解最小角回歸算法:LARS算法1越小的參數(shù)說明模型越簡(jiǎn)單過擬合的,擬合會(huì)經(jīng)過曲面的每個(gè)點(diǎn),也就是說在較小的區(qū)間里面可能會(huì)有較大的曲率,這里的導(dǎo)數(shù)就是很大,線性模型里面的權(quán)值就是導(dǎo)數(shù),所以越小的參數(shù)說明模型越簡(jiǎn)單。(樸素貝葉斯、Kmeans)生成模型可以還原聯(lián)合概率分布p(X,Y),并且有較快的學(xué)習(xí)收斂速度,還可以用于隱變量的學(xué)習(xí)2. 判別模型:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或者條件概率分布P(Y|X)作為預(yù)測(cè)的模型,即判別模型。增加樣本數(shù)量,對(duì)樣本進(jìn)行降維,添加驗(yàn)證數(shù)據(jù)抽樣方法要符合業(yè)務(wù)場(chǎng)景清洗噪聲數(shù)據(jù)2. 模型或訓(xùn)練問題控制模型復(fù)雜度,優(yōu)先選擇簡(jiǎn)單的模型,或者用模型融合技術(shù)。所表現(xiàn)的就是模型訓(xùn)練時(shí)候的誤差很小,但在測(cè)試的時(shí)候誤差很大。(LR,SVM,BP,RF,GBDT)無監(jiān)督學(xué)習(xí):對(duì)未標(biāo)記的樣本進(jìn)行訓(xùn)練學(xué)習(xí),比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識(shí)。(KMeans,DL)正則化正則化是針對(duì)過擬合而提出的,以為在求解模型最優(yōu)的是一般優(yōu)化最小的經(jīng)驗(yàn)風(fēng)險(xiǎn),現(xiàn)在在該經(jīng)驗(yàn)風(fēng)險(xiǎn)上加入模型復(fù)雜度這一項(xiàng)(正則化項(xiàng)是模型參數(shù)向量的范數(shù)),并使用一個(gè)rate比率來權(quán)衡模型復(fù)雜度與以往經(jīng)驗(yàn)風(fēng)險(xiǎn)的權(quán)重,如果模型復(fù)雜度越高,結(jié)構(gòu)化的經(jīng)驗(yàn)風(fēng)險(xiǎn)會(huì)越大,現(xiàn)在的目標(biāo)就變?yōu)榱私Y(jié)構(gòu)經(jīng)驗(yàn)風(fēng)險(xiǎn)的最優(yōu)化,可以防止模型訓(xùn)練過度復(fù)雜,有效的降低過擬合的風(fēng)險(xiǎn)。產(chǎn)生的原因過擬合原因:1. 樣本數(shù)據(jù)的問題。利用先驗(yàn)知識(shí),添加正則項(xiàng)。(k近鄰、決策樹、SVM)直接面對(duì)預(yù)測(cè),往往準(zhǔn)確率較高,直接對(duì)數(shù)據(jù)在各種程度上的抽象,所以可以簡(jiǎn)化模型線性分類器與非線性分類器的區(qū)別以及優(yōu)劣如果模型是參數(shù)的線性函數(shù),并且存在線性分類面,那么就是線性分類器,否則不是。1為什么一些機(jī)器學(xué)習(xí)模型需要對(duì)數(shù)據(jù)進(jìn)行歸一化?歸一化化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后(通過某種算法)限制在你需要的一定范圍內(nèi)。一些分類器需要計(jì)算樣本之間的距離(如歐氏距離),例如KNN。特征向量的歸一化方法線性函數(shù)轉(zhuǎn)換,表達(dá)式如下:y=(xMinValue)/(MaxValueMinValue)對(duì)數(shù)函數(shù)轉(zhuǎn)換,表達(dá)式如下:y=log10 (x)反余切函數(shù)轉(zhuǎn)換 ,表達(dá)式如下:y=arctan(x)*2/PI減去均值,乘以方差:y=(xmeans)/ variance標(biāo)準(zhǔn)化與歸一化的區(qū)別簡(jiǎn)單來說,標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),其通過求zscore的方法,將樣本的特征值轉(zhuǎn)換到同一量綱下。方法二(rfImpute)這個(gè)方法計(jì)算量大,至于比方法一好壞?不好判斷。隨機(jī)森林如何評(píng)估特征重要性()衡量變量重要性的方法有兩種,Decrease GINI 和 Decrease Accuracy:1) Decrease GINI: 對(duì)于回歸問題,直接使用argmax(Var?VarLeft?VarRight)作為評(píng)判標(biāo)準(zhǔn),即當(dāng)前節(jié)點(diǎn)訓(xùn)練集的方差Var減去左節(jié)點(diǎn)的方差VarLeft和右節(jié)點(diǎn)的方差VarRight。 1優(yōu)化Kmeans使用kd樹或者ball tree(這個(gè)樹不懂)將所有的觀測(cè)實(shí)例構(gòu)建成一顆kd樹,之前每個(gè)聚類中心都是需要和每個(gè)觀測(cè)點(diǎn)做依次距離計(jì)算,現(xiàn)在這些聚類中心根據(jù)kd樹只需要計(jì)算附近的一個(gè)局部區(qū)域即可KMeans初始類簇中心點(diǎn)的選取kmeans++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。1正則化能夠生成稀疏的模型。它的兩個(gè)主要問題,1是重要的特征有可能得分很低(關(guān)聯(lián)特征問題),2是這種方法對(duì)特征變量類別多的特征越有利(偏向問題)。理想情況下,重要特征的得分會(huì)接近100%。有的模型(如決策樹)需要離散值3. 對(duì)定量特征二值化。明顯看出噪聲點(diǎn),去除即可bivariate analysis saleprice/grlivareavar = 39。], df_train[var]], axis=1)(x=var, y=39。GrLivArea39。Id39。如KNN。備注:在縮放和標(biāo)準(zhǔn)化中二選一是個(gè)令人困惑的選擇,你必須對(duì)數(shù)據(jù)和要使用的學(xué)習(xí)模型有更深入的理解,才能做出決定。偏差和方差一般稱為bias和variance,一般訓(xùn)練程度越強(qiáng),偏差越小,方差越大,泛化誤差一般在中間有一個(gè)最小值,如果偏差較大,方差較小,此時(shí)一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。SVM、LR、決策樹的對(duì)比?模型復(fù)雜度:SVM支持核函數(shù),可處理線性非線性問題。 adaboost 指數(shù)損失數(shù)據(jù)敏感度:SVM添加容忍度對(duì)outlier不敏感,只關(guān)心支持向量,且需要先做歸一化。另外,GBDT訓(xùn)練是基于Boosting思想,每一迭代中根據(jù)錯(cuò)誤更新樣本權(quán)重,因此是串行生成的序列化方法,而隨機(jī)森林是bagging的思想,因此是并行化方法。這已經(jīng)經(jīng)過證明是無偏估計(jì)的,所以在隨機(jī)森林算法中不需要再進(jìn)行交叉驗(yàn)證或者單獨(dú)的測(cè)試集來獲取測(cè)試集誤差的無偏估計(jì)。比如,95%置信區(qū)間,并不是真值在這個(gè)區(qū)間內(nèi)的概率是95%,而應(yīng)該為100次隨機(jī)抽樣中構(gòu)造的100個(gè)區(qū)間如果95次包含了參數(shù)真值,那么置信度為95%。它能根據(jù)數(shù)據(jù)自動(dòng)地學(xué)習(xí)應(yīng)用程序。在機(jī)器學(xué)習(xí)中,當(dāng)一個(gè)統(tǒng)計(jì)模型首先描述隨機(jī)誤差或噪聲,而不是自身的基本關(guān)系時(shí),過度擬合就會(huì)出現(xiàn)。當(dāng)你使用較小的數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)時(shí),容易產(chǎn)生過度擬合,因此使用較大的數(shù)據(jù)量能避免過度擬合現(xiàn)象。交叉驗(yàn)證的思想是:在訓(xùn)練階段,定義一個(gè)數(shù)據(jù)集用來測(cè)試模型。?監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法是將一組示例數(shù)據(jù)的分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。(Symbolic Vs Statistical Learning)。?基于經(jīng)驗(yàn)數(shù)據(jù)的特性而
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1