freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)面試題目-文庫吧資料

2025-03-31 04:09本頁面
  

【正文】 ,因此使用較大的數(shù)據(jù)量能避免過度擬合現(xiàn)象。那么這個模型由于過度擬合而效果不佳。在機(jī)器學(xué)習(xí)中,當(dāng)一個統(tǒng)計模型首先描述隨機(jī)誤差或噪聲,而不是自身的基本關(guān)系時,過度擬合就會出現(xiàn)。數(shù)據(jù)挖掘則是一種從非結(jié)構(gòu)化數(shù)據(jù)里面提取知識或者未知的、人們感興趣的圖片。它能根據(jù)數(shù)據(jù)自動地學(xué)習(xí)應(yīng)用程序。所以,對于這樣一個簡單模型,大部分場合都會bias部分大于variance部分,也就是高偏差,低方差 機(jī)器學(xué)習(xí)是為了應(yīng)對系統(tǒng)程序設(shè)計,屬于計算機(jī)科學(xué)類的學(xué)科,它能根據(jù)經(jīng)驗進(jìn)行自動學(xué)習(xí)和提高。比如,95%置信區(qū)間,并不是真值在這個區(qū)間內(nèi)的概率是95%,而應(yīng)該為100次隨機(jī)抽樣中構(gòu)造的100個區(qū)間如果95次包含了參數(shù)真值,那么置信度為95%。真值要么在,要么不在。這已經(jīng)經(jīng)過證明是無偏估計的,所以在隨機(jī)森林算法中不需要再進(jìn)行交叉驗證或者單獨(dú)的測試集來獲取測試集誤差的無偏估計。[python] view plain copy print?1. feature importance 2. print() 3. plot 4. (range(len()), ) 5. () 6. ========== 7. plot feature importance 8. plot_importance(model) 9. () feature importanceprint() plot(range(len()), )()========== plot feature importanceplot_importance(model)() 2什么是OOB?隨機(jī)森林中OOB是如何計算的,它有什么優(yōu)缺點(diǎn)?bagging方法中Bootstrap每次約有1/3的樣本不會出現(xiàn)在Bootstrap所采集的樣本集合中,當(dāng)然也就沒有參加決策樹的建立,把這1/3的數(shù)據(jù)稱為袋外數(shù)據(jù)oob(out of bag),它可以用于取代測試集誤差估計方法。另外,GBDT訓(xùn)練是基于Boosting思想,每一迭代中根據(jù)錯誤更新樣本權(quán)重,因此是串行生成的序列化方法,而隨機(jī)森林是bagging的思想,因此是并行化方法。隨機(jī)森林在對決策樹進(jìn)行bagging的基礎(chǔ)上,在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。 adaboost 指數(shù)損失數(shù)據(jù)敏感度:SVM添加容忍度對outlier不敏感,只關(guān)心支持向量,且需要先做歸一化。決策樹容易過擬合,需要進(jìn)行剪枝損失函數(shù):SVM hinge loss。SVM、LR、決策樹的對比?模型復(fù)雜度:SVM支持核函數(shù),可處理線性非線性問題。EM算法一定會收斂,但是可能收斂到局部最優(yōu)。偏差和方差一般稱為bias和variance,一般訓(xùn)練程度越強(qiáng),偏差越小,方差越大,泛化誤差一般在中間有一個最小值,如果偏差較大,方差較小,此時一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。1什么是偏差與方差?泛化誤差可以分解成偏差的平方加上方差加上噪聲。備注:在縮放和標(biāo)準(zhǔn)化中二選一是個令人困惑的選擇,你必須對數(shù)據(jù)和要使用的學(xué)習(xí)模型有更深入的理解,才能做出決定。如果某個特征有相對來說比較大的范圍,而且其在目標(biāo)函數(shù)中無關(guān)緊要,那么邏輯回歸模型自己就會分配一個非常小的值給它的系數(shù),從而中和該特定特征的影響優(yōu)勢,而基于距離的方法,如KNN,沒有這樣的內(nèi)置策略,因此需要縮放。如KNN。將數(shù)據(jù)按比例縮放,使這些數(shù)據(jù)落入到一個較小的特定的區(qū)間之內(nèi)。Id39。Id39。GrLivArea39。, ylim=(0,800000))。], df_train[var]], axis=1)(x=var, y=39。data = ([df_train[39。明顯看出噪聲點(diǎn),去除即可bivariate analysis saleprice/grlivareavar = 39。如圖像操作4. 皮爾遜相關(guān)系數(shù),去除高度相關(guān)的列correlation matrixcorrmat = ()f, ax = (figsize=(12, 9))(corrmat, vmax=.8, square=True)。有的模型(如決策樹)需要離散值3. 對定量特征二值化。 1數(shù)據(jù)預(yù)處理1. 缺失值,填充缺失值fillna:i. 離散:None,ii. 連續(xù):均值。理想情況下,重要特征的得分會接近100%。是一種基于二次抽樣和選擇算法相結(jié)合較新的方法,選擇算法可以是回歸、SVM或其他類似的方法。它的兩個主要問題,1是重要的特征有可能得分很低(關(guān)聯(lián)特征問題),2是這種方法對特征變量類別多的特征越有利(偏向問題)。3. 隨機(jī)森林,對于分類問題,通常采用基尼不純度或者信息增益,對于回歸問題,通常采用的是方差或者最小二乘擬合。1正則化能夠生成稀疏的模型。1如何進(jìn)行特征選擇?特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程,主要有兩個原因:一是減少特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過擬合。 1優(yōu)化Kmeans使用kd樹或者ball tree(這個樹不懂)將所有的觀測實(shí)例構(gòu)建成一顆kd樹,之前每個聚類中心都是需要和每個觀測點(diǎn)做依次距離計算,現(xiàn)在這些聚類中心根據(jù)kd樹只需要計算附近的一個局部區(qū)域即可KMeans初始類簇中心點(diǎn)的選取kmeans++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。至此,我們可以用誤差1誤差2來刻畫變量j的重要性。隨機(jī)森林如何評估特征重要性()衡量變量重要性的方法有兩種,Decrease GINI 和 Decrease Accuracy:1) Decrease GINI: 對于回歸問題,直接使用argmax(Var?VarLeft?VarRight)作為評判標(biāo)準(zhǔn),即當(dāng)前節(jié)點(diǎn)訓(xùn)練集的方差Var減去左節(jié)點(diǎn)的方差VarLeft和右節(jié)點(diǎn)的方差VarRight。如果是連續(xù)型變量,則用proximity矩陣進(jìn)行加權(quán)平均的方法補(bǔ)缺失值。方法二(rfImpute)這個方法計算量大,至于比方法一好壞?不好判斷。規(guī)則為l2的歸一化公式如下:1特征向量的缺失值處理1. ,否則可能反倒會帶入較大的noise,對結(jié)果造成不良影響。特征向量的歸一化方法線性函數(shù)轉(zhuǎn)換,表達(dá)式如下:y=(xMinValue)/(MaxValueMinValue)對數(shù)函數(shù)轉(zhuǎn)換,表達(dá)式如下:y=log10 (x)反余切函數(shù)轉(zhuǎn)換 ,表達(dá)式如下:y=arctan(x)*2/PI減去均值,乘以方差:y=(xmeans)/ variance標(biāo)準(zhǔn)化與歸一化的區(qū)別簡單來說,標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),其通過求zscore的方法,將樣本的特征值轉(zhuǎn)換到同一量綱下。哪些機(jī)器學(xué)習(xí)算法不需要做歸一化處理?概率模型不需要?dú)w一化,因為它們不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率,如決策樹、rf。一些分類器需要
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1