正文內(nèi)容

機器學(xué)習(xí)面試題目(已修改)

2025-04-06 04:09 本頁面

　

【正文】有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別有監(jiān)督學(xué)習(xí)：對具有標(biāo)記的訓(xùn)練樣本進行學(xué)習(xí)，以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進行分類預(yù)測。（LR,SVM,BP,RF,GBDT）無監(jiān)督學(xué)習(xí)：對未標(biāo)記的樣本進行訓(xùn)練學(xué)習(xí)，比發(fā)現(xiàn)這些樣本中的結(jié)構(gòu)知識。(KMeans,DL)正則化正則化是針對過擬合而提出的，以為在求解模型最優(yōu)的是一般優(yōu)化最小的經(jīng)驗風(fēng)險，現(xiàn)在在該經(jīng)驗風(fēng)險上加入模型復(fù)雜度這一項（正則化項是模型參數(shù)向量的范數(shù)），并使用一個rate比率來權(quán)衡模型復(fù)雜度與以往經(jīng)驗風(fēng)險的權(quán)重，如果模型復(fù)雜度越高，結(jié)構(gòu)化的經(jīng)驗風(fēng)險會越大，現(xiàn)在的目標(biāo)就變?yōu)榱私Y(jié)構(gòu)經(jīng)驗風(fēng)險的最優(yōu)化，可以防止模型訓(xùn)練過度復(fù)雜，有效的降低過擬合的風(fēng)險。奧卡姆剃刀原理，能夠很好的解釋已知數(shù)據(jù)并且十分簡單才是最好的模型。過擬合如果一味的去提高訓(xùn)練數(shù)據(jù)的預(yù)測能力，所選模型的復(fù)雜度往往會很高，這種現(xiàn)象稱為過擬合。所表現(xiàn)的就是模型訓(xùn)練時候的誤差很小，但在測試的時候誤差很大。產(chǎn)生的原因過擬合原因：1. 樣本數(shù)據(jù)的問題。樣本數(shù)量太少；抽樣方法錯誤，抽出的樣本數(shù)據(jù)不能有效足夠代表業(yè)務(wù)邏輯或業(yè)務(wù)場景。比如樣本符合正態(tài)分布，卻按均分分布抽樣，或者樣本數(shù)據(jù)不能代表整體數(shù)據(jù)的分布；樣本里的噪音數(shù)據(jù)干擾過大2. 模型問題模型復(fù)雜度高、參數(shù)太多決策樹模型沒有剪枝權(quán)值學(xué)習(xí)迭代次數(shù)足夠多(Overtraining),擬合了訓(xùn)練數(shù)據(jù)中的噪聲和訓(xùn)練樣例中沒有代表性的特征.解決方法1. 樣本數(shù)據(jù)方面。增加樣本數(shù)量，對樣本進行降維，添加驗證數(shù)據(jù)抽樣方法要符合業(yè)務(wù)場景清洗噪聲數(shù)據(jù)2. 模型或訓(xùn)練問題控制模型復(fù)雜度，優(yōu)先選擇簡單的模型，或者用模型融合技術(shù)。利用先驗知識，添加正則項。L1正則更加容易產(chǎn)生稀疏解、L2正則傾向于讓參數(shù)w趨向于0. 交叉驗證不要過度訓(xùn)練，最優(yōu)化求解時，收斂之前停止迭代。決策樹模型沒有剪枝權(quán)值衰減泛化能力泛化能力是指模型對未知數(shù)據(jù)的預(yù)測能力生成模型和判別模型1. 生成模型：由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y)，然后求出條件概率分布P(Y|X)作為預(yù)測的模型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。（樸素貝葉斯、Kmeans）生成模型可以還原聯(lián)合概率分布p(X,Y)，并且有較快的學(xué)習(xí)收斂速度，還可以用于隱變量的學(xué)習(xí)2. 判別模型：由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或者條件概率分布P(Y|X)作為預(yù)測的模型，即判別模型。（k近鄰、決策樹、SVM）直接面對預(yù)測，往往準(zhǔn)確率較高，直接對數(shù)據(jù)在各種程度上的抽象，所以可以簡化模型線性分類器與非線性分類器的區(qū)別以及優(yōu)劣如果模型是參數(shù)的線性函數(shù)，并且存在線性分類面，那么就是線性分類器，否則不是。常見的線性分類器有：LR,貝葉斯分類，單層感知機、線性回歸常見的非線性分類器：決策樹、RF、GBDT、多層感知機SVM兩種都有(看線性核還是高斯核)線性分類器速度快、編程方便，但是可能擬合效果不會很好非線性分類器編程復(fù)雜，但是效果擬合能力強特征比數(shù)據(jù)量還大時，選擇什么樣的分類器？線性分類器，因為維度高的時候，數(shù)據(jù)一般在維度空間里面會比較稀疏，很有可能線性可分對于維度很高的特征，你是選擇線性還是非線性分類器？理由同上對于維度極低的特征，你是選擇線性還是非線性分類器？非線性分類器，因為低維空間可能很多特征都跑到一起了，導(dǎo)致線性不可分1. 如果Feature的數(shù)量很大，跟樣本數(shù)量差不多，這時候選用LR或者是Linear Kernel的SVM2. 如果Feature的數(shù)量比較小，樣本數(shù)量一般，不算大也不算小，選用SVM+Gaussian Kernel3. 如果Feature的數(shù)量比較小，而樣本數(shù)量很多，需要手工添加一些feature變成第一種情況illcondition病態(tài)問題訓(xùn)練完的模型測試樣本稍作修改就會得到差別很大的結(jié)果，就是病態(tài)問題（這簡直是不能用?。㎜1和L2正則的區(qū)別，如何選擇L1和L2正則他們都是可以防止過擬合，降低模型復(fù)雜度L1是在loss function后面加上模型參數(shù)的1范數(shù)（也就是|xi|）L2是在loss function后面加上模型參數(shù)的2范數(shù)（也就是sigma(xi^2)），注意L2范數(shù)的定義是sqrt(sigma(xi^2))，在正則項上沒有添加sqrt根號是為了更加容易優(yōu)化L1 會產(chǎn)生稀疏的特征L2 會產(chǎn)生更多地特征但是都會接近于0L1會趨向于產(chǎn)生少量的特征，而其他的特征都是0，而L2會選擇更多的特征，這些特征都會接近于0。L1在特征選擇時候非常有用，而L2就只是一種規(guī)則化而已。L1求解最小角回歸算法：LARS算法1越小的參數(shù)說明模型越簡單過擬合的，擬合會經(jīng)過曲面的每個點，也就是說在較小的區(qū)間里面可能會有較大的曲率，這里的導(dǎo)數(shù)就是很大，線性模型里面的權(quán)值就是導(dǎo)數(shù)，所以越小的參數(shù)說明模型越簡單。1為什么一些機器學(xué)習(xí)模型需要對數(shù)據(jù)進行歸一化？歸一化化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后（通過某種算法）限制在你需要的一定范圍內(nèi)。1）歸一化后加快了梯度下降求最優(yōu)解的速度。等高線變得顯得圓滑，在梯度下降進行求解時能較快的收斂。如果不做歸一化，梯度下降過程容易走之字，很難收斂甚至不能收斂2）把有量綱表達(dá)式變?yōu)闊o量綱表達(dá)式, 有可能提高精度。一些分類器需要計算樣本之間的距離（如歐氏距離），例如KNN。如果一個特征值域范圍非常大，那么距離計算就主要取決于這個特征，從而與實際情況相悖（比如這時實際情況是值域范圍小的特征更重要）3) 邏輯回歸等模型先驗假設(shè)數(shù)據(jù)服從正態(tài)分布。哪些機器學(xué)習(xí)算法不需要做歸一化處理？概率模型不需要歸一化，因為它們不關(guān)心變量的值，而是關(guān)心變量的分布和變量之間的條件概率，如決策樹、rf。而像adaboost、gbdt、xgboost、svm、lr、KNN、KMeans之類的最優(yōu)化問題就需要歸一化。特征向量的歸一化方法線性函數(shù)轉(zhuǎn)換，表達(dá)式如下：y=(xMinValue)/(MaxValueMinValue)對數(shù)函數(shù)轉(zhuǎn)換，表達(dá)式如下：y=log10 (x)反余切函數(shù)轉(zhuǎn)換，表達(dá)式如下：y=arctan(x)*2/PI減去均值，乘以方差：y=(xmeans)/ variance標(biāo)準(zhǔn)化與歸一化的區(qū)別簡單來說，標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù)，其通過求zscore的方法，將樣本的特征值轉(zhuǎn)換到同一量綱下。歸一化是依照特征矩陣的行處理數(shù)據(jù)，其目的在于樣本向量在點乘運算或其他核函數(shù)計算相似性時，擁有統(tǒng)一的標(biāo)準(zhǔn)，也就是說都轉(zhuǎn)化為“單位向量”。規(guī)則為l2的歸一化公式如下：1特征向量的缺失值處理1. ，否則可能反倒會帶入較大的noise，對結(jié)果造成不良影響。2. 缺失值較少,其余的特征缺失值都在10%以內(nèi)，我們可以采取很多的方

點擊復(fù)制文檔內(nèi)容

黨政相關(guān)相關(guān)推薦

dba面試題目綜合整理-資料下載頁

【總結(jié)】求同一個號碼的兩次通話之間間隔大于10秒的通話記錄ID一組通話記錄（總共500萬條）:ID主叫號碼被叫號碼通話起始時間??通話結(jié)束時間??????????通話時長1?9829000002154665466562007-02-0109:49

2025-06-07 13:29

教師面試題目大全-資料下載頁

【總結(jié)】第一篇：教師面試題目大全一、問題：當(dāng)在你上課時，一個學(xué)生在傳紙條，你怎么辦？答案： 1、用眼神暗示他，引起他的注意，讓他聚精會神的聽課。 2、邊講課邊走到他的課桌邊，用手敲打他的書桌，提示...

2025-10-06 10:59

面試題目3-資料下載頁

【總結(jié)】第一篇：面試題目3 15、你認(rèn)為你自己有哪些優(yōu)點（考生是醫(yī)務(wù)工作者）? 15、你認(rèn)為你自己有哪些優(yōu)點（考生是醫(yī)務(wù)工作者）？答：我從不認(rèn)為自己有特別突出的優(yōu)點，我認(rèn)為自己工作多年最重要的收獲是學(xué)...

2025-10-31 23:40

銀行招聘面試題目-資料下載頁

【總結(jié)】第一篇：銀行招聘面試題目招商銀行招聘面試題目(上) 【導(dǎo)讀】 1、請介紹一下你自己：從簡歷到簽約——校招求職全攻略求職準(zhǔn)備簡歷網(wǎng)申筆試面試一般人回答這個問題過于平常，只說姓名、年齡、愛好等，這...

2025-11-07 23:28

公務(wù)員面試題目-資料下載頁

【總結(jié)】112月6日河北省事業(yè)單位面試題1、你工作后近期目標(biāo)和遠(yuǎn)期目標(biāo)是什么？2、領(lǐng)導(dǎo)調(diào)上級單位工作，在歡送會上你如何發(fā)言？3、質(zhì)量萬里行來你省檢查，你如何組織迎接檢查？4、你對三.鹿奶粉事件的看法？5、末位淘汰制的看法？12月7日江西省萍鄉(xiāng)市公選領(lǐng)導(dǎo)干部（科級）面試題1、談?wù)勀闵罨蚬ぷ髦凶畛晒Φ膭?chuàng)新事情并講述具體

2025-07-26 16:59

校長面試題目及答案-資料下載頁

【總結(jié)】面試題目及答案一問：你安排教師工作應(yīng)遵循哪些原則？1、學(xué)校整體工作安排原則。2、知人善任用其所長原則。3、用人不疑原則。4、指導(dǎo)性原則。5、激勵表揚原則。2問：校長如何創(chuàng)造條件促進教師實現(xiàn)發(fā)展？1、為教師提供健康、向上的工作環(huán)境。如建設(shè)學(xué)習(xí)型組織、規(guī)范學(xué)校健康的人際關(guān)系、輿-論氛圍，形成具有特色的校園文化。2、為教師搭設(shè)一個自我發(fā)展的空間。充分挖掘教師自身

2025-06-20 07:57

mba面試題目集錦[001]-資料下載頁

【總結(jié)】MBA面試題目集錦(一)?集錦一????1．請談?wù)勀阕约骸???2．你為什么要讀MBA？???3．你為什么想要報考這所學(xué)校？???4．你認(rèn)為我們是否能夠錄取你？???5．你的事業(yè)目

2025-03-24 05:00

人行面試題目匯總-資料下載頁

【總結(jié)】第一篇：人行面試題目匯總廣州分行統(tǒng)計：面試時間是5分鐘，不能超時！面試題目三個： 1、自我介紹，以及為何報考人行？ 2、假如你看見一個同事在一件秘密的事，不想讓你知道，你該怎么辦？ 3、...

2025-09-29 21:23

面試題目及答案-資料下載頁

【總結(jié)】第一篇：面試題目及答案面試是通過面談的形式來考察一個人的工作能力與否，物以類聚，通過面試可以初步判斷應(yīng)聘者是否可以融入自己的團隊。以下是小編收集的面試題目及答案，歡迎查看！問題1：你為什么想離...

2025-10-31 12:29

即興演講面試題目-資料下載頁

【總結(jié)】第一篇：即興演講面試題目吉林農(nóng)業(yè)科技學(xué)院廣播站漢語播音第一輪面試即興演講材料 1、請根據(jù)“沒有比人更高的山”這句話，自定主題，即興演講。 2、請圍繞“青春”這一主題，即興演講。 3、請以...

2025-10-19 22:58

面試題目案例分析-資料下載頁

【總結(jié)】第一篇：面試題目案例分析面試題目案例分析【背景鏈接】近期數(shù)所高校相繼發(fā)生宿舍命案，大學(xué)生宿舍關(guān)系再度引發(fā)關(guān)注。一項針對廣州大學(xué)的1500份學(xué)生抽樣調(diào)查顯示，超過一半的學(xué)生對宿舍內(nèi)部人際關(guān)系...

2025-09-28 00:53

面試題目1-資料下載頁

【總結(jié)】第一篇：面試題目1 一、民工小李想查看政府網(wǎng)站的關(guān)于拆遷的文件，卻發(fā)現(xiàn)兩年沒有更新，要找的東西找不到，你怎么看？（華圖資深研究員馬春霞）【考察要點】綜合分析能力【題型分析】這是一道綜合分析類...

2025-10-06 13:32

興業(yè)銀行面試題目-資料下載頁

【總結(jié)】第一篇：興業(yè)銀行面試題目在興業(yè)銀行面試時，主試人常常會問到一些常見的題目，如果能夠事先了解這些題目，并且懂得如何回答這些面試題目，那么就可以使自己及時有效地回答，這是非常有益于面試成功的。雖然不同...

2025-10-20 00:49

特崗面試題目-資料下載頁

【總結(jié)】第一篇：特崗面試題目教師面試答辯題目精選 a教師的職責(zé)是教書育人，作為教師要有甘為人梯，甘做蠟燭的精神，要關(guān)心愛護學(xué)生的健康成長。 b教師是眾多職業(yè)中的一種，而教師這一職責(zé)比較受社會尊重，...

2025-10-20 06:31

公務(wù)員面試題目-資料下載頁

【總結(jié)】最全最優(yōu)的考試視頻輔導(dǎo)資料就在QQ:244056441 國家公務(wù)員面試個別單位有英語試題，為了方便同學(xué)們，孫景民以及助手特整理一組英語試題，供考生參考。1.????【Q】Wehavereceivedyourletterandresume,andwethoughtwewouldliketoaskyoutoe

2025-03-24 07:46