freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)面試題目-資料下載頁

2025-03-25 04:09本頁面
  

【正文】 集的維度以減少模型計算時間,但你的機(jī)器內(nèi)存有限。你會怎么做?(你可以自由做各種實(shí)際操作假設(shè)。)  答:你的面試官應(yīng)該非常了解很難在有限的內(nèi)存上處理高維的數(shù)據(jù)。以下是你可以使用的處理方法:  ,首先要關(guān)閉機(jī)器上正在運(yùn)行的其他程序,包括網(wǎng)頁瀏覽器等,以確保大部分內(nèi)存可以使用。  。這意味著,我們可以創(chuàng)建一個較小的數(shù)據(jù)集,比如有1000個變量和30萬行,然后做計算?! 。覀兛梢园褦?shù)值變量和分類變量分開,同時刪掉相關(guān)聯(lián)的變量。對于數(shù)值變量,我們將使用相關(guān)性分析;對于分類變量,我們可以用卡方檢驗(yàn)。  ,我們還可以使用PCA(主成分分析),并挑選可以解釋在數(shù)據(jù)集中有最大偏差的成分?! 。鏥owpalWabbit(在Python中可用)是一個不錯的選擇?! ?GradientDescent(隨機(jī)梯度下降法)建立線性模型也很有幫助?!  5?,這是一個主觀的方法,如果沒有找出有用的預(yù)測變量可能會導(dǎo)致信息的顯著丟失。 問4:全球平均溫度的上升導(dǎo)致世界各地的海盜數(shù)量減少。這是否意味著海盜的數(shù)量減少引起氣候變化? 答:不能夠這樣說。這是一個“因果關(guān)系和相關(guān)性”的經(jīng)典案例。全球平均溫度和海盜數(shù)量之間有可能有相關(guān)性,但基于這些信息,我們不能說因?yàn)槿蚱骄鶜鉁氐纳仙鴮?dǎo)致了海盜的消失。我們不能斷定海盜的數(shù)量減少是引起氣候變化的原因,因?yàn)榭赡苡衅渌蛩兀摲蚧祀s因素)影響了這一現(xiàn)象?! ?:給你一個數(shù)據(jù)集,這個數(shù)據(jù)集有缺失值,且這些缺失值分布在離中值有1個標(biāo)準(zhǔn)偏差的范圍內(nèi)。百分之多少的數(shù)據(jù)不會受到影響?為什么?  答:約有32%的數(shù)據(jù)將不受缺失值的影響。因?yàn)?,由于?shù)據(jù)分布在中位數(shù)附近,讓我們先假設(shè)這是一個正態(tài)分布。我們知道,在一個正態(tài)分布中,約有68%的數(shù)據(jù)位于跟平均數(shù)(或眾數(shù)、中位數(shù))1個標(biāo)準(zhǔn)差范圍內(nèi),那么剩下的約32%的數(shù)據(jù)是不受影響的。因此,約有32%的數(shù)據(jù)將不受缺失值的影響。 問6:你意識到你的模型受到低偏差和高方差問題的困擾。那么,應(yīng)該使用哪種算法來解決問題呢?為什么? 答:可以使用bagging算法(如隨機(jī)森林)。因?yàn)?,低偏差意味著模型的預(yù)測值接近實(shí)際值,換句話說,該模型有足夠的靈活性,以模仿訓(xùn)練數(shù)據(jù)的分布。這樣貌似很好,但是別忘了,一個靈活的模型沒有泛化能力,意味著當(dāng)這個模型用在對一個未曾見過的數(shù)據(jù)集進(jìn)行測試的時候,它會令人很失望。在這種情況下,我們可以使用bagging算法(如隨機(jī)森林),以解決高方差問題。bagging算法把數(shù)據(jù)集分成重復(fù)隨機(jī)取樣形成的子集。然后,這些樣本利用單個學(xué)習(xí)算法生成一組模型。接著,利用投票(分類)或平均(回歸)把模型預(yù)測結(jié)合在一起。另外,為了應(yīng)對大方差,我們可以:  ,懲罰更高的模型系數(shù),從而降低了模型的復(fù)雜性?!  ?梢杂糜诋?dāng)一個算法在數(shù)據(jù)集中的所有變量里很難尋找到有意義信號的時候。   問7:協(xié)方差和相關(guān)性有什么區(qū)別?  答:相關(guān)性是協(xié)方差的標(biāo)準(zhǔn)化格式。協(xié)方差本身很難做比較。例如:如果我們計算工資($)和年齡(歲)的協(xié)方差,因?yàn)檫@兩個變量有不同的度量,所以我們會得到不能做比較的不同的協(xié)方差。為了解決這個問題,我們計算相關(guān)性來得到一個介于1和1之間的值,就可以忽略它們各自不同的度量?! ?:真陽性率和召回有什么關(guān)系?寫出方程式?! 〈穑赫骊栃月?召回。它們有相同的公式(TP / TP + FN)?! ?:Gradient boosting算法(GBM)和隨機(jī)森林都是基于樹的算法,它們有什么區(qū)別?  答:最根本的區(qū)別是,隨機(jī)森林算法使用bagging技術(shù)做出預(yù)測;而GBM是采用boosting技術(shù)做預(yù)測的。在bagging技術(shù)中,數(shù)據(jù)集用隨機(jī)采樣的方法被劃分成n個樣本。然后,使用單一的學(xué)習(xí)算法,在所有樣本上建模。接著利用投票或者求平均來組合所得到的預(yù)測。bagging是平行進(jìn)行的,而boosting是在第一輪的預(yù)測之后,算法將分類出錯的預(yù)測加高權(quán)重,使得它們可以在后續(xù)一輪中得到校正。這種給予分類出錯的預(yù)測高權(quán)重的順序過程持續(xù)進(jìn)行,一直到達(dá)到停止標(biāo)準(zhǔn)為止。隨機(jī)森林通過減少方差(主要方式)提高模型的精度。生成樹之間是不相關(guān)的,以把方差的減少最大化。在另一方面,GBM提高了精度,同時減少了模型的偏差和方差。 問10:你認(rèn)為把分類變量當(dāng)成連續(xù)型變量會更得到一個更好的預(yù)測模型嗎?  答:為了得到更好的預(yù)測,只有在分類變量在本質(zhì)上是有序的情況下才可以被當(dāng)做連續(xù)型變量來處理。 問11:“買了這個的客戶,也買了......”亞馬遜的建議是哪種算法的結(jié)果?  答:這種推薦引擎的基本想法來自于協(xié)同過濾。協(xié)同過濾算法考慮用于推薦項(xiàng)目的“用戶行為”。它們利用的是其他用戶的購買行為和針對商品的交易歷史記錄、評分、選擇和購買信息。針對商品的其他用戶的行為和偏好用來推薦項(xiàng)目(商品)給新用戶。在這種情況下,項(xiàng)目(商品)的特征是未知的。  問12:在kmeans或kNN,我們是用歐氏距離來計算最近的鄰居之間的距離。為什么不用曼哈頓距離?  答:我們不用曼哈頓距離,因?yàn)樗挥嬎闼交虼怪本嚯x,有維度的限制。另一方面,歐氏距離可用于任何空間的距離計算問題。因?yàn)?,?shù)據(jù)點(diǎn)可以存在于任何空間,歐氏距離是更可行的選擇。例如:想象一下國際象棋棋盤,象或車所做的移動是由曼哈頓距離計算的,因?yàn)樗鼈兪窃诟髯缘乃胶痛怪狈较蜃龅倪\(yùn)動?! ?3:我知道校正R2或者F值是用來評估線性回歸模型的。那用什么來評估邏輯回歸模型?  答:我們可以使用下面的方法:  ,我們可以用AUCROC曲線以及混淆矩陣來確定其性能。  ,在邏輯回歸中類似于校正R2的指標(biāo)是AIC。AIC是對模型系數(shù)數(shù)量懲罰模型的擬合度量。因此,我們更偏愛有最小AIC的模型?! ?。數(shù)值越低,模型越好。殘余偏差表示由添加自變量的模型預(yù)測的響應(yīng)。數(shù)值越低,模型越好?! ?4:為什么樸素貝葉斯如此“樸素”?  答:因?yàn)樗俣ㄋ械奶卣髟跀?shù)據(jù)集中的作用是同樣重要和獨(dú)立的。正如我們所知,這個假設(shè)在現(xiàn)實(shí)世界中是很不真實(shí)的,因此,說樸素貝葉斯真的很“樸素”。  問15:花了幾個小時后,現(xiàn)在你急于建一個高精度的模型。結(jié)果,你建了5 個GBM(Gradient Boosted Models),想著boosting算法會展現(xiàn)“魔力”。不幸的是,沒有一個模型比基準(zhǔn)模型表現(xiàn)得更好。最后,你決定將這些模型結(jié)合到一起。盡管眾所周知,結(jié)合模型通常精度高,但你就很不幸運(yùn)。你到底錯在哪里?  答:據(jù)我們所知,組合的學(xué)習(xí)模型是基于合并弱的學(xué)習(xí)模型來創(chuàng)造一個強(qiáng)大的學(xué)習(xí)模型的想法。但是,只有當(dāng)各模型之間沒有相關(guān)性的時候組合起來后才比較強(qiáng)大。由于我們已經(jīng)試了5個GBM也沒有提高精度,表明這些模型是相關(guān)的。具有相關(guān)性的模型的問題是,所有的模型提供相同的信息。例如:如果模型1把User1122歸類為1,模型2和模型3很有可能會做同樣的分類,即使它的實(shí)際值應(yīng)該是0,因此,只有弱相關(guān)的模型結(jié)合起來才會表現(xiàn)更
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1