freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

yhon數(shù)據(jù)分析過程示例(文件)

2025-07-14 02:09 上一頁面

下一頁面
 

【正文】 mount似乎在兩端都含有極端值。 讓我們看看所有的變量中的缺失值,因?yàn)榇蠖鄶?shù)模型不能處理有缺失值的數(shù)據(jù),即使他們可以,輸入它們往往不能幫助更多。 雖然缺失值數(shù)量不是很多,但許多變量都有缺失值,它們中的每一個(gè)都應(yīng)該被估計(jì)和補(bǔ)充。例如,如果loan_amount_term是0,它是有意義的或者你認(rèn)為是缺失的?我想你的答案是缺失的,你是對的。 首先,讓我們看看箱線圖看是否有某種趨勢存在: 如我們先前所說,self_employed有缺失值。 現(xiàn)在,我們將創(chuàng)建一個(gè)數(shù)據(jù)透視表,它提供了我們所有Education和self_employed變量的唯一值分組的中位數(shù)。 讓我們先分析LoanAmount。 現(xiàn)在的分布看起來更接近標(biāo)準(zhǔn)的,極端值的影響已經(jīng)顯著消退。所以將兩者的收入結(jié)合起來作為總收入可能是一個(gè)好主意,并采取相同的對數(shù)變換。此外,我鼓勵(lì)你考慮可能的額外的信息,可以來自數(shù)據(jù)。5. 使用Python中建立預(yù)測模型然后,我們將定義一個(gè)通用的分類函數(shù),它需要一個(gè)模型作為輸入,并確定準(zhǔn)確性度和交叉驗(yàn)證分?jǐn)?shù)。邏輯回歸閱讀更多關(guān)于邏輯回歸。 讓我們使用credit_history建立我們的第一個(gè)模型。 準(zhǔn)確度:% 準(zhǔn)確度和交叉驗(yàn)證得分不受那些影響較小變量的影響。2. 更好的建模技術(shù)。它能比邏輯回歸模型提供更高的準(zhǔn)確度。 在這里,基于分類變量的模型是不能產(chǎn)生影響的,因?yàn)橄啾人鼈冃庞脷v史是占主導(dǎo)地位的。 在這里,我們觀察到,雖然增加變量時(shí)提高了準(zhǔn)確度,交叉驗(yàn)證錯(cuò)誤下降。閱讀更多關(guān)于隨機(jī)森林。 準(zhǔn)確度:%交叉驗(yàn)證得分:100%首先,我們看到的特征重要度矩陣,從中我們將采取最重要的特點(diǎn)。此外,我們將修改一點(diǎn)點(diǎn)隨機(jī)森林模型的參數(shù):不同的運(yùn)行會導(dǎo)致輕微的變化,因?yàn)殡S機(jī)。這個(gè)練習(xí)給我們提供了一些非常有趣和獨(dú)特的學(xué)習(xí):1. 使用一個(gè)更復(fù)雜的模型并不能保證更好的結(jié)果。我相信這不僅給你一個(gè)基本的數(shù)據(jù)分析方法的想法,它也展示了你如何實(shí)現(xiàn)一些當(dāng)下存在的更復(fù)雜的技術(shù)。主要的,它有很大的計(jì)算強(qiáng)度,并且具有強(qiáng)大的數(shù)據(jù)分析庫。 所以,學(xué)習(xí)Python執(zhí)行任何全生命周期的數(shù)據(jù)科學(xué)項(xiàng)目。 Python確實(shí)是一個(gè)偉大的工具,并正在成為數(shù)據(jù)科學(xué)家之間一個(gè)越來越流行的語言。結(jié)尾這樣做會增加從而使你的模型過度擬合的趨勢不可解釋的3. 特征工程是成功的關(guān)鍵。 注意,雖然準(zhǔn)確度降低,但交叉驗(yàn)證得分提高表明該模型推廣良好。此外,我們將修改隨機(jī)森林模型的參數(shù)有一點(diǎn):這是過度擬合的最終情況,可以以兩種方式解決:1. 減少預(yù)測的數(shù)量2. 調(diào)整模型參數(shù) 隨機(jī)森林的一個(gè)優(yōu)點(diǎn)是,我們可以使它與所有的功能,它返回一個(gè)功能的重要性矩陣,它可以用來選擇功能。讓我們嘗試一個(gè)更復(fù)雜的算法,看看它是否有幫助:隨機(jī)森林 準(zhǔn)確度:% 準(zhǔn)確度:% 決策樹我們現(xiàn)在有兩個(gè)選擇:1. 工程特征:導(dǎo)出新信息并試圖預(yù)測。 一般來說,我們期望通過增加變量來提高準(zhǔn)確度。 準(zhǔn)確度:% 我們可以很容易地作出一些直觀的假設(shè)來設(shè)定啟動資金。一個(gè)方法就是把所有的變量都加入模型,這可能會導(dǎo)致過度擬合(如果你還不知道這個(gè)術(shù)語,不要擔(dān)心)。請參考這篇文章得到詳細(xì)的算法以及R和Python的代碼。這可以用下面的代碼來完成:Skicitkearn(sklearn)是Python中最常用于此目的的庫,我們將跟隨這條小徑。 現(xiàn)在我們看到,分布比以前好多了。 來看看applicantine。所以,不把它們當(dāng)做離群點(diǎn)對待,讓我們嘗試對數(shù)據(jù)轉(zhuǎn)換從而發(fā)揮它們的作用: 這應(yīng)該給你提供了一個(gè)估計(jì)貸款金額的缺失值好方法。 因?yàn)閪 86%的值是“No”,將缺失值估計(jì)為“No”是比較可靠的,有很高的成功概率。但首先,我們必須確保每個(gè)self_employed和Education變量 不應(yīng)該有缺失值。一個(gè)關(guān)鍵的假設(shè)是,一個(gè)人是否受教育的或是否自雇人士可以結(jié)合起來,提供一個(gè)很好的貸款金額的估計(jì)。如何填補(bǔ)LoanAmount的缺失值? 這個(gè)命令告訴我們每一列中缺失值的數(shù)量,因?yàn)槿绻禐槿笔е礽snull()返回1。它詳細(xì)介紹了一些有用的數(shù)據(jù)處理技術(shù)。這里是問題,我們已經(jīng)意識到的:1. 在一些變量中有缺失值。 接下來讓我們進(jìn)一步探討applicantine和loanstatus變量,進(jìn)行數(shù)據(jù)修改和創(chuàng)建一個(gè)數(shù)據(jù)集并應(yīng)用各種建模技術(shù)。 或著,這兩個(gè)圖可以進(jìn)行組合以后的可視化,使用堆疊圖表示:這可以使用matplotlib庫繪制成條形圖,使用下面的代碼: 注:這里的貸款狀況已被編碼,使用1代表yes,而0代表no,因此,所以均值代表了獲得貸款的概率。 現(xiàn)在我們了解了applicantine和loanine的分布,讓我們了解更多關(guān)于分類變量的細(xì)節(jié)。顯然,applicantine和LoanAmount都需要進(jìn)行一定的數(shù)據(jù)處理。但是畢業(yè)生中高收入的人群更多,它們出現(xiàn)在異常值的點(diǎn)中。這可以歸因于社會上的收入差距。讓我們從數(shù)字變量開始–即applicantine和LoanAmount它也可以是列的列表。 對于非數(shù)值(例如property_area,credit_history等),我們可以看看頻率分布,了解他們是否有意義。 這里有幾個(gè)結(jié)論,你可以通過查看describe()函數(shù)的輸出得出:1. LoanAmount有 (614 – 592)22個(gè)缺失值2. Loan_Amount_Term 有(614 – 600) 14個(gè)缺失值3. Credit_History有 (614 – 564)50個(gè)缺失值4
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1