freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

yhon數(shù)據(jù)分析過程示例-資料下載頁

2025-06-26 02:09本頁面
  

【正文】 起來作為總收入可能是一個好主意,并采取相同的對數(shù)變換。 現(xiàn)在我們看到,分布比以前好多了。我會把Gender, Married, Dependents, Loan_Amount_Term, Credit_History等缺失值的估計留給你。此外,我鼓勵你考慮可能的額外的信息,可以來自數(shù)據(jù)。例如,創(chuàng)建一個LoanAmount/TotalIne列可能會有意義,因為它能給你一個關于申請人如何償還他的貸款的好想法。 下一步,我們將研究預測模型。5. 使用Python中建立預測模型 之后,我們已經使數(shù)據(jù)可以用于建模,現(xiàn)在讓我們來看看Python代碼,來在我們的數(shù)據(jù)集上創(chuàng)建一個預測模型。Skicitkearn(sklearn)是Python中最常用于此目的的庫,我們將跟隨這條小徑。我建議你通過這篇文章來復習進修sklearn。 因為,sklearn要求所有輸入都是數(shù)字,我們應該通過編碼類別將我們所有的分類變量轉換為數(shù)值型。這可以用下面的代碼來完成: 下一步,我們將導入所需的模塊。然后,我們將定義一個通用的分類函數(shù),它需要一個模型作為輸入,并確定準確性度和交叉驗證分數(shù)。由于這是一篇介紹性文章,我將不會進入編碼的細節(jié)。請參考這篇文章得到詳細的算法以及R和Python的代碼。此外,通過本文復習一下交叉驗證會更好,因為它是一個非常重要的性能測量方法。邏輯回歸 讓我們做我們的第一個邏輯回歸模型。一個方法就是把所有的變量都加入模型,這可能會導致過度擬合(如果你還不知道這個術語,不要擔心)。簡單的說,考慮所有的變量可能會導致模型的理解出比較復雜的關系,對于具體的數(shù)據(jù),不能很好的概括。閱讀更多關于邏輯回歸。 我們可以很容易地作出一些直觀的假設來設定啟動資金。獲得貸款的機會將更高:1. 有信用記錄的申請人(記得我們在探索時觀察到的?)2. 申請人或著共同申請人具有較高收入的申請3. 申請人具有較高的教育水平屬性4. 在具有高增長前景的城市地區(qū) 讓我們使用credit_history建立我們的第一個模型。 準確度:% 交叉驗證得分:% 準確度:% 交叉驗證得分:% 一般來說,我們期望通過增加變量來提高準確度。但這是一個更具挑戰(zhàn)性的案例。準確度和交叉驗證得分不受那些影響較小變量的影響。credit_history主導模式。我們現(xiàn)在有兩個選擇:1. 工程特征:導出新信息并試圖預測。我將把這留給你的創(chuàng)造力。2. 更好的建模技術。讓我們探索這個下一個。決策樹 決策樹是建立預測模型的另一種方法。它能比邏輯回歸模型提供更高的準確度。 準確度:% 交叉驗證得分:% 在這里,基于分類變量的模型是不能產生影響的,因為相比它們信用歷史是占主導地位的。讓我們嘗試一些數(shù)值變量: 準確度:% 交叉驗證得分:% 在這里,我們觀察到,雖然增加變量時提高了準確度,交叉驗證錯誤下降。但這是模型對數(shù)據(jù)過擬合的結果。讓我們嘗試一個更復雜的算法,看看它是否有幫助:隨機森林 隨機森林是解決分類問題的另一種算法。閱讀更多關于隨機森林。 隨機森林的一個優(yōu)點是,我們可以使它與所有的功能,它返回一個功能的重要性矩陣,它可以用來選擇功能。 準確度:%交叉驗證得分:100% 在這里,我們看到的準確性是100%的訓練集。這是過度擬合的最終情況,可以以兩種方式解決:1. 減少預測的數(shù)量2. 調整模型參數(shù) 讓我們嘗試這兩個。首先,我們看到的特征重要度矩陣,從中我們將采取最重要的特點。讓我們使用前5個變量來創(chuàng)建一個模型。此外,我們將修改隨機森林模型的參數(shù)有一點: 讓我們使用前5個變量來創(chuàng)建一個模型。此外,我們將修改一點點隨機森林模型的參數(shù): 準確度:%交叉驗證得分:% 注意,雖然準確度降低,但交叉驗證得分提高表明該模型推廣良好。請記住,隨機森林模型是不完全可重復的。不同的運行會導致輕微的變化,因為隨機。但輸出應該呆在球場。 你會注意到,即使在隨機森林的一些基本參數(shù)調整后,我們已經達到了一個交叉驗證的準確性只有略優(yōu)于原來的邏輯回歸模型。這個練習給我們提供了一些非常有趣和獨特的學習:1. 使用一個更復雜的模型并不能保證更好的結果。2. 避免使用復雜的建模技術作為一個黑盒子,不了解底層的概念。這樣做會增加從而使你的模型過度擬合的趨勢不可解釋的3. 特征工程是成功的關鍵。每個人都可以用一個xgboost模型但真正藝術和創(chuàng)造力在于增強你的特征,以更好地適應模型。 所以你準備好接受挑戰(zhàn)了嗎?用貸款預測問題開始你的數(shù)據(jù)科學之旅。結尾 當你開始將Python用于數(shù)據(jù)科學時,我希望本教程可以幫助你最大限度地提高你的效率。我相信這不僅給你一個基本的數(shù)據(jù)分析方法的想法,它也展示了你如何實現(xiàn)一些當下存在的更復雜的技術。 Python確實是一個偉大的工具,并正在成為數(shù)據(jù)科學家之間一個越來越流行的語言。原因是,它很容易學習,可以很好地集成其他數(shù)據(jù)庫和工具如:Spark和Hadoop。主要的,它有很大的計算強度,并且具有強大的數(shù)據(jù)分析庫。 所以,學習Python執(zhí)行任何全生命周期的數(shù)據(jù)科學項目。它包括閱讀,分析,可視化和最后的預測。 如果在實踐Python的時候,你遇到任何困難,或者你有什么想法/建議/反饋,請通過下面的評論請我提出 THANKS !!!致力為企業(yè)和個人提供合同協(xié)議,策劃案計劃書,學習課件等等打造全網一站式需求歡迎您的下載,資料僅供參考可修改編輯
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1