freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

yhon數(shù)據(jù)分析過程示例(編輯修改稿)

2024-07-23 02:09 本頁面
 

【文章內(nèi)容簡介】 的庫,你可能需要: os 用于操作系統(tǒng)和文件操作 networkx和 igraph基于數(shù)據(jù)操作繪制圖形 regular expressions 用于在文本數(shù)據(jù)中查找模式 BeautifulSoup將探索Web。它不如Scrapy,它一次運(yùn)行將從一個(gè)單一的網(wǎng)頁中提取信息。 現(xiàn)在我們已經(jīng)熟悉Python的基礎(chǔ)和更多的庫,讓我們深入到通過Python解決問題。是的,我的意思是做一個(gè)預(yù)測模型!在這個(gè)過程中,我們使用了一些強(qiáng)大的庫,也遇到了下一級的數(shù)據(jù)結(jié)構(gòu)。我們將帶你通過這3個(gè)關(guān)鍵階段:1. 數(shù)據(jù)探索—從我們所擁有的數(shù)據(jù)中發(fā)現(xiàn)更多2. 數(shù)據(jù)修改—清理數(shù)據(jù)和并修改它使它更適合用來統(tǒng)計(jì)建模3. 預(yù)測建?!\(yùn)行的實(shí)際算法,自得其樂 為了進(jìn)一步探索我們的數(shù)據(jù),讓我把你介紹給另一種動(dòng)物(好像Python是不夠的?。┄C– Pandas Pandas是Python最有用的一種數(shù)據(jù)分析庫的我知道這些名字聽起來很奇怪,但堅(jiān)持下去?。┧鼈儗τ谠黾右恢痹谠黾覲ython在數(shù)據(jù)科學(xué)界的使用量起了很大的作用。我們現(xiàn)在將使用Pandas從Analytics Vidhya的競賽中讀數(shù)據(jù)集,進(jìn)行探索性分析,建立我們的第一個(gè)基本分類算法來解決這一問題。 在加載數(shù)據(jù)之前,讓我們了解Pandas 中的2個(gè)關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)——序列和數(shù)據(jù)框序列和數(shù)據(jù)框的簡介 序列可以被理解為一個(gè)1維標(biāo)記/索引數(shù)組。你可以通過這些標(biāo)簽訪問這個(gè)序列的各個(gè)元素。 一個(gè)數(shù)據(jù)框類似于Excel工作簿–你可以使用列名來引用列,可以通過行號(hào)來訪問行數(shù)據(jù),本質(zhì)的區(qū)別是,在數(shù)據(jù)幀中,列名和行號(hào)是列和行的索引。 More: 10 Minutes to Pandas實(shí)踐數(shù)據(jù)集——貸款預(yù)測問題 您可以從這里下載數(shù)據(jù)集。這里是變量的描述:讓我們從數(shù)據(jù)探索開始 開始,通過在你的你的終端/ Windows命令提示符鍵入下面的代碼,來以Inline Pylab模式啟動(dòng)IPython界面: 這在PyLab環(huán)境下打開IPython notebook,其中有幾個(gè)有用的庫已經(jīng)導(dǎo)入。此外,你將能夠繪制您的數(shù)據(jù)內(nèi)聯(lián),這對于互動(dòng)的數(shù)據(jù)分析是一個(gè)非常好的環(huán)境。你可以通過鍵入以下命令,檢查環(huán)境是否正確的加載了(并獲得如下圖所示的輸出):plot(arange(5))我目前在Linux上工作,并已將數(shù)據(jù)集存儲(chǔ)在以下位置:/home/kunal/Downloads/Loan_Prediction/導(dǎo)入庫和數(shù)據(jù)集:下面是我們將在本教程中使用的庫: numpy matplotlib pandas 請注意,你不需要導(dǎo)入matplotlib和NumPy,因?yàn)槭窃赑yLab環(huán)境下。但我仍然在代碼中保留了它們,以防你在不同的環(huán)境中使用代碼。 導(dǎo)入庫以后,你可以使用read_csv()函數(shù)讀數(shù)據(jù)集。這是直到這個(gè)階段的代碼:快速數(shù)據(jù)探索 一旦你讀取了數(shù)據(jù),可以通過使用head()函數(shù)查看一下前幾行的數(shù)據(jù): 這應(yīng)該打印10行?;蛘?,您也可以通過打印數(shù)據(jù)集來查看更多的行。 接下來,你可以使用describe()函數(shù)來查看數(shù)值字段的概要: describe()功能將提供計(jì)數(shù)、平均、標(biāo)準(zhǔn)差(STD),最小值,分位數(shù)值和最大值(讀這篇文章來更新基本統(tǒng)計(jì)數(shù)據(jù)了解人口分布) 這里有幾個(gè)結(jié)論,你可以通過查看describe()函數(shù)的輸出得出:1. LoanAmount有 (614 – 592)22個(gè)缺失值2. Loan_Amount_Term 有(614 – 600) 14個(gè)缺失值3. Credit_History有 (614 – 564)50個(gè)缺失值4. 我們還可以看到84%的申請者有credit_history,怎么樣, (記住,credit_history將那些有信用歷史的值設(shè)置為1,沒有的設(shè)置為0)5. ApplicantIne 的分布似乎和expectation呈線性關(guān)系,CoapplicantIne也是。 請注意,我們通過比較的平均值和中位數(shù),即50%位數(shù),來得到偏差的概念。 對于非數(shù)值(例如property_area,credit_history等),我們可以看看頻率分布,了解他們是否有意義。頻率表可以通過以下命令打印: 同樣地,我們可以看看信用卡歷史的唯一值。注意,dfname [ column_name ]是一個(gè)基本的索引技術(shù),來訪問一個(gè)數(shù)據(jù)框的特定的列。它也可以是列的列表。想要了解更多信息,參考上面的“Pandas 10分鐘教程”的資源共享。分布分析 現(xiàn)在我們熟悉了基本的數(shù)據(jù)特征,讓我們研究不同變量的分布情況。讓我們從數(shù)字變量開始–即applicantine和LoanAmount 我們通過繪制applicantine的直方圖開始,使用下面的命令: 在這里,我們觀察到,有幾個(gè)極端值。這也是分箱值為50的原因,就是為了清楚地描述它的分布。 下一步,我們看箱線圖,了解分布。fare 的箱圖可以使用下面代碼繪制: 這證實(shí)了大量的離群值/極值的存在。這可以歸因于社會(huì)上的收入差距。部分原因源于這樣一個(gè)事實(shí):我們正在查看不同的教育水平的人。讓我們根據(jù)他們所受的教育進(jìn)行分組: 我們可以看到,研究生和非畢業(yè)生的平均收入之間沒有實(shí)質(zhì)性的區(qū)別。但是畢業(yè)生中高收入的人群更多,它們出現(xiàn)在異常值的點(diǎn)中。 現(xiàn)在,讓我們使用下面的命令看看LoanAmount的直方圖和箱線圖: 再次,有一些異常的值。顯然,applicant
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1