freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

yhon數(shù)據(jù)分析過(guò)程示例(編輯修改稿)

2024-07-23 02:09 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 的庫(kù),你可能需要: os 用于操作系統(tǒng)和文件操作 networkx和 igraph基于數(shù)據(jù)操作繪制圖形 regular expressions 用于在文本數(shù)據(jù)中查找模式 BeautifulSoup將探索Web。它不如Scrapy,它一次運(yùn)行將從一個(gè)單一的網(wǎng)頁(yè)中提取信息。 現(xiàn)在我們已經(jīng)熟悉Python的基礎(chǔ)和更多的庫(kù),讓我們深入到通過(guò)Python解決問(wèn)題。是的,我的意思是做一個(gè)預(yù)測(cè)模型!在這個(gè)過(guò)程中,我們使用了一些強(qiáng)大的庫(kù),也遇到了下一級(jí)的數(shù)據(jù)結(jié)構(gòu)。我們將帶你通過(guò)這3個(gè)關(guān)鍵階段:1. 數(shù)據(jù)探索—從我們所擁有的數(shù)據(jù)中發(fā)現(xiàn)更多2. 數(shù)據(jù)修改—清理數(shù)據(jù)和并修改它使它更適合用來(lái)統(tǒng)計(jì)建模3. 預(yù)測(cè)建?!\(yùn)行的實(shí)際算法,自得其樂(lè) 為了進(jìn)一步探索我們的數(shù)據(jù),讓我把你介紹給另一種動(dòng)物(好像Python是不夠的?。┄C– Pandas Pandas是Python最有用的一種數(shù)據(jù)分析庫(kù)的我知道這些名字聽起來(lái)很奇怪,但堅(jiān)持下去!)它們對(duì)于增加一直在增加Python在數(shù)據(jù)科學(xué)界的使用量起了很大的作用。我們現(xiàn)在將使用Pandas從Analytics Vidhya的競(jìng)賽中讀數(shù)據(jù)集,進(jìn)行探索性分析,建立我們的第一個(gè)基本分類算法來(lái)解決這一問(wèn)題。 在加載數(shù)據(jù)之前,讓我們了解Pandas 中的2個(gè)關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)——序列和數(shù)據(jù)框序列和數(shù)據(jù)框的簡(jiǎn)介 序列可以被理解為一個(gè)1維標(biāo)記/索引數(shù)組。你可以通過(guò)這些標(biāo)簽訪問(wèn)這個(gè)序列的各個(gè)元素。 一個(gè)數(shù)據(jù)框類似于Excel工作簿–你可以使用列名來(lái)引用列,可以通過(guò)行號(hào)來(lái)訪問(wèn)行數(shù)據(jù),本質(zhì)的區(qū)別是,在數(shù)據(jù)幀中,列名和行號(hào)是列和行的索引。 More: 10 Minutes to Pandas實(shí)踐數(shù)據(jù)集——貸款預(yù)測(cè)問(wèn)題 您可以從這里下載數(shù)據(jù)集。這里是變量的描述:讓我們從數(shù)據(jù)探索開始 開始,通過(guò)在你的你的終端/ Windows命令提示符鍵入下面的代碼,來(lái)以Inline Pylab模式啟動(dòng)IPython界面: 這在PyLab環(huán)境下打開IPython notebook,其中有幾個(gè)有用的庫(kù)已經(jīng)導(dǎo)入。此外,你將能夠繪制您的數(shù)據(jù)內(nèi)聯(lián),這對(duì)于互動(dòng)的數(shù)據(jù)分析是一個(gè)非常好的環(huán)境。你可以通過(guò)鍵入以下命令,檢查環(huán)境是否正確的加載了(并獲得如下圖所示的輸出):plot(arange(5))我目前在Linux上工作,并已將數(shù)據(jù)集存儲(chǔ)在以下位置:/home/kunal/Downloads/Loan_Prediction/導(dǎo)入庫(kù)和數(shù)據(jù)集:下面是我們將在本教程中使用的庫(kù): numpy matplotlib pandas 請(qǐng)注意,你不需要導(dǎo)入matplotlib和NumPy,因?yàn)槭窃赑yLab環(huán)境下。但我仍然在代碼中保留了它們,以防你在不同的環(huán)境中使用代碼。 導(dǎo)入庫(kù)以后,你可以使用read_csv()函數(shù)讀數(shù)據(jù)集。這是直到這個(gè)階段的代碼:快速數(shù)據(jù)探索 一旦你讀取了數(shù)據(jù),可以通過(guò)使用head()函數(shù)查看一下前幾行的數(shù)據(jù): 這應(yīng)該打印10行?;蛘?,您也可以通過(guò)打印數(shù)據(jù)集來(lái)查看更多的行。 接下來(lái),你可以使用describe()函數(shù)來(lái)查看數(shù)值字段的概要: describe()功能將提供計(jì)數(shù)、平均、標(biāo)準(zhǔn)差(STD),最小值,分位數(shù)值和最大值(讀這篇文章來(lái)更新基本統(tǒng)計(jì)數(shù)據(jù)了解人口分布) 這里有幾個(gè)結(jié)論,你可以通過(guò)查看describe()函數(shù)的輸出得出:1. LoanAmount有 (614 – 592)22個(gè)缺失值2. Loan_Amount_Term 有(614 – 600) 14個(gè)缺失值3. Credit_History有 (614 – 564)50個(gè)缺失值4. 我們還可以看到84%的申請(qǐng)者有credit_history,怎么樣, (記住,credit_history將那些有信用歷史的值設(shè)置為1,沒(méi)有的設(shè)置為0)5. ApplicantIne 的分布似乎和expectation呈線性關(guān)系,CoapplicantIne也是。 請(qǐng)注意,我們通過(guò)比較的平均值和中位數(shù),即50%位數(shù),來(lái)得到偏差的概念。 對(duì)于非數(shù)值(例如property_area,credit_history等),我們可以看看頻率分布,了解他們是否有意義。頻率表可以通過(guò)以下命令打印: 同樣地,我們可以看看信用卡歷史的唯一值。注意,dfname [ column_name ]是一個(gè)基本的索引技術(shù),來(lái)訪問(wèn)一個(gè)數(shù)據(jù)框的特定的列。它也可以是列的列表。想要了解更多信息,參考上面的“Pandas 10分鐘教程”的資源共享。分布分析 現(xiàn)在我們熟悉了基本的數(shù)據(jù)特征,讓我們研究不同變量的分布情況。讓我們從數(shù)字變量開始–即applicantine和LoanAmount 我們通過(guò)繪制applicantine的直方圖開始,使用下面的命令: 在這里,我們觀察到,有幾個(gè)極端值。這也是分箱值為50的原因,就是為了清楚地描述它的分布。 下一步,我們看箱線圖,了解分布。fare 的箱圖可以使用下面代碼繪制: 這證實(shí)了大量的離群值/極值的存在。這可以歸因于社會(huì)上的收入差距。部分原因源于這樣一個(gè)事實(shí):我們正在查看不同的教育水平的人。讓我們根據(jù)他們所受的教育進(jìn)行分組: 我們可以看到,研究生和非畢業(yè)生的平均收入之間沒(méi)有實(shí)質(zhì)性的區(qū)別。但是畢業(yè)生中高收入的人群更多,它們出現(xiàn)在異常值的點(diǎn)中。 現(xiàn)在,讓我們使用下面的命令看看LoanAmount的直方圖和箱線圖: 再次,有一些異常的值。顯然,applicant
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1