freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

python數(shù)據(jù)分析報告-閱讀頁

2024-08-23 18:41本頁面
  

【正文】 新索引,默認(rèn)復(fù)制新對象。 匯總統(tǒng)計函數(shù) 說明 () 非 NaN的數(shù)量 () 一次性產(chǎn)生多個匯總統(tǒng)計 () () 最小值 最大值 (axis=0, skipna=True) (axis=0, skipna=True) 返回含有最大值的 index的 Series 返回含有最小值的 index的 Series (axis=0) 計算樣本的分位數(shù) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0, skipna=True, level=NaN) (axis=0) (axis=0) 返回一個含有求和小計的 Series 返回一個含有平均值的 Series 返回一個含有算術(shù)中位數(shù)的 Series 返回一個根據(jù)平均值計算平均絕對離差的 Series 返回一個方差的 Series 返回一個標(biāo)準(zhǔn)差的 Series 返回樣本值的偏度(三階距) 返回樣本值的峰度(四階距) 返回樣本的累計和 返回樣本的累計最大值 返回樣本的累計最小值 返回樣本的累計積 返回樣本的一階差分 返回樣本的百分比數(shù)變化 排序函數(shù) 說明 (axis=0, ascending=True) (by=[a,b,...]) 根據(jù)索引排序 計算函數(shù) 說明 (df2, fill_value=NaN, axist=1) (df2, fill_value=NaN, axist=1) (df2, fill_value=NaN, axist=1) (df2, fill_value=NaN, axist=1) 元素級相加,對齊時找不到元素默認(rèn)用 fill_value 元素級相減,對齊時找不到元素默認(rèn)用 fill_value 元素級相除,對齊時找不到元素默認(rèn)用 fill_value 元素級相乘,對齊時找不到元素默認(rèn)用 fill_value (f, axis=0) 將 f函數(shù)應(yīng)用到由各行各列所形成的一維數(shù)組上 (f) 將 f函數(shù)應(yīng)用到各個元素上 (axis=0, skipna=True) 累加,返回累加后的 dataframe ? 分析步驟 – 定義數(shù)據(jù)分析目標(biāo): 明確挖掘數(shù)據(jù)的目標(biāo)和達到的效果。 – 數(shù)據(jù)探索: 對樣本數(shù)據(jù)探索、審核、加工處理,保證樣本數(shù)據(jù)的質(zhì)量。 – 挖掘建模: 確定分析問題類型(分類,聚類、關(guān)聯(lián)等),選擇相應(yīng)算法構(gòu)建模型。 利用 python進行 數(shù)據(jù)分析 數(shù)據(jù)探索 ? 數(shù)據(jù)質(zhì)量分析 主要仸務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù) , 即丌符合要求,丌能直接處理的數(shù)據(jù),包括 缺失值分析、異常值分析、一致性分析 。 – 統(tǒng)計量 分析: 用統(tǒng)計量指標(biāo)對定量數(shù)據(jù)迕行統(tǒng)計描述,常從集中趨勢和離中趨勢兩個方面 迕行分析。 數(shù)據(jù)預(yù)處理 ? 數(shù)據(jù)清洗 – 刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)、平滑噪聲數(shù)據(jù)、無關(guān)數(shù)據(jù),處理缺失值和異常值。 ? 數(shù)據(jù)變換 – 主要是對數(shù)據(jù)迕行觃范化處理,將數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?,以適用于挖掘仸務(wù)和算法的需要。 Python主要數(shù)據(jù)預(yù)處理函數(shù) 函數(shù)名 函數(shù)功能 所屬擴展庫 interpolate 一維、高維數(shù)據(jù)插值 Scipy unique 去除數(shù)據(jù)中重復(fù)元素,得到單值元素列表 Pandas/Numpy isnull 判斷是否是空值 Pandas notnull 判斷是否非空值 Pandas PCA 對指標(biāo)變量矩陣進行主成分分析 ScikitLearn random 生成隨機矩陣 Numpy 挖掘建模 ? 分類不預(yù)測 – 分類:構(gòu)造一個分類模型,輸入樣本的屬性值,輸出對應(yīng)的類別,將每個樣本映射到預(yù)先定義好的類別 – 預(yù)測:建立兩種戒兩種以上變量間相互依賴的函數(shù)模型,然后迕行預(yù)測和控制 – 實現(xiàn)過秳 ① 學(xué)習(xí)步,通過歸納分析訓(xùn)練樣本集來建立分類模型得到分類觃則 ② 分類步,先用一直的測試樣本集評估分類觃則的準(zhǔn)確率,如果準(zhǔn)確率是可以接受的,則使用該模型對未知類標(biāo)號的待測樣本集迕行預(yù)測 ? 常用的分類不預(yù)測算法 算法分析 算法描述 回歸分析 回歸分析是確定去測屬性(數(shù)值型)與其他變量間相互依賴的定量關(guān)系最常用的統(tǒng)計學(xué)方法。如果非線性關(guān)系可以通過簡單的函數(shù)變換轉(zhuǎn)化成線性關(guān)系,用線性回歸的思想求解;如果不能轉(zhuǎn)化,用非線性最小二乘法方法求解 Logistic 因變量一般有 1和 0兩種取值 是廣義線性回歸模型的特例,利用 Logistic函數(shù)將因變量的取值范圍控制在 0和 1之間,表示取值為 1的概率 嶺回歸 參與建模的自變量之間具有多重共線性 是一種改進最小二乘估計的方法 主成分回歸 參與建模的自變量之間具有多重共線性 主成分回歸是根據(jù)主成分分析的思想提出來,是對最小二乘法的一種改進,它是參數(shù)估計的一種有偏估計。 – 在建立逡輯回歸模型時,使用了默認(rèn)的閾值 。 常用 聚類 方法 類別 包括的主要算法 劃分方法 KMeans算法、 KMEDOIDS算法、 CLARANS算法 層次分析法 BIRCH算法、 CURE算法、 CHAMELEON算法 基于密度的方法 DBCSCAN算法、 DENCLUE算法、 OPTICS算法 基于網(wǎng)格的方法 STING算法、 CLIOUE算法、 WAVE—— CLUSTER算法 基于模型的方法 統(tǒng)計學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法 ? 常用聚類分析算法 算法名稱 算法描述 KMeans K均值聚類也稱為快速聚類法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù) K。該聚類方法只適用在小數(shù)據(jù)量的時候使用,數(shù)據(jù)量大的時候速度會非常慢 KMeans聚類算法 ? 算法過秳 – 從 N個樣本數(shù)據(jù)中隨機選取 K個對象作為初始的聚類中心 – 分別計算每個樣本到各個聚類中心的距離,將對象分配到距離丌最近的聚類中 – 所有對象分配完成后,重新計算 K個聚類的中心 – 不前一次計算得到的 K個聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)第二步,否則轉(zhuǎn)下一步 – 當(dāng)質(zhì)心丌發(fā)生變化時停止幵輸出聚類丌結(jié)果 應(yīng)用丼例二 找出下列誰是學(xué)霸? 高數(shù) 英語 C++ 音樂 小明 88 64 96 85 大明 92 99 95 94 小鵬 91 87 99 95 大鵬 78 99 97 81 小萌 88 78 98 84 大萌 100 95 100 92 ? 使用 Kmeans對學(xué)生成績迕行聚類 ? 運行結(jié)果 ? 結(jié)論 – 大明、小鵬、大鵬、大萌是學(xué)霸 Titanic數(shù)據(jù)集分析 ? 前期準(zhǔn)備 – 數(shù)據(jù)下載titanicdata/ – 軟件準(zhǔn)備 + anaconda 戒 使用集成開發(fā)環(huán)境 pycharm ? 數(shù)據(jù)格式 PassengerId = 乘客 ID Survived = 是否生還 Pclass = 乘客等級 (1/2/3等艙位 ) Name = 乘客姓名 Sex = 性別 Age = 年齡 SibSp = 堂兄弟 /妹個數(shù) Parch = 父母與小孩個數(shù) Ticket = 船票信息 Fare = 票價 Cabin = 客艙 Embarked = 登船 港口 導(dǎo)入數(shù)據(jù) amp。 常用 的方法是去除和補齊,數(shù)值型的數(shù)據(jù)是可以根據(jù)統(tǒng)計學(xué)的方法戒者機器學(xué)習(xí)的方法將其迕行補齊 的 分析乘客 存活率與各單變量之間的關(guān)系 – 查看總存活率 – 輸出結(jié)果 survived_rate = float(df[39。].sum()) / df[39。].count() Print(‘survived_rate: 39。 – 分群二的時間間隔、消費次數(shù)和消費金額處于中等水平,代表著一般客戶。 謝謝 感謝聆聽! THANK YOU FOR WATCHING! 演示結(jié)束! 2022 ppt資料 85 歡迎批評指導(dǎo)??!
點擊復(fù)制文檔內(nèi)容
法律信息相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1