freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘概念與技術(shù)chapter2-了解數(shù)據(jù)-展示頁

2025-03-31 07:50本頁面
  

【正文】 olumns attributes. 6 屬性 ? 屬性 Attribute (or維度 , 特征 , 變量 ):一個數(shù)據(jù)字段 , 表示一個數(shù)據(jù)對象的某個特征 . ? ., customer _ID, name, address ? 類型 : ? 名詞性 Nominal ? 二元的 ? 數(shù)字的 Numeric: 數(shù)量的 ? Intervalscaled ? Ratioscaled 7 屬性類型 ? 名詞性 Nominal:類別 ,狀態(tài) , or ―名目 ‖ ? Hair_color = {auburn, black, blond, brown, grey, red, white} ? 婚姻狀態(tài) , 職業(yè) occupation, ID numbers, zip codes ? 二元 ? 只有 2個狀態(tài)的名詞性屬性 (0 and 1) ? 對稱二元 Symmetric binary: 同樣重要的兩相 ? ., gender ? 非對稱 Asymmetric binary: 非同等重要 ? ., 醫(yī)療檢查 (positive vs. negative) ? 慣例 Convention: assign 1 to most important oute (., HIV positive) ? 順序的 Ordinal ? 值有一個有意義的順序 (排序 ) 但連續(xù)值之間的大小未知 . ? Size = {small, medium, large},等級 ,軍隊排名 8 數(shù)值屬性的類型 ? 數(shù)量 Quantity (integer or realvalued) ? 區(qū)間 Interval ? 在某個同等大小的一個尺度單位上 Measured on a scale of equalsized units ? 值有序 ? ., temperature in C?or F?, calendar dates ? 沒有真正的零點 ? Ratio ? 有真正的零點 ? 可以講值是被測量單位一個數(shù)量級 (10 K? is twice as high as 5 K?). ? .,溫度在開爾文 ,長度 ,計數(shù) ,貨幣的數(shù)量 9 離散 vs. 連續(xù)屬性 ? Discrete Attribute ? 一個有限的或可數(shù)無限集值 ? ., zip codes, the set of words in a collection of documents ? 有時 ,表示為整數(shù)變量 ? 注 : 二元屬性是離散屬性的一個特殊情況 ? Continuous Attribute ? 屬性值為實數(shù) ? ., temperature, height, or weight ? 實際上,實值只能使用有限位數(shù)進行測量和代表 ? 連續(xù)屬性通常表示為浮點變量 10 Chapter 2:數(shù)據(jù)的統(tǒng)計描述 ? Data Objects and Attribute Types ? 數(shù)據(jù)的 (基本 )統(tǒng)計描述 ? 數(shù)據(jù)可視化 ? 測量數(shù)據(jù)相似性和相異性 Measuring Data Similarity and Dissimilarity ? Summary 11 數(shù)據(jù)的 (基本 )統(tǒng)計描述 ? Motivation ?為了更好的理解數(shù)據(jù) :集中趨勢,變異和傳播 ? 數(shù)據(jù)離散特征 ?中位數(shù) , 最大 , 最小 , 粉位數(shù) , 離群點 , 方差 , 等 . ? 針對排序區(qū)間的數(shù)值維 ?數(shù)據(jù)離散度 : 多個粒度上的精確分析 ?排序區(qū)間的盒圖 /分位數(shù)圖分析 ? 某計算側(cè)度下的離散度分析 ?折疊為某數(shù)值維度下 ?轉(zhuǎn)化立方體上的盒圖 /分位數(shù)圖 12 分布度量 /代數(shù)度量 /整體度量 ? 從數(shù)據(jù)挖掘角度,需要考察如何在大型數(shù)據(jù)可中有效計算度量。 ? Sum, count ? 代數(shù)度量 algebraic measure ? 可用一個函數(shù)于一個或多個分布度量計算的度量 ? 整體度量 holistic measure ? 必須對整個數(shù)據(jù)集計算的度量 13 度量數(shù)據(jù)的中心趨勢 ? 均值 (代數(shù)度量 ) (樣本 vs. 總體 ): Note: n 樣本大小, N 總體大小 . ? 加權(quán)算術(shù)均值 : ? 截斷均值 : 去掉高低極端值 ? 中位數(shù) : ? 奇數(shù)則為有序集的中間值 , 否則為中間兩個數(shù)的平均 ? (基于分組數(shù)據(jù) )可以插值估計 ? 眾數(shù) Mode ? 出現(xiàn)頻率最高的值 (不惟一 /每個值出現(xiàn)一次則沒有 ) ? 1/2/3個眾數(shù) 〉 單峰的 , 雙峰的 , 三峰的 ? Empirical formula: ???niixnx11?????niiniiiwxwx11wi d thf r e q f r e qnLm e d i a nm e d i a ns m a l l ))(2/(1????)(3 m e di a nm e anm odem e an ????Nx???14 2022年 4月 12日星期二 Data Mining: Concepts and Techniques 14 對稱 /偏斜數(shù)據(jù) ? 中位數(shù) , 均值 , 眾數(shù):對稱 , 正傾斜和負傾斜數(shù)據(jù) positively skewed negatively skewed symmetric 15 度量數(shù)據(jù)的離散度 ? 四分位數(shù) Quartiles, 離群點 outliers ,盒圖 boxplots ? 四分位數(shù) : Q1 (25th 百分位數(shù) percentile), Q3 (75th percentile) ? 中間四分位數(shù)極差 Interquartile range: IQR = Q3 – Q1 ? 五數(shù)概括 : min, Q1, median, Q3, max ? 盒圖 : 盒兩端為四分位數(shù) 。 添加胡須 , 離群點獨立標(biāo)出 ? 離群點 : 通常是值高 /低于四分位數(shù) x IQR ? 方差 /標(biāo)準(zhǔn)差 (樣本 : s, 總體 : σ) ? Variance: (代數(shù)度量 , 可伸縮計算 ) ? Standard deviation s (or σ) 方差的平方根 s2 (or σ2) ? ??? ???????? niniiinii xnxnxxns1 122122 ])(1[11)(11 ?? ?? ????ni ini ixNxN122122 1)(1 ???16 盒圖分析 ? 五數(shù)概括 ? 最小值 , Q1, 中位數(shù) Median, Q3, 最大值 ? Boxplot ? 使用盒子表示數(shù)據(jù) ? 盒子兩端是第 1/3四分位數(shù) , 即盒子高度為四分位數(shù)極差 IQR ? 盒內(nèi)的線表示中位數(shù) ? 胡須 : 不超過四分位數(shù) x IQR 的最大/小數(shù)據(jù)點 ? 離群點 Outliers: 單獨繪出滿足某個離群點閾條件的離群點 17 可視化數(shù)據(jù)的離散度 : 3D Boxplots 18 正態(tài)分布曲線的性質(zhì) ? 正態(tài)分布曲線 ? [μ–σ, μ+σ]:含有約 68%的測量 (μ: 均值 , σ: 標(biāo)準(zhǔn)差 ) ? [μ–2σ, μ+2σ]: contains about 95% of it ? [μ–3σ, μ+3σ]: contains about % of it 19 基本統(tǒng)計說明 de圖形顯示 ? Boxplot: 五數(shù)概括的圖形 ? Histogram直方圖 :值 xaxis, yaxis表示頻率 ? Quantile plot分位數(shù)圖 : 值 xi 與 fi (表明近似 100 fi % 的數(shù)據(jù) ? xi )成對 ? Qua
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1