freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數據挖掘概念與技術chapter2-了解數據(已修改)

2025-04-03 07:50 本頁面
 

【正文】 1 Data Mining: Concepts and Techniques 楊昆 修譯 — Chapter 2 — Jiawei Han, Micheline Kamber, and Jian Pei University of Illinois at UrbanaChampaign Simon Fraser University 2 Chapter 2: 了解數據 ? 數據對象和屬性類型 Data Objects and Attribute Types ? 數據的 (基本 )統計描述 Basic Statistical Descriptions of Data ? 數據可視化 Data Visualization ? 測量數據相似性和相異性 Measuring Data Similarity and Dissimilarity ? 總結 Summary 3 數據集合的類型 ? 記錄 Record ? 關系記錄 ? 數據矩陣 , ., 數值矩陣 , 交叉表 ? 文檔數據 : 文本文檔 :詞頻向量 termfrequency vector ? 交易數據 ? 圖 and 網絡 ? 萬維網 ? 社會或信息網絡 ? 分子結構 Molecular Structures ? 有序的 Ordered ? 視頻數據 : sequence of images ? 時間數據 : 時間序列 timeseries ? 序列數據 :交易序列 transaction sequences ? 遺傳序列數據 ? 空間 , 圖像 image and 多媒體 multimedia: ? Spatial data: maps ? Image data: ? Video data: D o c u m e n t 1seasontimeoutlostwingamescoreballplaycoachteamD o c u m e n t 2D o c u m e n t 33 0 5 0 2 6 0 2 0 2007 0 2 1 0 0 3 0 01 0 0 1 2 2 0 3 0T ID It e m s 1 B r e ad , C o k e , M ilk 2 Beer, Bread 3 B e e r , C o k e, D iape r , M ilk 4 Beer, Bread , D ia p er, M il k 5 C ok e, D iap er, M ilk 4 結構數據的重要特征 ? 維度 Dimensionality ? 維數災難 Curse of dimensionality ? 稀疏 Sparsity ? 只有計數 Only presence counts ? 分辯率 Resolution ? 模式依賴于尺度 ? 分布 Distribution ? 中心性和分散 Centrality and dispersion 5 數據對象 ? 數據集由數據對象構成 ? 一個數據對象代表一個實體 ? 例子 : ? 銷售數據庫 sales database:客戶 /顧客 ,商店物品 , sales ? 醫(yī)學數據庫 : patients, treatments ? 大學數據庫 : students, professors, courses ? 又稱為 樣本 , 事例 ,實例 , 數據點 , 對象 ,元組 tuples. ? 數據對象由屬性來描述 ? Database rows data objects。 columns attributes. 6 屬性 ? 屬性 Attribute (or維度 , 特征 , 變量 ):一個數據字段 , 表示一個數據對象的某個特征 . ? ., customer _ID, name, address ? 類型 : ? 名詞性 Nominal ? 二元的 ? 數字的 Numeric: 數量的 ? Intervalscaled ? Ratioscaled 7 屬性類型 ? 名詞性 Nominal:類別 ,狀態(tài) , or ―名目 ‖ ? Hair_color = {auburn, black, blond, brown, grey, red, white} ? 婚姻狀態(tài) , 職業(yè) occupation, ID numbers, zip codes ? 二元 ? 只有 2個狀態(tài)的名詞性屬性 (0 and 1) ? 對稱二元 Symmetric binary: 同樣重要的兩相 ? ., gender ? 非對稱 Asymmetric binary: 非同等重要 ? ., 醫(yī)療檢查 (positive vs. negative) ? 慣例 Convention: assign 1 to most important oute (., HIV positive) ? 順序的 Ordinal ? 值有一個有意義的順序 (排序 ) 但連續(xù)值之間的大小未知 . ? Size = {small, medium, large},等級 ,軍隊排名 8 數值屬性的類型 ? 數量 Quantity (integer or realvalued) ? 區(qū)間 Interval ? 在某個同等大小的一個尺度單位上 Measured on a scale of equalsized units ? 值有序 ? ., temperature in C?or F?, calendar dates ? 沒有真正的零點 ? Ratio ? 有真正的零點 ? 可以講值是被測量單位一個數量級 (10 K? is twice as high as 5 K?). ? .,溫度在開爾文 ,長度 ,計數 ,貨幣的數量 9 離散 vs. 連續(xù)屬性 ? Discrete Attribute ? 一個有限的或可數無限集值 ? ., zip codes, the set of words in a collection of documents ? 有時 ,表示為整數變量 ? 注 : 二元屬性是離散屬性的一個特殊情況 ? Continuous Attribute ? 屬性值為實數 ? ., temperature, height, or weight ? 實際上,實值只能使用有限位數進行測量和代表 ? 連續(xù)屬性通常表示為浮點變量 10 Chapter 2:數據的統計描述 ? Data Objects and Attribute Types ? 數據的 (基本 )統計描述 ? 數據可視化 ? 測量數據相似性和相異性 Measuring Data Similarity and Dissimilarity ? Summary 11 數據的 (基本 )統計描述 ? Motivation ?為了更好的理解數據 :集中趨勢,變異和傳播 ? 數據離散特征 ?中位數 , 最大 , 最小 , 粉位數 , 離群點 , 方差 , 等 . ? 針對排序區(qū)間的數值維 ?數據離散度 : 多個粒度上的精確分析 ?排序區(qū)間的盒圖 /分位數圖分析 ? 某計算側度下的離散度分析 ?折疊為某數值維度下 ?轉化立方體上的盒圖 /分位數圖 12 分布度量 /代數度量 /整體度量 ? 從數據挖掘角度,需要考察如何在大型數據可中有效計算度量。 ? 分布式度量 distributive measure ? 可通過如下方法計算的度量(函數):將數據劃分成較小子集,計算每個子集的度量,合并計算結果得到整個數據集的度量值。 ? Sum, count
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號-1