freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

數據倉庫與數據挖掘基礎第3章數據預處理(趙志升)-資料下載頁

2025-03-09 09:10本頁面
  

【正文】 據元組視為對象。它將對象劃分為 群 或 聚類 ,使得在一個聚類中的對象“類似”,但與其他聚類中的對象“不類似”。通常,類似性基于距離,用對象在空間中的“接近”程度定義。 聚類 的“ 質量 ”可以用“直徑”表示,直徑是一個聚類中兩個任意對象的最大距離。 第四節(jié) 數據歸約 數值歸約 ? 聚類 質心距離 是聚類質量的另一種度量,它定義為聚類質心到每個聚類對象的平均距離。 ? 在數據歸約時,用數據的 聚類表示 替換實際數據。 ? 在數據庫系統(tǒng)中, 多維索引樹 主要用于提供對數據的快速訪問;也可用于分層數據歸約,提供數據的多維聚類;也可用于提供查詢的近似回答。 第四節(jié) 數據歸約 數值歸約 ? 選樣 選樣是用數據的較小隨機樣本(子集)表示大的數據集,它可以作為一種數據歸約技術使用。 第四節(jié) 數據歸約 數值歸約 ? 選樣 假定大的數據集 D包含 N個元組,則對 D的選樣有: ? 簡單選擇 n個樣本,不回放 ? 簡單選擇 n個樣本,回放 ? 聚類選樣 ? 分層選樣 第四節(jié) 數據歸約 數值歸約 ? 選樣 采用選樣進行數據歸約的優(yōu)點:可以得到樣本的花費正比例于樣本的大小 n,而不是數據的大小 N。因此選樣的復雜性子線性于數據的大小。 用于數據歸約時,選樣最常用來回答聚集查詢。在指定的誤差范圍內,可以用中心極限定理確定估計一個給定的函數的指定誤差范圍內所需的樣本大小。 第五節(jié) 離散化和概念分層生成 通過將屬性域劃分為區(qū)間, 離散化 技術可以用來減少給定的連續(xù)屬性值的個數。區(qū)間的標號可以替代實際的數據值。 許多離散化技術都可以遞歸使用,以便提供屬性值的分層或多分解劃分,即 概念分層 。 第五節(jié) 離散化和概念分層生成 數值數據的離散化和概念分層生成 對于數值屬性,由于數據的可能取值范圍的多樣性和數據值的更新頻繁,進行概念分層比較困難。數值屬性的概念分層可以根據數據分布分析自動地構造,基本方法主要有: 第五節(jié) 離散化和概念分層生成 數值數據的離散化和概念分層生成 ? 分箱 ? 直方圖分析 ? 聚類分析 ? 基于熵的離散化 ? 通過自然劃分分段 第五節(jié) 離散化和概念分層生成 分類數據的概念分層生成 分類數據是離散數據。一個分類屬性具有有限(但可能很多)不同值,值之間無序。 ? 由用戶或專家在模式級顯式地說明屬性的部分序 ? 通過顯式數據分組說明分層結構的一部分 ? 說明屬性集,但不說明它們的偏序 ? 只說明部分屬性集 思考問題: 數據預處理的意義是什么?其基本方法主要有哪些? 什么是數據清理?其基本方法主要有哪些? 什么是數據集成?數據集成主要涉及哪些問題? 數據變換主要涉及哪些內容? 數據歸約的策略主要有哪些? 簡述維歸約及其屬性子集選擇的基本啟發(fā)式方法。 什么是數據壓縮?典型的數據壓縮技術有哪些? 什么是數值歸約?其主要包括哪些歸約技術? 演講完畢,謝謝觀看!
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1