freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘考試復(fù)習(xí)大綱(完整版)

2025-07-02 11:39上一頁面

下一頁面
  

【正文】 行分類較快 ? 缺點 ? 訓(xùn)練(學(xué)習(xí))時間長 ? 蘊涵在學(xué)習(xí)的權(quán)中的符號含義很難理解 ? 很難根專業(yè)領(lǐng)域知識相整合 什么是預(yù)測? ? 預(yù)測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。 ? Lk1中的兩個元素 L1和 L2可以執(zhí)行連接操作 的條件是 ? 剪枝: Ck是 Lk的超集,即它的成員可能不是頻繁的,但是所有頻繁的 k項集都在 Ck中(為什么?)。 ? 屬性概化必須在所有比較類上同步進(jìn)行,將屬性概化到同一抽象層后進(jìn)行比較。 什么是概念描述? ? 描述性挖掘 VS. 預(yù)測性挖掘 ? 描述性挖掘:以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。 ? 通過顯示數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分。 ? 比如: avg(), min_N(), standard_deviation() ? 整體的 (holistic):描述函數(shù)的子聚集所需的存儲沒有一個常數(shù)界。 ? 維 是關(guān)于一個組織想要記錄的視角或觀點。 不可視的數(shù)據(jù)挖掘 ? 數(shù)據(jù)安全 ,完整和保密的保護(hù) 第二章、數(shù)據(jù)倉庫和 OLAP技術(shù) 什么是數(shù)據(jù)倉庫 ? p67 ? 數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴(yán)格的定義 ? 它是一個提供決策支持功能的數(shù)據(jù)庫,它與公司的操作數(shù)據(jù)庫分開維護(hù)。數(shù)據(jù)挖掘 —— 期末復(fù)習(xí) 第一章、數(shù)據(jù)挖掘概論 數(shù)據(jù)挖掘 : 數(shù)據(jù)庫中的知識挖掘 (KDD) ? 數(shù)據(jù)挖掘 —— 知識挖掘的核心 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)庫 數(shù)據(jù)倉庫 任務(wù)相關(guān)數(shù)據(jù) 選擇 數(shù)據(jù)挖掘 模式評估 知識挖掘的步驟 ? 了解應(yīng)用領(lǐng)域 ? 了解相關(guān)的知識和應(yīng)用的目標(biāo) ? 創(chuàng)建目標(biāo)數(shù)據(jù)集 : 選擇數(shù)據(jù) ? 數(shù)據(jù)清理和預(yù)處理 : (這個可能要占全過程 60%的工作量 ) ? 數(shù)據(jù)縮減和變換 ? 找到有用的特征,維數(shù)縮減 /變量縮減,不變量的表示。 ? 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持 ? “數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程 .” — W. H. Inmon(數(shù)據(jù)倉庫構(gòu)造方面的領(lǐng)頭設(shè)計師) ? 建立數(shù)據(jù)倉庫 (data warehousing): ? 構(gòu)造和使用數(shù)據(jù)倉庫的過程。每個維都有一個表與之相關(guān)聯(lián),稱為 維表 。 ? 比如: median(), mode(), rank() 概念分層: location維的一個概念分層 p77 all Europe North_America Mexico Canada Spain Germany Vancouver M. Wind L. Chan ... ... ... ... ... ... all region office country Toronto Frankfurt city 多維數(shù)據(jù)模型上的 OLAP操作 79 ? 上卷 (rollup):匯總數(shù)據(jù) ? 通過一個維的概念分層向上攀升或者通過維規(guī)約 ? 下鉆 (drilldown):上卷的逆操作 ? 由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實現(xiàn) ? 切片和切塊 (slice and dice) ? 投影和選擇操作 ? 轉(zhuǎn)軸 (pivot) ? 立方體的重定位,可視化,或?qū)⒁粋€ 3維立方體轉(zhuǎn)化維一個 2維平面序列 ? 其他 OLAP操作 ? 鉆過 (drill_across):執(zhí)行涉及多個事實表的查詢 ? 鉆透 (drill_through):使用關(guān)系 SQL機制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表 數(shù)據(jù)倉庫設(shè)計的四種視圖 82 ? 數(shù)據(jù)倉庫設(shè)計的四種視圖 ? 自頂向下視圖 ? 允許我們選擇數(shù)據(jù)倉庫所需的相關(guān)信息 ? 數(shù)據(jù)源視圖 ? 揭示被操作數(shù)據(jù)庫系統(tǒng)所捕獲、存儲和管理的信息 ? 數(shù)據(jù)倉庫視圖 ? 有事實表和維表所組成 ? 商務(wù)查詢視圖 ? 從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù) 三種數(shù)據(jù)倉庫模型 84 ? 企業(yè)倉庫 ? 搜集關(guān)于跨越整個組織的主題的所有信息 ? 數(shù)據(jù)集市 ? 企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的客戶是有用的。 ? 說明屬性集,但不說明它們的偏序,然后系統(tǒng)根據(jù)算法自動產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。 ? 預(yù)測性數(shù)據(jù)挖掘:通過分析數(shù)據(jù)建立一個或一組模型,并試圖預(yù)測新數(shù)據(jù)集的行為。 ? City VS country 類比較的過程 136 ? 數(shù)據(jù)收集 ? 通過查詢處理收集數(shù)據(jù)庫中相關(guān)的數(shù)據(jù),并將其劃分為一個目標(biāo)類和一個或多個對比類 ? 維相關(guān)分析 ? 使用屬性相關(guān)分析方法,使我們的任務(wù)中僅包含強相關(guān)的維 ? 同步概化 ? 同步的在目標(biāo)類和對比類上進(jìn)行概化,得到 主目標(biāo)類關(guān)系 /方體 和 主對比類關(guān)系 /方體 ? 導(dǎo)出比較的表示 ? 用可視化技術(shù)表達(dá)類比較描述,通常會包含“對比”度量,反映目標(biāo)類與對比類間的比較 ( count%) 在大型數(shù)據(jù)庫中挖掘描述統(tǒng)計計量 ? 對于數(shù)據(jù)挖掘任務(wù),用戶經(jīng)常關(guān)心的數(shù)據(jù)特征包括數(shù)據(jù)的中心趨勢和離散特征 ? 中心趨勢的度量包括: mean, median, mode 和 midrange ? 數(shù)據(jù)離散度量包括: quartiles, 五數(shù)概括和標(biāo)準(zhǔn)差等 ? 關(guān)系數(shù)據(jù)庫中,系統(tǒng)提供了以下聚集函數(shù): count(), sum(), avg(), max(), min() ? 在大型數(shù)據(jù)庫中挖掘用戶感興趣的描述統(tǒng)計計量涉及到如何利用關(guān)系數(shù)據(jù)庫現(xiàn)有的函數(shù)來計算上述兩類用戶感興趣的度量值 第六章、關(guān)聯(lián)規(guī)則挖掘 什么是關(guān)聯(lián)規(guī)則挖掘? ? 關(guān)聯(lián)規(guī)則挖掘: ? 從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。因此可以通過掃描數(shù)據(jù)庫,通過計算每個 k項集的支持度來得到 Lk 。 ? 預(yù)測和分類的異同 ? 相同點 ? 兩者都需要構(gòu)建模型 ? 都用模型來估計未知值 ? 預(yù)測當(dāng)中主要的估計方法是回歸分析 ? 線性回歸和多元回歸 ? 非線性回歸 ? 不同點 ? 分類法主要是用來預(yù)測類標(biāo)號(分類屬性值) ? 預(yù)測法主要是用來估計連續(xù)值(量化屬性值) 第八章、聚類分析 什么是聚類分析? ? 聚類(簇):數(shù)據(jù)對象的集合 ? 在同一個聚類(簇)中的對象彼此相似 ? 不同簇中的對象則相異 ? 聚類分析 ? 將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程 ? 聚類是一種無指導(dǎo)的學(xué)習(xí):沒有預(yù)定義的類編號 ? 聚類分析的數(shù)據(jù)挖掘功能 ? 作為一個獨立的工具來獲得數(shù)據(jù)分布的情況 ? 作為其他算法(如:特征和分類)的預(yù)處理步
點擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1