freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘考試復(fù)習(xí)大綱(完整版)

  

【正文】 行分類較快 ? 缺點(diǎn) ? 訓(xùn)練(學(xué)習(xí))時(shí)間長(zhǎng) ? 蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號(hào)含義很難理解 ? 很難根專業(yè)領(lǐng)域知識(shí)相整合 什么是預(yù)測(cè)? ? 預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無(wú)樣本類,或評(píng)估給定樣本可能具有的屬性或值空間。 ? Lk1中的兩個(gè)元素 L1和 L2可以執(zhí)行連接操作 的條件是 ? 剪枝: Ck是 Lk的超集,即它的成員可能不是頻繁的,但是所有頻繁的 k項(xiàng)集都在 Ck中(為什么?)。 ? 屬性概化必須在所有比較類上同步進(jìn)行,將屬性概化到同一抽象層后進(jìn)行比較。 什么是概念描述? ? 描述性挖掘 VS. 預(yù)測(cè)性挖掘 ? 描述性挖掘:以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。 ? 通過(guò)顯示數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分。 ? 比如: avg(), min_N(), standard_deviation() ? 整體的 (holistic):描述函數(shù)的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)界。 ? 維 是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。 不可視的數(shù)據(jù)挖掘 ? 數(shù)據(jù)安全 ,完整和保密的保護(hù) 第二章、數(shù)據(jù)倉(cāng)庫(kù)和 OLAP技術(shù) 什么是數(shù)據(jù)倉(cāng)庫(kù) ? p67 ? 數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義 ? 它是一個(gè)提供決策支持功能的數(shù)據(jù)庫(kù),它與公司的操作數(shù)據(jù)庫(kù)分開(kāi)維護(hù)。數(shù)據(jù)挖掘 —— 期末復(fù)習(xí) 第一章、數(shù)據(jù)挖掘概論 數(shù)據(jù)挖掘 : 數(shù)據(jù)庫(kù)中的知識(shí)挖掘 (KDD) ? 數(shù)據(jù)挖掘 —— 知識(shí)挖掘的核心 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 任務(wù)相關(guān)數(shù)據(jù) 選擇 數(shù)據(jù)挖掘 模式評(píng)估 知識(shí)挖掘的步驟 ? 了解應(yīng)用領(lǐng)域 ? 了解相關(guān)的知識(shí)和應(yīng)用的目標(biāo) ? 創(chuàng)建目標(biāo)數(shù)據(jù)集 : 選擇數(shù)據(jù) ? 數(shù)據(jù)清理和預(yù)處理 : (這個(gè)可能要占全過(guò)程 60%的工作量 ) ? 數(shù)據(jù)縮減和變換 ? 找到有用的特征,維數(shù)縮減 /變量縮減,不變量的表示。 ? 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持 ? “數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過(guò)程 .” — W. H. Inmon(數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造方面的領(lǐng)頭設(shè)計(jì)師) ? 建立數(shù)據(jù)倉(cāng)庫(kù) (data warehousing): ? 構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為 維表 。 ? 比如: median(), mode(), rank() 概念分層: location維的一個(gè)概念分層 p77 all Europe North_America Mexico Canada Spain Germany Vancouver M. Wind L. Chan ... ... ... ... ... ... all region office country Toronto Frankfurt city 多維數(shù)據(jù)模型上的 OLAP操作 79 ? 上卷 (rollup):匯總數(shù)據(jù) ? 通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維規(guī)約 ? 下鉆 (drilldown):上卷的逆操作 ? 由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn) ? 切片和切塊 (slice and dice) ? 投影和選擇操作 ? 轉(zhuǎn)軸 (pivot) ? 立方體的重定位,可視化,或?qū)⒁粋€(gè) 3維立方體轉(zhuǎn)化維一個(gè) 2維平面序列 ? 其他 OLAP操作 ? 鉆過(guò) (drill_across):執(zhí)行涉及多個(gè)事實(shí)表的查詢 ? 鉆透 (drill_through):使用關(guān)系 SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖 82 ? 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖 ? 自頂向下視圖 ? 允許我們選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息 ? 數(shù)據(jù)源視圖 ? 揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)所捕獲、存儲(chǔ)和管理的信息 ? 數(shù)據(jù)倉(cāng)庫(kù)視圖 ? 有事實(shí)表和維表所組成 ? 商務(wù)查詢視圖 ? 從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù) 三種數(shù)據(jù)倉(cāng)庫(kù)模型 84 ? 企業(yè)倉(cāng)庫(kù) ? 搜集關(guān)于跨越整個(gè)組織的主題的所有信息 ? 數(shù)據(jù)集市 ? 企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶是有用的。 ? 說(shuō)明屬性集,但不說(shuō)明它們的偏序,然后系統(tǒng)根據(jù)算法自動(dòng)產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。 ? 預(yù)測(cè)性數(shù)據(jù)挖掘:通過(guò)分析數(shù)據(jù)建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。 ? City VS country 類比較的過(guò)程 136 ? 數(shù)據(jù)收集 ? 通過(guò)查詢處理收集數(shù)據(jù)庫(kù)中相關(guān)的數(shù)據(jù),并將其劃分為一個(gè)目標(biāo)類和一個(gè)或多個(gè)對(duì)比類 ? 維相關(guān)分析 ? 使用屬性相關(guān)分析方法,使我們的任務(wù)中僅包含強(qiáng)相關(guān)的維 ? 同步概化 ? 同步的在目標(biāo)類和對(duì)比類上進(jìn)行概化,得到 主目標(biāo)類關(guān)系 /方體 和 主對(duì)比類關(guān)系 /方體 ? 導(dǎo)出比較的表示 ? 用可視化技術(shù)表達(dá)類比較描述,通常會(huì)包含“對(duì)比”度量,反映目標(biāo)類與對(duì)比類間的比較 ( count%) 在大型數(shù)據(jù)庫(kù)中挖掘描述統(tǒng)計(jì)計(jì)量 ? 對(duì)于數(shù)據(jù)挖掘任務(wù),用戶經(jīng)常關(guān)心的數(shù)據(jù)特征包括數(shù)據(jù)的中心趨勢(shì)和離散特征 ? 中心趨勢(shì)的度量包括: mean, median, mode 和 midrange ? 數(shù)據(jù)離散度量包括: quartiles, 五數(shù)概括和標(biāo)準(zhǔn)差等 ? 關(guān)系數(shù)據(jù)庫(kù)中,系統(tǒng)提供了以下聚集函數(shù): count(), sum(), avg(), max(), min() ? 在大型數(shù)據(jù)庫(kù)中挖掘用戶感興趣的描述統(tǒng)計(jì)計(jì)量涉及到如何利用關(guān)系數(shù)據(jù)庫(kù)現(xiàn)有的函數(shù)來(lái)計(jì)算上述兩類用戶感興趣的度量值 第六章、關(guān)聯(lián)規(guī)則挖掘 什么是關(guān)聯(lián)規(guī)則挖掘? ? 關(guān)聯(lián)規(guī)則挖掘: ? 從事務(wù)數(shù)據(jù)庫(kù),關(guān)系數(shù)據(jù)庫(kù)和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。因此可以通過(guò)掃描數(shù)據(jù)庫(kù),通過(guò)計(jì)算每個(gè) k項(xiàng)集的支持度來(lái)得到 Lk 。 ? 預(yù)測(cè)和分類的異同 ? 相同點(diǎn) ? 兩者都需要構(gòu)建模型 ? 都用模型來(lái)估計(jì)未知值 ? 預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析 ? 線性回歸和多元回歸 ? 非線性回歸 ? 不同點(diǎn) ? 分類法主要是用來(lái)預(yù)測(cè)類標(biāo)號(hào)(分類屬性值) ? 預(yù)測(cè)法主要是用來(lái)估計(jì)連續(xù)值(量化屬性值) 第八章、聚類分析 什么是聚類分析? ? 聚類(簇):數(shù)據(jù)對(duì)象的集合 ? 在同一個(gè)聚類(簇)中的對(duì)象彼此相似 ? 不同簇中的對(duì)象則相異 ? 聚類分析 ? 將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程 ? 聚類是一種無(wú)指導(dǎo)的學(xué)習(xí):沒(méi)有預(yù)定義的類編號(hào) ? 聚類分析的數(shù)據(jù)挖掘功能 ? 作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布的情況 ? 作為其他算法(如:特征和分類)的預(yù)處理步
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1