freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第11講數(shù)據(jù)挖掘概述chapter11introductiontodatamining(編輯修改稿)

2024-12-14 15:23 本頁面
 

【文章內(nèi)容簡介】 :這是整個 KDD過程中很重要的一個步驟。運用前面選擇的算法,從數(shù)據(jù)庫中提取用戶感興趣的知識,并以一定的方式表示出來(如產(chǎn)生式規(guī)則等)是數(shù)據(jù)挖掘的目的。 ? :對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進(jìn)行解釋。經(jīng)過用戶或機器評估后,可能會發(fā)現(xiàn)這些模式中存在冗余或無關(guān)的模式,此時應(yīng)該將其剔除。如果模式不能滿足用戶的要求,就需要返回到前面的某些處理步驟中反復(fù)提取。 KDD過程(續(xù)) ? :將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。 ?在上述步驟中,數(shù)據(jù)挖掘占據(jù)非常重要的地位,它主要是利用某些特定的知識發(fā)現(xiàn)算法,在一定的運算效率范圍內(nèi),從數(shù)據(jù)中發(fā)現(xiàn)出有關(guān)知識,決定了整個 KDD過程的效果與效率。 4. 數(shù)據(jù)挖掘功能 數(shù)據(jù)挖掘任務(wù)有兩類: 第一類是描述性挖掘任務(wù):刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性; 第二類是預(yù)測性挖掘任務(wù):在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。 概念 / 類描述:特征化和區(qū)分 ? 概念 / 類描述 (class / concept description):用匯總的、簡潔的、精確的方式描述每個類和概念。 ? 數(shù)據(jù)特征化 (data characterization) :是目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總。其中數(shù)據(jù)特征的輸出形式有:餅圖、條圖、曲線、多維數(shù)據(jù)立方體、多維表等。 ? 數(shù)據(jù)區(qū)分 (Data discrimination) :是將目標(biāo)類對象的一般特性與一個或多個對比類對象的一般特性比較。 關(guān)聯(lián)分析 ( 1) 定義:關(guān)聯(lián)分析 (association analysis): 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示“屬性 —值”頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。 關(guān)聯(lián)規(guī)則 (association rule): “ X ? Y”,即 A1 ? A2 ? ? ? Am ? B1 ? B2 ? ? ? Bn 關(guān)聯(lián)規(guī)則分為兩類:一類是“ 多維關(guān)聯(lián)規(guī)則 ”( multidimensional association rule);另一類是“ 單維關(guān)聯(lián)規(guī)則 ” (singledimensional association rule)。 ( 2) 實例 age(x, “20..29”) ? ine(X, “20K..29K”) ? buys(X, “CD_player”) [support = 2%, confidence = 60%] ( 1) 定義 分類 (classification): 是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象的過程。 注:導(dǎo)出模型(或函數(shù))是基于對 訓(xùn)練數(shù)據(jù)集 (即其類標(biāo)記已知的數(shù)據(jù)對象)的分析。 ( 2) 分類模型的導(dǎo)出方式 分類規(guī)則( IFTHEN)、決策樹、數(shù)學(xué)公式、神經(jīng)網(wǎng)絡(luò)等。 ( 3) 相關(guān)分析 (relevance analysis) 一般情況下,相關(guān)分析需要在分類和預(yù)測之前進(jìn)行,它試圖識別對于分類和預(yù)測無用的屬性,且這些屬性應(yīng)被排除。 分類和預(yù)測 ( 1) 定義 聚類 (clustering): 與 分類 和 預(yù)測 不同,它主要分析數(shù)據(jù)對象,而不考慮已知的類標(biāo)記。 一般情況下,訓(xùn)練數(shù)據(jù)中不提供類標(biāo)記,因為不知道從何開始。聚類可以用于產(chǎn)生這種標(biāo)記。 ( 2) 聚類或分組的原則 “最大化類內(nèi)的相似性、最小化類間的相似性” 對象的簇(聚類)的形成辦法為:使得在一個簇中的對象具有很高的相似性,而與其它簇中的對象很不相似。所形成的每個簇可以看作一個對象類,由它可以導(dǎo)出規(guī)則。 聚類分析 ( 1) 定義 孤立點 (outlier): 數(shù)據(jù)庫中的那些與數(shù)據(jù)的 一般行為 或 模型 不一致的 數(shù)據(jù)對象 。 大部分?jǐn)?shù)據(jù)挖掘方法將孤立點視為噪聲或異常而將其丟棄,然而,在一些實際應(yīng)用中(如欺騙檢測、軍事情報分析等),罕見點事件可能比正常出現(xiàn)的那些更有趣。孤立點數(shù)據(jù)分析稱為 孤立點挖掘 (outlier mining)。 ( 2) 孤立點的檢測方法 第一種方法: 統(tǒng)計試驗檢測方法 。假定一個數(shù)據(jù)分布或概率模型,并使用距離度量,到其它聚類的距離很大的對象被視為孤立點。 第二種方法: 基于偏差點方法 。通過考察一群對象主要特征上的差別識別孤立點。 孤立點分析 ( 1) 定義 數(shù)據(jù)演變分析 (evolution analysis): 描述行為隨時間變化的對象的 規(guī)律 或 趨勢 ,并對其 建模 。 演變分析包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)、分類或聚類,最主要有三種演化分析方法: a) 時間序列數(shù)據(jù)分析 b) 序列或周期模式匹配 c) 基于類似性的數(shù)據(jù)分析 演變分析 數(shù)據(jù)挖掘過程模型是確保數(shù)據(jù)挖掘工作順利進(jìn)行的關(guān)鍵 。 典型的過程模型有: ( 1) SPSS的 5A模型 ——評估 (Assess)、 訪問 (Access)、 分析(Analyze)、 行動 (Act)、 自動化 (Automate)。 (2)SAS的 SEMMA模型 ——采樣 (Sample)、 探索 (Explore)、 修正(Modify)、 建模 (Model)、 評估 (Assess)。 (3) 跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn) CRISPDM——目前 CRISPDM仍在建立之中 。 (4) 此外, Two Crows公司的數(shù)據(jù)挖掘過程模型,它與正在建立的 CRISPDM有許多相似之處。 5. 數(shù)據(jù)挖掘過程模型 6. KDD的分類 ? 根據(jù)挖掘的數(shù)據(jù)庫類型分類 ? 根據(jù)挖掘的知識類型分類 ? 根據(jù)所用的技術(shù)分類 ? 根據(jù)應(yīng)用分類 7. KDD的主要問題 ? 數(shù)據(jù)挖掘結(jié)果的表示和顯示 ? 處理噪聲和不完全數(shù)據(jù) ? 模式評估 —— 興趣度問題 ? 數(shù)據(jù)挖掘算法的有效性和可伸縮性 ? 并行、分布式和增量挖掘算法 ? 異種數(shù)據(jù)庫和全球信息系統(tǒng)挖掘信息 E. 數(shù)據(jù)挖掘基本特征 ? KDD和數(shù)據(jù)挖掘可以應(yīng)用在很多領(lǐng)域中,它們具有如下一些公共特征: ?海量數(shù)據(jù)集 ?數(shù)據(jù)利用非常不足 ?在開發(fā)知識發(fā)現(xiàn)系統(tǒng)時,領(lǐng)域?qū)<覍υ擃I(lǐng)域的熟悉程度至關(guān)重要 ?最終用戶專門知識缺乏 有效的知識發(fā)現(xiàn)系統(tǒng) ? 為使知識發(fā)現(xiàn)系統(tǒng)更加有效,有幾個軟、硬件問題需要強調(diào): ?為使數(shù)據(jù)服務(wù)更加詳盡,必須研究基礎(chǔ)的體系結(jié)構(gòu)、算法和數(shù)據(jù)結(jié)構(gòu)。 ?解決存儲管理中的新問題,開發(fā)有效的存儲機制 。 ?高層次的查詢語言成為重要的研究課題 。 ?描述多維對象的可視化工具在知識表示中將起重要作用 。 F. 數(shù)據(jù)挖掘的發(fā)展趨勢 ? 視頻和音頻數(shù)據(jù)挖掘 ? 科學(xué)和統(tǒng)計數(shù)據(jù)挖掘 ? 數(shù)據(jù)挖掘的應(yīng)用探索 ? 可伸縮的數(shù)據(jù)挖掘方法 ? 數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫和 Web數(shù)據(jù)庫系統(tǒng)的集成 ? 數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化 ? 可視化數(shù)據(jù)挖掘 ? 復(fù)雜數(shù)據(jù)類型挖掘的方法 ? Web挖掘 ? 數(shù)據(jù)挖掘中的隱私保護(hù)與信息安全 可視化數(shù)據(jù)挖掘 ? 數(shù)據(jù)可視化 ? 數(shù)據(jù)挖掘結(jié)果可視化 ? 數(shù)據(jù)挖掘處理過程可視化 ? 交互式的可視化挖掘 數(shù)據(jù)可視化 數(shù)據(jù)挖掘結(jié)果可視化 Visualization of data mining results in SAS Enterprise Miner: scatter plots Visualization of association rules in MineSet Visualization of a decision tree in MineSet Visualization of cluster groupings in IBM Intelligent Miner 數(shù)據(jù)挖掘過程可視化 交互式的可視化挖掘 II. 數(shù)據(jù)挖掘系統(tǒng) ? 數(shù)據(jù)挖掘工具 ? 數(shù)據(jù)挖掘過程 ? 數(shù)據(jù)挖掘系統(tǒng) ? 如何選擇數(shù)據(jù)挖掘系統(tǒng) ? 數(shù)據(jù)挖掘系統(tǒng)發(fā)展趨勢 A. 數(shù)據(jù)挖掘工具 ? 目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有: ? SAS公司的 Enterprise Miner ? IBM公司的 Intelligent Miner ? SGI公司的 SetMiner ? SPSS公司的 Clementine ? Sybase公司的 Warehouse Studio ? RuleQuest Research公司的 See5 ? 還有 CoverStory、 EXPLORA、 Knowledge Discovery Workbench、 DBMiner、 Quest等。 B. 數(shù)據(jù)挖掘過程 步驟 步驟名稱 描述 1 數(shù)據(jù)倉庫 Data Warehouse 數(shù)據(jù)倉庫管理用于決策支持的數(shù)據(jù)。在該步驟內(nèi),數(shù)據(jù)從操作型系統(tǒng)以及第三方
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1