freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘分類和預(yù)測-在線瀏覽

2024-10-23 12:12本頁面
  

【正文】 40‖ AND credit_rating = ―excellent‖ THEN buys_puter = ―yes‖ IF age = ―=30‖ AND credit_rating = ―fair‖ THEN buys_puter = ―no‖ 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 20 在分類中避免過度適應(yīng)(Overfit) ? 在訓(xùn)練集中生成的會可能會 Overfit – 太多的分支 , 有些可能是對異常例外的反映 – 在進(jìn)行預(yù)測的時候準(zhǔn)確率比較差 ? 兩種 – 預(yù)修剪 : ? 難點:選擇一個域值比較困難 – 后修建 : 先生成完整的樹,然后進(jìn)行修剪 ? 使用另外一個的一個測試集來決定哪個樹最好 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 21 決定最終樹大小的方法 ? 使用部分?jǐn)?shù)據(jù): ? 使用全部數(shù)據(jù): – 使用一個統(tǒng)計測試 (., chisquare) 來估計保留或者修剪掉一個分支的影響 ? 使用最小描述長度 (MDL) 原則 : – 當(dāng)樹的 Coding最小的時候最佳。 ? 在數(shù)據(jù)挖掘中為什么使用決策樹 ? – 相對比較快的學(xué)習(xí)速度 (和其它學(xué)習(xí)方法比較來說 ) – 能夠轉(zhuǎn)換成容易理解的分類規(guī)則 – 能夠使用 SQL語句查詢數(shù)據(jù)庫 – 分類的準(zhǔn)確率也不差 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 24 Scalable Decision Tree Induction 數(shù)據(jù)挖掘中提出的方法 ? SLIQ (EDBT’96 — Mehta et al.) ? SPRINT (VLDB’96 — J. Shafer et al.) ? PUBLIC (VLDB’98 — Rastogi amp。 Ganti) – builds an AVClist (attribute, value, class label) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 25 SLIQ算法介紹 ? 總攬: 預(yù)排序、廣度優(yōu)先、種類字段快速分割、 MDL修剪方法 ? 預(yù)排序: 減少對數(shù)值字段進(jìn)行排序消耗的時間 ? 屬性列表( attribute list): 187。 索引 ? 類列表( class list): 187。 指向樹中的節(jié)點 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 26 Sliq分類算法 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 27 Sliq分類算法 ? 進(jìn)行節(jié)點的分割: 廣度優(yōu)先 ? 對當(dāng)前樹中所有葉子節(jié)點分割的計算都是在同一遍中完成的。 數(shù)值字段:類標(biāo)簽、頻率 187。如果不同字段的值少于預(yù)定值,進(jìn)行完全搜索 187?!璓(p) = P(rain|p)P(high|p)P(p) = 3/93/99/14 = ? P(X|n)P(hot|n)P(false|n)2/52/5或超過預(yù)先指定的周期數(shù) . ? 防止訓(xùn)練過度 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 54 神經(jīng)網(wǎng)絡(luò)的解釋 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 55 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 56 解釋過程 ? 對隱藏節(jié)點進(jìn)行聚類 ,對于所有給定的輸入 ,輸出值分成幾個類 . ? 導(dǎo)出與輸出節(jié)點 O的一系列規(guī)則 ? 導(dǎo)出與輸入節(jié)點 I的一系列規(guī)則 ? 得到關(guān)于輸入和輸出的規(guī)則 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 57 靈敏度分析 ? 用于評估一個給定的變量對網(wǎng)絡(luò)輸出的影響 .改變該變量的輸入 ,其他變量固定 ,監(jiān)測網(wǎng)絡(luò)的輸出 . ? 得到的規(guī)則形如 :IF X 減少 5%, THEN Y 增加 8%的規(guī)則 . 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 58 基于關(guān)聯(lián)規(guī)則的分類 其他分類方法 K最臨近分類 基于案例的推理 遺傳算法 粗糙集算法 模糊集算法 預(yù)測 線性回歸和多元回歸 非線性回歸 其他回歸模型 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 59 分類法的準(zhǔn)確性 評估分類法的準(zhǔn)確率 提高分類法的準(zhǔn)確率 準(zhǔn)確率足夠判定分類法? 總結(jié) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 60 第七章:分類和預(yù)測 什么是分類?什么是預(yù)測 關(guān)于分類和預(yù)測的一些問題 使用決策樹進(jìn)行分類 貝葉斯分類 (向后傳播分類)帶回饋的分類 基于關(guān)聯(lián)規(guī)則的分類 其他分類方法 預(yù)測 分類法的準(zhǔn)確性 總結(jié) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 61 主講人 朱揚(yáng)勇 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 62 一、數(shù)據(jù)挖掘概念 定義 數(shù)據(jù)挖掘 從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù), 是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。 不能制定合適的決策 ! 數(shù)據(jù) 知識 決策 ? 模式 ? 趨勢 ? 事實 ? 關(guān)系 ? 模型 ? 關(guān)聯(lián)規(guī)則 ? 序列 ? 目標(biāo)市場 ? 資金分配 ? 貿(mào)易選擇 ? 在哪兒做廣告 ? 銷售的地理位置 ? 金融 ? 經(jīng)濟(jì) ? 政府 ? POS. ? 人口統(tǒng)計 ? 生命周期 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 66 一、數(shù)據(jù)挖掘概念 發(fā)展 ? 1989 IJCAI會議: 數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題 – Knowledge Discovery in Databases (G. PiatetskyShapiro and W. Frawley, 1991) ? 19911994 KDD討論專題 – Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. PiatetskyShapiro, P. Smyth, and R. Uthurusamy, 1996) ? 19951998 KDD國際會議 (KDD’9598) – Journal of Data Mining and Knowledge Discovery (1997) ? 1998 ACM SIGKDD, SIGKDD’19992020 會議 ,以及 SIGKDD Explorations ? 數(shù)據(jù)挖掘方面更多的國際會議 – PAKDD, PKDD, SIAMData Mining, (IEEE) ICDM, DaWaK, SPIEDM, etc. 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 67 一、數(shù)據(jù)挖掘概念 技術(shù) ? 技術(shù)分類 – 預(yù)言( Predication): 用歷史預(yù)測未來 – 描述( Description): 了解數(shù)據(jù)中潛在的規(guī)律 ? 數(shù)據(jù)挖掘技術(shù) – 關(guān)聯(lián)分析 – 序列模式 – 分類( 預(yù)言 ) – 聚集 – 異常檢測 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 68 二、數(shù)據(jù)挖掘軟件的發(fā)展 代 特征 數(shù)據(jù)挖掘算法 集成 分布計算模型 數(shù)據(jù)模型 第一代 作為一個獨立的應(yīng)用 支持一個或者多個算法 獨立的系統(tǒng) 單個機(jī)器 向量數(shù)據(jù) 第二代 和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成 多個算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù) 數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫 同質(zhì)、局部區(qū)域的計算機(jī)群集 有些系統(tǒng)支持對象 ,文本和連續(xù)的媒體數(shù)據(jù) 第三代 和預(yù)言模型系統(tǒng)集成 多個算法 數(shù)據(jù)管理和預(yù)言模型系統(tǒng) intra/extra網(wǎng)絡(luò)計算 支持半結(jié)構(gòu)化數(shù)據(jù)和 web數(shù)據(jù) 第四代 和移動數(shù)據(jù) /各種計算設(shè)備的數(shù)據(jù)聯(lián)合 多個算法 數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng) 移動和各種計算設(shè)備 普遍存在的計算模型 Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的觀點 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 69 二、數(shù)據(jù)挖掘軟件的發(fā)展 第一代數(shù)據(jù)挖掘軟件 ? 特點 – 支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法 – 挖掘向量數(shù)據(jù)( vectorvalued data) – 數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理 – 典型的系統(tǒng)如 Salford Systems公司早期的 CART系統(tǒng) () ? 缺陷 – 如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。 基于關(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 71 二、數(shù)據(jù)挖掘軟件的發(fā)展 第二代數(shù)據(jù)挖掘軟件 ? 特點 – 與數(shù)據(jù)庫管理系統(tǒng)( DBMS) 集成 – 支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性 – 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1