freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘分類和預(yù)測-全文預(yù)覽

2025-09-15 12:12 上一頁面

下一頁面
  

【正文】 0號 復(fù)旦大學(xué)計(jì)算機(jī)與信息技術(shù)系 02165555410, 13601675231 謝 謝! 。 – 常用技術(shù):神經(jīng)元網(wǎng)絡(luò)、 K均值、最近鄰 … 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 98 四、數(shù)據(jù)挖掘應(yīng)用 業(yè)務(wù)建摸 ? 異常檢測 – 及時(shí)發(fā)現(xiàn)有欺詐嫌疑的異常行為,正確進(jìn)行欺詐問題的評估,對欺詐者實(shí)施控制和強(qiáng)制措施。 – 分析客戶使用分銷渠道的情況和分銷渠道的容量 ;建立利潤評測模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等 ? 電子商務(wù) – 網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁;自適應(yīng)網(wǎng)站 … ? 生物制藥、基因研究 – DNA序列查詢和匹配; 識別基因序列的共發(fā)生性 … ? 電信 – 欺詐甄別;客戶流失 … ? 保險(xiǎn)、零售。Choice(主要用于保險(xiǎn)業(yè) ) ?HNC( 欺詐行為偵測) ?Unica Model 1(主要用于市場營銷 ) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 86 二、數(shù)據(jù)挖掘軟件的發(fā)展 綜合的數(shù)據(jù)挖掘解決方案 (復(fù)旦的工作) 各行業(yè)電子商務(wù)網(wǎng)站 算 法 層 商 業(yè) 邏 輯 層 行 業(yè) 應(yīng) 用 層 商業(yè)應(yīng)用 商業(yè)模型 挖掘算法 CRM 產(chǎn)品推薦 客戶細(xì)分 客戶流失 客戶利潤 客戶響應(yīng) 關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析 … WEB挖掘 網(wǎng)站結(jié)構(gòu)優(yōu)化 網(wǎng)頁推薦 商品推薦 。比如 , 平行坐標(biāo)可視化( parallelcoordinate visualization)。 – 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在( ubiquitous) 計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo), PKDD2020上 Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文, Kargupta是馬里蘭巴爾的摩州立大學(xué)( University of Maryland Baltimore County) 正在研制的 CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是 2020年 4月到 2020年 4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)( Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。 ?數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué) ?數(shù)據(jù)挖掘與人工智能 ?數(shù)據(jù)挖掘與數(shù)據(jù)庫技術(shù) 數(shù)據(jù)挖掘與 KDD 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 63 一、數(shù)據(jù)挖掘概念 原由 國民經(jīng)濟(jì)和社會的信息化 ?社會信息化后,社會的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn) ?社會信息化后,社會的歷史是數(shù)據(jù)的歷史 因此政府提出 “信息化”和“發(fā)展軟件產(chǎn)業(yè)” 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 64 一、數(shù)據(jù)挖掘概念 原由 數(shù)據(jù)挖掘 數(shù)據(jù)庫越來越大 有價(jià)值的知識 可怕的數(shù)據(jù) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 65 一、數(shù)據(jù)挖掘概念 原由 數(shù)據(jù)爆炸,知識貧乏 苦惱 : 淹沒在數(shù)據(jù)中 。4/5P(high|n)6/9P(false|p)P(xk|C) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 37 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 38 ? 樣本 X = rain, hot, high, false ? P(X|p) 種類字段:屬性值、類標(biāo)簽、頻率 ? 對數(shù)值字段進(jìn)行分割計(jì)算: 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 28 Sliq分類算法 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 29 Sliq分類算法 ? 對種類字段進(jìn)行分割: ? 通過對數(shù)據(jù)的掃描生成類分布表 ? 尋找分割集合 187。 類標(biāo)簽 187。 Shim) ? RainForest (VLDB’98 — Gehrke, Ramakrishnan amp。 那么這個(gè)分割的Gini就是 ? 提供最小 Ginisplit 就被選擇作為分割的標(biāo)準(zhǔn) (對于每個(gè)屬性都要遍歷所有可以的分割方法 ). ???? nj p jTgini 1 21)()()()( 2211 Tg i n iNNTg i n iNNTg i n i s p l i t ??2020年 9月 16日星期三 Data Mining: Concepts and Techniques 18 幾種經(jīng)典算法介紹 ? CART min(P(c1),P(c2)) 2P(c1)P(c2) [P(c1)logP(c1)]+[P(c2)logP(c2)] (ID3) ? (ID3) ? 對種類字段處理時(shí),缺省是對每個(gè)值作為一個(gè)分割 ? Gain和 Gain Ratio ? CHAID ? 在 Overfitting前停止樹的生成 ? 必須都是種類字段 ? 選擇分割。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 7 ? 數(shù)據(jù)清洗 – 對數(shù)據(jù)進(jìn)行預(yù)處理,消除噪音和丟失值。 ? 測試集和訓(xùn)練集是獨(dú)立的。 典型應(yīng)用 – 信用評分 – Direct Marketing – 醫(yī)療診斷 – ………… 分類和預(yù)測 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 3 分類的兩個(gè)步驟 ? 模型創(chuàng)建 : 對一個(gè)類別已經(jīng)確定的數(shù)據(jù)創(chuàng)建模型 – 每一條記錄都屬于一個(gè)確定的類別,我們使用類標(biāo)簽屬性記錄類別。使用該模型對新的數(shù)據(jù)進(jìn)行分類 預(yù)測 : – 對連續(xù)性字段進(jìn)行建模和預(yù)測。 ? 準(zhǔn)確率:正確被模型分類的測試樣本的百分比。 – 提供一組屬性,然后尋找出訓(xùn)練集中存在類別或者聚集。那么熵就是 (entropy), ? 從而這個(gè)信息增益就是 ?? ??? ?1),()(i iiii npInpnpAE)(),()( AEnpIAG ai n ??2020年 9月 16日星期三 Data Mining: Concepts and Techniques 16 使用信息增益進(jìn)行屬性選擇 (例 ) ? Class P: buys_puter = ―yes‖ ? Class N: buys_puter = ―no‖ ? I(p, n) = I(9, 5) = ? Compute the entropy for age: Hence Similarly age p i n i I ( p i, n i)=3 0 2 3 0 .9 7 13 0 … 4 0 4 0 04 0 3 2 0 .9 7 1)2,3(I145)0,4(I144)3,2(I145)age(E????)_()()(???r a t i n gcr editG a i ns t u d entG a i ni n eG a i n)age(E)n,p(I)age(G a i n ???2020年 9月 16日星期三 Data Mining: Concepts and Techniques 17 Gini Index (IBM IntelligentMiner) ? 集合 T包含 N個(gè)類別的記錄,那么其 Gini指標(biāo)就是 pj 類別 j出現(xiàn)的頻率 ? 如果集合 T分成兩部分 N1 and N2 。 ? 在數(shù)據(jù)挖掘中為什么使用決策樹 ? – 相對比較快的學(xué)習(xí)速度 (和其它學(xué)習(xí)方法比較來說 ) – 能夠轉(zhuǎn)換成容易理解的分類規(guī)則 – 能夠使用 SQL語句查詢數(shù)據(jù)庫 – 分類的準(zhǔn)確率也不差 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 24 Scalable Decision Tree Induction 數(shù)據(jù)挖掘中提出的方法 ? SLIQ (EDBT’96 — Mehta et al.) ? SPRINT (VLDB’96 — J. Shafer et al.) ? PUBLIC (VLDB’98 — Rastogi amp。 索引 ? 類列表( class list): 187。 數(shù)值字段:類標(biāo)簽、頻率 187?!璓(high|p)3/9P(hot|n)2/5或超過預(yù)先指定的周期數(shù) . ? 防止訓(xùn)練過度 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 54 神經(jīng)網(wǎng)絡(luò)的解釋 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 55 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 56 解釋過程 ? 對隱藏節(jié)點(diǎn)進(jìn)行聚類 ,對于所有給定的輸入 ,輸出值分成幾個(gè)類 . ? 導(dǎo)出與輸出節(jié)點(diǎn) O的一系列規(guī)則 ? 導(dǎo)出與輸入節(jié)點(diǎn) I的一系列規(guī)則 ? 得到關(guān)于輸入和輸出的規(guī)則 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 57 靈敏度分析 ? 用于評估一個(gè)給定的變量對網(wǎng)絡(luò)輸出的影響 .改變該變量的輸入 ,其他變量固定 ,監(jiān)測網(wǎng)絡(luò)的輸出 . ? 得到的規(guī)則形如 :IF X 減少 5%, THEN Y 增加 8%的規(guī)則 . 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 58 基于關(guān)聯(lián)規(guī)則的分類 其他分類方法 K最臨近分類 基于案例的推理 遺傳算法 粗糙集算法 模糊集算法 預(yù)測 線性回歸和多元回歸 非線性回歸 其他回歸模型 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 59 分類法的準(zhǔn)確性 評估分類法的準(zhǔn)確率 提高分類法的準(zhǔn)確率 準(zhǔn)確率足夠判定
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1