freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓(xùn)手冊(cè)-免費(fèi)閱讀

  

【正文】 和置信度區(qū)分 例:以預(yù)測(cè)流失為例 1. 預(yù)測(cè)客戶 A流失; 2. 預(yù)測(cè)客戶 B不流失,把握程度為 ; 3. 預(yù)測(cè)客戶 C的流失概率為 。 –例如:根據(jù)各省市的各種經(jīng)濟(jì)指數(shù)將所有的省市分為幾個(gè)等級(jí)。RT介紹 ? Camp。 ? 因?yàn)椴煌念A(yù)測(cè)方法在復(fù)雜性、數(shù)據(jù)要求以及準(zhǔn)確程度上均不同 ,因此選擇一個(gè)合適的預(yù)測(cè)方法是很困難的。 ? 切比雪夫定理含義 75%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 2個(gè)標(biāo)準(zhǔn)差之內(nèi); 89%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 3個(gè)標(biāo)準(zhǔn)差之內(nèi);( 6西格瑪質(zhì)量管理應(yīng)用) 94%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 4個(gè)標(biāo)準(zhǔn)差之內(nèi)。現(xiàn)在希望建立一套系統(tǒng),能夠使得市場(chǎng)部人員根據(jù)用戶的幾項(xiàng)關(guān)鍵的個(gè)人基本信息判斷該客戶的信用級(jí)別,從而有針對(duì)性地對(duì)其采用不同的市場(chǎng)營(yíng)銷策略。 Clementine Client和 Clementine Server通過(guò) SDL( Stream Description Language )之間進(jìn)行信息交換, Clementine Server和Database通過(guò) SQL語(yǔ)句進(jìn)行信息交換。 ? SPSS Data Access Pack。 ? Clementine Solution Publisher (Optional)。 Clementine運(yùn)行的兩種方式 ? 圖形界面方式 ? 適用操作系統(tǒng) – Windows系列 ? 特點(diǎn): – 圖形化界面 – 與客戶直接交互 – 適合交互式分析過(guò)程 命令行方式 使用操作系統(tǒng) – Windows系列 – Unix系列 特點(diǎn): ? 命令行操作 ? 不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫(kù)中 ? 適合于以下情況使用: 1. 運(yùn)行耗時(shí)較長(zhǎng)的建模過(guò)程 2. 希望在后臺(tái)運(yùn)行一些耗時(shí)較長(zhǎng)的數(shù)據(jù)準(zhǔn)備 3. 過(guò)程希望按照一定的時(shí)間定期運(yùn)行(比如每周、每月等) 4. 希望把 Clementine(數(shù)據(jù)挖掘過(guò)程)運(yùn)行過(guò)程嵌入應(yīng)用系統(tǒng)中 Clementine的界面和設(shè)計(jì)思路 ? 可視化界面 ? 四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū) ? 通過(guò)連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型 ? Clementine通過(guò) 6類結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是: – Source(源結(jié)點(diǎn) ):Database、 Var. Files等 – Record Ops (記錄處理結(jié)點(diǎn) ):Select、 Sample等 ` – Field Ops(字段處理結(jié)點(diǎn) ):Type、 Filter等 – Graphs(圖形結(jié)點(diǎn) ):Plot、 Distribute等 – Modeling(模型結(jié)點(diǎn) ):Neural Net、 – Output(輸出結(jié)點(diǎn) ):Table、 Matrix等 Clementine操作基本知識(shí) ? 鼠標(biāo)應(yīng)用 – 三鍵與雙鍵鼠標(biāo) – 左鍵 選擇節(jié)點(diǎn)或圖標(biāo)置于建模區(qū) – 右鍵 激活浮動(dòng)菜單 – 中鍵 連接或斷開兩個(gè)節(jié)點(diǎn) ? 幫助 Clementine操作基本知識(shí) ? 節(jié)點(diǎn)的增加,以 為例 – Click ―Sources‖, Click , Click ―流區(qū)域 ” – Click ―Sources‖, Double Click – Click ―Sources‖, Drag to ―流區(qū)域 ” ? 節(jié)點(diǎn)的刪除 – Click , Delete – Right Click , Click ―Delete‖ ? 節(jié)點(diǎn)的移動(dòng): Drag Clementine操作基本知識(shí) ? 節(jié)點(diǎn)的編輯 – Double Click – Right Click , Click ―Edit‖ ? 節(jié)點(diǎn)的重命名和解釋 – Right Click , Click ―Edit‖,Click ―Annotations‖ – Double Click , Click ―Annotations‖ – Right Click , Click ―Rename and Annotations‖ ? 拷貝、粘貼 Clementine操作基本知識(shí) ? 構(gòu)建流時(shí)節(jié)點(diǎn)的連接 – Highlight , Add to the Canvas – Right Click , Click ―Connect‖, Click – Drag the middle mutton from to ? 構(gòu)建流時(shí)節(jié)點(diǎn)連接的刪除 – Right Click or , Click ―Disconnect‖ – Right Click ―Connection‖, Click ―Delete Connection‖ – Double Click or Clementine操作基本知識(shí) ? 流的執(zhí)行 – Highlight “ Stream” , Click – Right Click , Click “ Execute” – In the Edit Window of the , Click “ Execute” ? 流的保存 ? 幫助 – Help Menu – Dialogue Window 一個(gè)例子 ——羅斯文商貿(mào)公司 ? 商業(yè)問(wèn)題: 微軟公司提供的案例數(shù)據(jù)庫(kù) —— 羅斯文商貿(mào)公司,如何對(duì)客戶價(jià)值進(jìn)行評(píng)估 ? 背景介紹: Microsoft數(shù)據(jù)庫(kù)產(chǎn)品( Access, SQL Server等 )中的一個(gè)示例數(shù)據(jù)庫(kù); ; ,見(jiàn)下頁(yè); ,以便采取有效的市場(chǎng)銷售策略。 數(shù)據(jù)描述 變量名稱 變量含義 備注 Age 年齡 Sex 性別 Value 消費(fèi)水平 分為高( high)、低 (low)和一般 (normal)三種 Range 聯(lián)系范圍 分為高( high)、低 (low)和一般 (normal)三種 WorkRatio 工作時(shí)段比例 01之間 DistanceRatio 長(zhǎng)話比例 01之間 Credit 信用級(jí)別 以下五種之一: gradeA、 gradeB 、 gradeC、 gradeX、gradeY 遵循 CRISPDM的數(shù)據(jù)挖掘過(guò)程 數(shù)據(jù)理解(數(shù)據(jù)流) 數(shù)據(jù)準(zhǔn)備(數(shù)據(jù)流) 建立模型(數(shù)據(jù)流) 模型評(píng)估(數(shù)據(jù)流) 結(jié)果發(fā)布(數(shù)據(jù)流) 商業(yè)理解(文檔) 在進(jìn)行數(shù)據(jù)挖掘過(guò)程中應(yīng)該注意的幾個(gè)問(wèn)題 ? 商業(yè)經(jīng)驗(yàn)的作用 ? 數(shù)據(jù)的拆分 —— 訓(xùn)練集與檢驗(yàn)集 ? 不同模型的印證與比較 結(jié)果發(fā)布 ? 信用級(jí)別靜態(tài)列表 ? 信用級(jí)別寫回?cái)?shù)據(jù)庫(kù) ? 實(shí)時(shí)判斷信用級(jí)別的分析應(yīng)用 三、數(shù)據(jù)理解:數(shù)據(jù)的可視化和報(bào)告 ? 數(shù)據(jù)組織形式 ? 數(shù)據(jù)圖形展現(xiàn) ? 數(shù)據(jù)表格展現(xiàn) 數(shù)據(jù)挖掘要求的數(shù)據(jù)格式 變量 1 變量 2 變量 3 記錄 1 …… …… …… 記錄 2 …… …… …… 記錄 3 …… …… …… …… …… …… …… …… …… ? 變量 ? 記錄 (行代表記錄,列代表變量 ) 數(shù)據(jù)尺度 ? 根據(jù)數(shù)據(jù)的不同,可以把變量分為以下一些類型 – 定類變量 ? 例如:客戶編號(hào)、性別、郵編等 ? 不能比較大小 – 定序變量 ? 產(chǎn)品等級(jí)、信用級(jí)別、客戶收入水平分類等 ? 可以比較大小、不能進(jìn)行加減運(yùn)算 – 定距變量 ? 出生日期、溫度等 ? 可以進(jìn)行加減運(yùn)算、不能進(jìn)行乘除運(yùn)算 – 定比變量 ? 收入、長(zhǎng)度等 ? 可以進(jìn)行乘除運(yùn)算 各類變量尺度比較 變量尺度 描述 例子 可進(jìn)行的運(yùn)算 定類 定類變量是離散變量,為了反映一個(gè)事物區(qū)別于其他事物的特征。 連續(xù)變量的經(jīng)驗(yàn)法則 ? 正態(tài)分布是一種最常用的連續(xù)型分布 ? 關(guān)于正態(tài)分布的經(jīng)驗(yàn)法則 68%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 1個(gè)標(biāo)準(zhǔn)差之內(nèi); 95%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 2個(gè)標(biāo)準(zhǔn)差之內(nèi); ( %)與平均數(shù)的距離在 3個(gè)標(biāo)準(zhǔn)差之內(nèi)。 Chapter 8 Neural Networks Chpater 8 Neural Networks ? 目的: –掌握如何在 Clementine中進(jìn)行 Neural Network 模型的構(gòu)建和解讀 –掌握 Neural Network節(jié)點(diǎn) ? 數(shù)據(jù): Chpater 8 Neural Networks ? 內(nèi)容 – Neural Net節(jié)點(diǎn)介紹 – 構(gòu)建 Neural Network – 模型管理區(qū)介紹 – 結(jié)果查看和結(jié)果解釋 – 模型預(yù)測(cè)值生成 – 模型評(píng)價(jià) – 理解預(yù)測(cè)原因 – 模型總結(jié) 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)技術(shù) 基本概念: 神經(jīng)元 三層結(jié)構(gòu) Neural Net節(jié)點(diǎn)介紹 ? 字段方向 Type節(jié)點(diǎn)或表 – InX字段 自變量字段 – OutY字段 結(jié)果字段 聚類、主成分分析除外 – Both自變量和結(jié)果字段 關(guān)聯(lián)規(guī)則或順序算法 – None不用字段 – IDtypelessNone ? 五種 Neural Net方法,默認(rèn) Quick ? 過(guò)度訓(xùn)練(長(zhǎng)時(shí)間接觸同一個(gè)數(shù)據(jù)源,并用同樣特征去描述其他數(shù)據(jù)集,結(jié)果往往錯(cuò)誤) ? 停止規(guī)則(避免過(guò)度訓(xùn)練) ? 字段的相對(duì)重要性分析 避免過(guò)度訓(xùn)練問(wèn)題 選擇測(cè)試集錯(cuò)誤較低,或者兩集錯(cuò)誤交叉點(diǎn) 構(gòu)建 Neural Network ? 例:用 age、 sex、 ine等來(lái)預(yù)測(cè)客戶的風(fēng)險(xiǎn)等級(jí) 模型管理區(qū)介紹 ? 瀏覽模型結(jié)果 ? 導(dǎo)出模型代碼 ? 將模型載入數(shù)據(jù)流 ? 將模型導(dǎo)入項(xiàng)目管理區(qū) ? 保存、清除、裝載模型管理區(qū) 結(jié)果查看和結(jié)果解釋 ? 結(jié)果的瀏覽: Right click generated ―model‖ ? 模型準(zhǔn)確性 ? 輸入字段或?qū)? ? 輸出字段或?qū)? ? 各輸入字段的相對(duì)重要性 模型預(yù)測(cè)值生成 將模型裝入數(shù)據(jù)流 $NRisk是 Neural Net對(duì)該記錄風(fēng)險(xiǎn)等級(jí) 的預(yù)測(cè)值 $NCRisk是 $NRisk的置信度( confidence) 模型評(píng)價(jià) 預(yù)測(cè)值與實(shí)際值的比較 ? 利用 Matrix比較 ,通常關(guān)注的不是整體,例如欠費(fèi)用戶群而不是整個(gè)用戶群。RT的相似之處:構(gòu)建決策樹,按照自變量與結(jié)果變量的關(guān)系將數(shù)據(jù)拆分成各子群 ? Camp。 –例如:根據(jù)各種指數(shù)的取值范圍,將模式相近的指數(shù)的聚為一類。 多值( set)問(wèn)題向二值問(wèn)題的轉(zhuǎn)化( flag) ? 多值集合變量向幾個(gè)二值變量的轉(zhuǎn)化(設(shè)為標(biāo)志) ? 由 Clementine中神經(jīng)網(wǎng)絡(luò)算法想起的 …… 多個(gè)輸出變量; 如果把二值變量問(wèn)題再轉(zhuǎn)化成多值變量問(wèn)題。RT – Logistic ? 連續(xù)變量預(yù)測(cè)問(wèn)題可以通過(guò)某種形式轉(zhuǎn)化為離散變量預(yù)測(cè)問(wèn)題 ? 多值變量問(wèn)題可以轉(zhuǎn)化為兩值預(yù)測(cè)問(wèn)題 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)指標(biāo) 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)圖形 ( Gains) ( Response) ( Lift) ( Profit) ( ROI) 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)圖形 什么是組合模型 ? 在數(shù)據(jù)挖掘模型中,每種模型都有各自的優(yōu)點(diǎn)和缺陷,為了更好的利用模型的優(yōu)點(diǎn),在 Clementine中可以把不同模型通過(guò)一定的方式組合在一起以解決特定的問(wèn)題 ? 為了提高模型的精確度,我們可以把多個(gè)模型通過(guò)某種方式組合在一起 組合模型類型 ? 為了提高模型的可解釋性,可以應(yīng)用 對(duì)預(yù)測(cè)或者聚類結(jié)果進(jìn)行解釋 ? 為了得到各指標(biāo)對(duì)模型影響的重要程度,可以應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)指標(biāo)重要性進(jìn)行分析 ? 可以通過(guò)模型的特定組合提高模型的準(zhǔn)確性 ——下面以數(shù)據(jù)挖掘模型中最常用的二值預(yù)測(cè)來(lái)說(shuō)明組合模型如何能夠提供模型的準(zhǔn)確性 二值預(yù)測(cè)是數(shù)據(jù)挖掘中重要問(wèn)題 ? 二值預(yù)測(cè)問(wèn)題是個(gè)非常常見(jiàn)的數(shù)據(jù)挖掘問(wèn)題 流失、客戶獲得、欠費(fèi)、欺詐 …… ? 多值預(yù)測(cè)可以轉(zhuǎn)化為二值預(yù)測(cè)問(wèn)題 ? 連續(xù)預(yù)測(cè)問(wèn)題可以轉(zhuǎn)化為多值預(yù)測(cè)問(wèn)題 二值預(yù)測(cè)結(jié)果的可能表達(dá)方式 1. T or F,我們稱為預(yù)測(cè)值; 2. 預(yù)測(cè)值為 T,預(yù)測(cè)準(zhǔn)確率為 P;或者預(yù)測(cè)值為 F,預(yù)測(cè)準(zhǔn)確率為 P; 3. T的概率為 p,稱為預(yù)測(cè)評(píng)分 (scoring)。發(fā)現(xiàn)個(gè)體與變量間的綜合關(guān)系。RT介紹 – 構(gòu)建 – 決策樹型結(jié)果瀏覽和解釋 – 規(guī)則集型結(jié)果瀏覽和解釋 –
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1