freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓(xùn)手冊(留存版)

2025-11-05 09:03上一頁面

下一頁面
  

【正文】 紹 – 構(gòu)建 Neural Network – 模型管理區(qū)介紹 – 結(jié)果查看和結(jié)果解釋 – 模型預(yù)測值生成 – 模型評價(jià) – 理解預(yù)測原因 – 模型總結(jié) 神經(jīng)網(wǎng)絡(luò)模型預(yù)測技術(shù) 基本概念: 神經(jīng)元 三層結(jié)構(gòu) Neural Net節(jié)點(diǎn)介紹 ? 字段方向 Type節(jié)點(diǎn)或表 – InX字段 自變量字段 – OutY字段 結(jié)果字段 聚類、主成分分析除外 – Both自變量和結(jié)果字段 關(guān)聯(lián)規(guī)則或順序算法 – None不用字段 – IDtypelessNone ? 五種 Neural Net方法,默認(rèn) Quick ? 過度訓(xùn)練(長時(shí)間接觸同一個(gè)數(shù)據(jù)源,并用同樣特征去描述其他數(shù)據(jù)集,結(jié)果往往錯(cuò)誤) ? 停止規(guī)則(避免過度訓(xùn)練) ? 字段的相對重要性分析 避免過度訓(xùn)練問題 選擇測試集錯(cuò)誤較低,或者兩集錯(cuò)誤交叉點(diǎn) 構(gòu)建 Neural Network ? 例:用 age、 sex、 ine等來預(yù)測客戶的風(fēng)險(xiǎn)等級 模型管理區(qū)介紹 ? 瀏覽模型結(jié)果 ? 導(dǎo)出模型代碼 ? 將模型載入數(shù)據(jù)流 ? 將模型導(dǎo)入項(xiàng)目管理區(qū) ? 保存、清除、裝載模型管理區(qū) 結(jié)果查看和結(jié)果解釋 ? 結(jié)果的瀏覽: Right click generated ―model‖ ? 模型準(zhǔn)確性 ? 輸入字段或?qū)? ? 輸出字段或?qū)? ? 各輸入字段的相對重要性 模型預(yù)測值生成 將模型裝入數(shù)據(jù)流 $NRisk是 Neural Net對該記錄風(fēng)險(xiǎn)等級 的預(yù)測值 $NCRisk是 $NRisk的置信度( confidence) 模型評價(jià) 預(yù)測值與實(shí)際值的比較 ? 利用 Matrix比較 ,通常關(guān)注的不是整體,例如欠費(fèi)用戶群而不是整個(gè)用戶群。 數(shù)據(jù)描述 變量名稱 變量含義 備注 Age 年齡 Sex 性別 Value 消費(fèi)水平 分為高( high)、低 (low)和一般 (normal)三種 Range 聯(lián)系范圍 分為高( high)、低 (low)和一般 (normal)三種 WorkRatio 工作時(shí)段比例 01之間 DistanceRatio 長話比例 01之間 Credit 信用級別 以下五種之一: gradeA、 gradeB 、 gradeC、 gradeX、gradeY 遵循 CRISPDM的數(shù)據(jù)挖掘過程 數(shù)據(jù)理解(數(shù)據(jù)流) 數(shù)據(jù)準(zhǔn)備(數(shù)據(jù)流) 建立模型(數(shù)據(jù)流) 模型評估(數(shù)據(jù)流) 結(jié)果發(fā)布(數(shù)據(jù)流) 商業(yè)理解(文檔) 在進(jìn)行數(shù)據(jù)挖掘過程中應(yīng)該注意的幾個(gè)問題 ? 商業(yè)經(jīng)驗(yàn)的作用 ? 數(shù)據(jù)的拆分 —— 訓(xùn)練集與檢驗(yàn)集 ? 不同模型的印證與比較 結(jié)果發(fā)布 ? 信用級別靜態(tài)列表 ? 信用級別寫回?cái)?shù)據(jù)庫 ? 實(shí)時(shí)判斷信用級別的分析應(yīng)用 三、數(shù)據(jù)理解:數(shù)據(jù)的可視化和報(bào)告 ? 數(shù)據(jù)組織形式 ? 數(shù)據(jù)圖形展現(xiàn) ? 數(shù)據(jù)表格展現(xiàn) 數(shù)據(jù)挖掘要求的數(shù)據(jù)格式 變量 1 變量 2 變量 3 記錄 1 …… …… …… 記錄 2 …… …… …… 記錄 3 …… …… …… …… …… …… …… …… …… ? 變量 ? 記錄 (行代表記錄,列代表變量 ) 數(shù)據(jù)尺度 ? 根據(jù)數(shù)據(jù)的不同,可以把變量分為以下一些類型 – 定類變量 ? 例如:客戶編號、性別、郵編等 ? 不能比較大小 – 定序變量 ? 產(chǎn)品等級、信用級別、客戶收入水平分類等 ? 可以比較大小、不能進(jìn)行加減運(yùn)算 – 定距變量 ? 出生日期、溫度等 ? 可以進(jìn)行加減運(yùn)算、不能進(jìn)行乘除運(yùn)算 – 定比變量 ? 收入、長度等 ? 可以進(jìn)行乘除運(yùn)算 各類變量尺度比較 變量尺度 描述 例子 可進(jìn)行的運(yùn)算 定類 定類變量是離散變量,為了反映一個(gè)事物區(qū)別于其他事物的特征。 ? Clementine Solution Publisher (Optional)。 Clementine Client和 Clementine Server通過 SDL( Stream Description Language )之間進(jìn)行信息交換, Clementine Server和Database通過 SQL語句進(jìn)行信息交換。 ? 切比雪夫定理含義 75%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 2個(gè)標(biāo)準(zhǔn)差之內(nèi); 89%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 3個(gè)標(biāo)準(zhǔn)差之內(nèi);( 6西格瑪質(zhì)量管理應(yīng)用) 94%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 4個(gè)標(biāo)準(zhǔn)差之內(nèi)。RT介紹 ? Camp。 和置信度區(qū)分 例:以預(yù)測流失為例 1. 預(yù)測客戶 A流失; 2. 預(yù)測客戶 B不流失,把握程度為 ; 3. 預(yù)測客戶 C的流失概率為 。 –例如:根據(jù)各省市的各種經(jīng)濟(jì)指數(shù)將所有的省市分為幾個(gè)等級。 ? 因?yàn)椴煌念A(yù)測方法在復(fù)雜性、數(shù)據(jù)要求以及準(zhǔn)確程度上均不同 ,因此選擇一個(gè)合適的預(yù)測方法是很困難的?,F(xiàn)在希望建立一套系統(tǒng),能夠使得市場部人員根據(jù)用戶的幾項(xiàng)關(guān)鍵的個(gè)人基本信息判斷該客戶的信用級別,從而有針對性地對其采用不同的市場營銷策略。 ? SPSS Data Access Pack。 Clementine運(yùn)行的兩種方式 ? 圖形界面方式 ? 適用操作系統(tǒng) – Windows系列 ? 特點(diǎn): – 圖形化界面 – 與客戶直接交互 – 適合交互式分析過程 命令行方式 使用操作系統(tǒng) – Windows系列 – Unix系列 特點(diǎn): ? 命令行操作 ? 不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫中 ? 適合于以下情況使用: 1. 運(yùn)行耗時(shí)較長的建模過程 2. 希望在后臺運(yùn)行一些耗時(shí)較長的數(shù)據(jù)準(zhǔn)備 3. 過程希望按照一定的時(shí)間定期運(yùn)行(比如每周、每月等) 4. 希望把 Clementine(數(shù)據(jù)挖掘過程)運(yùn)行過程嵌入應(yīng)用系統(tǒng)中 Clementine的界面和設(shè)計(jì)思路 ? 可視化界面 ? 四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū) ? 通過連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型 ? Clementine通過 6類結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是: – Source(源結(jié)點(diǎn) ):Database、 Var. Files等 – Record Ops (記錄處理結(jié)點(diǎn) ):Select、 Sample等 ` – Field Ops(字段處理結(jié)點(diǎn) ):Type、 Filter等 – Graphs(圖形結(jié)點(diǎn) ):Plot、 Distribute等 – Modeling(模型結(jié)點(diǎn) ):Neural Net、 – Output(輸出結(jié)點(diǎn) ):Table、 Matrix等 Clementine操作基本知識 ? 鼠標(biāo)應(yīng)用 – 三鍵與雙鍵鼠標(biāo) – 左鍵 選擇節(jié)點(diǎn)或圖標(biāo)置于建模區(qū) – 右鍵 激活浮動菜單 – 中鍵 連接或斷開兩個(gè)節(jié)點(diǎn) ? 幫助 Clementine操作基本知識 ? 節(jié)點(diǎn)的增加,以 為例 – Click ―Sources‖, Click , Click ―流區(qū)域 ” – Click ―Sources‖, Double Click – Click ―Sources‖, Drag to ―流區(qū)域 ” ? 節(jié)點(diǎn)的刪除 – Click , Delete – Right Click , Click ―Delete‖ ? 節(jié)點(diǎn)的移動: Drag Clementine操作基本知識 ? 節(jié)點(diǎn)的編輯 – Double Click – Right Click , Click ―Edit‖ ? 節(jié)點(diǎn)的重命名和解釋 – Right Click , Click ―Edit‖,Click ―Annotations‖ – Double Click , Click ―Annotations‖ – Right Click , Click ―Rename and Annotations‖ ? 拷貝、粘貼 Clementine操作基本知識 ? 構(gòu)建流時(shí)節(jié)點(diǎn)的連接 – Highlight , Add to the Canvas – Right Click , Click ―Connect‖, Click – Drag the middle mutton from to ? 構(gòu)建流時(shí)節(jié)點(diǎn)連接的刪除 – Right Click or , Click ―Disconnect‖ – Right Click ―Connection‖, Click ―Delete Connection‖ – Double Click or Clementine操作基本知識 ? 流的執(zhí)行 – Highlight “ Stream” , Click – Right Click , Click “ Execute” – In the Edit Window of the , Click “ Execute” ? 流的保存 ? 幫助 – Help Menu – Dialogue Window 一個(gè)例子 ——羅斯文商貿(mào)公司 ? 商業(yè)問題: 微軟公司提供的案例數(shù)據(jù)庫 —— 羅斯文商貿(mào)公司,如何對客戶價(jià)值進(jìn)行評估 ? 背景介紹: Microsoft數(shù)據(jù)庫產(chǎn)品( Access, SQL Server等 )中的一個(gè)示例數(shù)據(jù)庫; ; ,見下頁; ,以便采取有效的市場銷售策略。 連續(xù)變量的經(jīng)驗(yàn)法則 ? 正態(tài)分布是一種最常用的連續(xù)型分布 ? 關(guān)于正態(tài)分布的經(jīng)驗(yàn)法則 68%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 1個(gè)標(biāo)準(zhǔn)差之內(nèi); 95%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 2個(gè)標(biāo)準(zhǔn)差之內(nèi); ( %)與平均數(shù)的距離在 3個(gè)標(biāo)準(zhǔn)差之內(nèi)。RT的相似之處:構(gòu)建決策樹,按照自變量與結(jié)果變量的關(guān)系將數(shù)據(jù)拆分成各子群 ? Camp。 多值( set)問題向二值問題的轉(zhuǎn)化( flag) ? 多值集合變量向幾個(gè)二值變量的轉(zhuǎn)化(設(shè)為標(biāo)志) ? 由 Clementine中神經(jīng)網(wǎng)絡(luò)算法想起的 …… 多個(gè)輸出變量; 如果把二值變量問題再轉(zhuǎn)化成多值變量問題。發(fā)現(xiàn)個(gè)體與變量間的綜合關(guān)系。 ? 不同的時(shí)間區(qū)域常常需要不同的預(yù)測方法 ,形式上難以統(tǒng)一 。 一個(gè)數(shù)據(jù)挖掘的實(shí)例 ——客戶信用級別判斷系統(tǒng) 問題的提出 ? 如何通過數(shù)據(jù)挖掘?qū)崿F(xiàn)小靈通信用級別的判斷系統(tǒng) ? 某電信公司按照某種標(biāo)準(zhǔn)將小靈通客戶信用等級分為 5類,分別是 gradeA、 gradeB 、gradeC、 gradeX、 gradeY。 ? Clementine Batch。 羅斯林商貿(mào)公司數(shù)據(jù) 羅斯文商貿(mào)公司統(tǒng)計(jì)問題 ? 數(shù)據(jù)挖掘問題: ( 1)如何描述客戶價(jià)值? —— 購買總金額?購買頻次?平均每次購買金額?最近購買金額?它們的線性組合? —— 使用最簡單的購買總金額 ( 2)需要什么樣的數(shù)據(jù)挖掘方法? —— 描述匯總?分類?預(yù)測?概念描述?細(xì)分?相關(guān)分析? —— 使用最簡單的描述匯總 ( 3)需要的數(shù)據(jù)從哪里來? —— 從以下幾個(gè)來源: ?客戶 ?訂單 ?訂單明細(xì) 羅斯文商貿(mào)公司商業(yè)問題解決方案 ? 商業(yè)問題解決方案 從所有客戶中找出最有價(jià)值的 10個(gè)客戶,將名單發(fā)給市場部門,讓其對這些客戶進(jìn)行更多的關(guān)注 Clementine的優(yōu)化 包括兩個(gè)方面的優(yōu)化 –結(jié)構(gòu)優(yōu)化 –用戶優(yōu)化 結(jié)構(gòu)優(yōu)化 ? 把中間結(jié)果存儲在 Server上(盡量使用server版處理) ? 從數(shù)據(jù)流上整理考慮的執(zhí)行數(shù)據(jù)流(能一步完成的處理盡量不要分解到多個(gè)執(zhí)行) ? 減少數(shù)據(jù)的遷移(數(shù)據(jù)提前進(jìn)行規(guī)劃) 用戶優(yōu)化 ?自動優(yōu)化數(shù)據(jù)流:當(dāng)使用這一選項(xiàng)時(shí),Clementine將重寫數(shù)據(jù)流以使效率最高(可以通過 Clementine Server中的sql_rewriting_enabled來調(diào)整是否可以使用) SQL生成。 切比雪夫和經(jīng)驗(yàn)法則的應(yīng)用 ? 問題 某單位有 100個(gè)人,他們的平均身高是 170cm,標(biāo)準(zhǔn)差為 5cm,那么有多少人的身高是落在 160cm180cm這個(gè)區(qū)間里的呢? ? 經(jīng)驗(yàn)法則的應(yīng)用 – 根據(jù)切比雪夫定理,該單位至少有 75%的人身高在 160cm—180cm這個(gè)區(qū)間里 – 根據(jù)正態(tài)分布經(jīng)驗(yàn)法則,該單位大約有 95%的人身高在 160cm—180cm這個(gè)區(qū)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1