freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓(xùn)手冊(cè)(存儲(chǔ)版)

  

【正文】 模型預(yù)測(cè)值生成 – 模型評(píng)價(jià) – 模型總結(jié) 、 Camp。 ? 不同的時(shí)間區(qū)域常常需要不同的預(yù)測(cè)方法 ,形式上難以統(tǒng)一 。 平均數(shù)與標(biāo)準(zhǔn)差的應(yīng)用 ? 切比雪夫定理 在任何一個(gè)數(shù)據(jù)集中,至少有 (11/z2 )的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 z個(gè)標(biāo)準(zhǔn)差之內(nèi),其中 z是任意大于 1的值。 一個(gè)數(shù)據(jù)挖掘的實(shí)例 ——客戶信用級(jí)別判斷系統(tǒng) 問(wèn)題的提出 ? 如何通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn)小靈通信用級(jí)別的判斷系統(tǒng) ? 某電信公司按照某種標(biāo)準(zhǔn)將小靈通客戶信用等級(jí)分為 5類(lèi),分別是 gradeA、 gradeB 、gradeC、 gradeX、 gradeY。 在三層結(jié)構(gòu)下通過(guò) Clementine Server進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。 ? Clementine Batch。 Clementine的兩種運(yùn)行方式 ? 單機(jī)版運(yùn)行 ? 以下情況必須使用單機(jī)版運(yùn)行: – 數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)上共享; – 機(jī)器不聯(lián)網(wǎng); – 無(wú) Clementine Server可供使用。 羅斯林商貿(mào)公司數(shù)據(jù) 羅斯文商貿(mào)公司統(tǒng)計(jì)問(wèn)題 ? 數(shù)據(jù)挖掘問(wèn)題: ( 1)如何描述客戶價(jià)值? —— 購(gòu)買(mǎi)總金額?購(gòu)買(mǎi)頻次?平均每次購(gòu)買(mǎi)金額?最近購(gòu)買(mǎi)金額?它們的線性組合? —— 使用最簡(jiǎn)單的購(gòu)買(mǎi)總金額 ( 2)需要什么樣的數(shù)據(jù)挖掘方法? —— 描述匯總?分類(lèi)?預(yù)測(cè)?概念描述?細(xì)分?相關(guān)分析? —— 使用最簡(jiǎn)單的描述匯總 ( 3)需要的數(shù)據(jù)從哪里來(lái)? —— 從以下幾個(gè)來(lái)源: ?客戶 ?訂單 ?訂單明細(xì) 羅斯文商貿(mào)公司商業(yè)問(wèn)題解決方案 ? 商業(yè)問(wèn)題解決方案 從所有客戶中找出最有價(jià)值的 10個(gè)客戶,將名單發(fā)給市場(chǎng)部門(mén),讓其對(duì)這些客戶進(jìn)行更多的關(guān)注 Clementine的優(yōu)化 包括兩個(gè)方面的優(yōu)化 –結(jié)構(gòu)優(yōu)化 –用戶優(yōu)化 結(jié)構(gòu)優(yōu)化 ? 把中間結(jié)果存儲(chǔ)在 Server上(盡量使用server版處理) ? 從數(shù)據(jù)流上整理考慮的執(zhí)行數(shù)據(jù)流(能一步完成的處理盡量不要分解到多個(gè)執(zhí)行) ? 減少數(shù)據(jù)的遷移(數(shù)據(jù)提前進(jìn)行規(guī)劃) 用戶優(yōu)化 ?自動(dòng)優(yōu)化數(shù)據(jù)流:當(dāng)使用這一選項(xiàng)時(shí),Clementine將重寫(xiě)數(shù)據(jù)流以使效率最高(可以通過(guò) Clementine Server中的sql_rewriting_enabled來(lái)調(diào)整是否可以使用) SQL生成。只能進(jìn)行等于或者不等于的比較。 切比雪夫和經(jīng)驗(yàn)法則的應(yīng)用 ? 問(wèn)題 某單位有 100個(gè)人,他們的平均身高是 170cm,標(biāo)準(zhǔn)差為 5cm,那么有多少人的身高是落在 160cm180cm這個(gè)區(qū)間里的呢? ? 經(jīng)驗(yàn)法則的應(yīng)用 – 根據(jù)切比雪夫定理,該單位至少有 75%的人身高在 160cm—180cm這個(gè)區(qū)間里 – 根據(jù)正態(tài)分布經(jīng)驗(yàn)法則,該單位大約有 95%的人身高在 160cm—180cm這個(gè)區(qū)間里 反映連續(xù)數(shù)據(jù)分布狀況的指標(biāo) ? 偏度 ? 峰度 531135.8.6.4.20 . 0N ( 0 , 1 )N ( 2 , 0 . 5 )圖形展現(xiàn)數(shù)據(jù) 圖形技術(shù)的應(yīng)用 ? 圖形可以用來(lái)直觀的展示數(shù)據(jù)的分布特征和取值情況 ? 常見(jiàn)的描述離散變量的圖形有 條形圖 餅形圖 ? 常見(jiàn)的描述連續(xù)變量的圖形有 直方圖 ? 常見(jiàn)的描述兩個(gè)離散變量之間關(guān)系的圖形有 Web圖 條形圖 ? 常見(jiàn)的描述兩個(gè)連續(xù)變量之間關(guān)系的圖形有 散點(diǎn)圖 ? 常見(jiàn)的描述一個(gè)離散變量和一個(gè)連續(xù)變量之間關(guān)系的圖形是 條形圖 通過(guò)圖形可以表現(xiàn)多個(gè)變量之間的關(guān)系 Chapter 2 Clementine 簡(jiǎn)介 Chapter 2 Clementine 簡(jiǎn)介 ? 目的: –初步了解 Clementine軟件 ? 內(nèi)容: – SPSS Clementine C/S – SPSS Clementine 面板 – SPSS Clementine 可視化程序使用基礎(chǔ) ? 節(jié)點(diǎn) – SPSS file 節(jié)點(diǎn) – Table 節(jié)點(diǎn) Clementine C/S ? 啟動(dòng): – Start..Programs..Clementine … ? Clementine and Clementine Server –Tools…Server Login 1. 把很多操作放在 數(shù)據(jù)庫(kù)層面上執(zhí)行 2. 不能在數(shù)據(jù)庫(kù)中執(zhí)行的操作 放在強(qiáng)有力的 Server上執(zhí)行 3. 客戶端只用于觀察 結(jié)果和發(fā)出分析挖掘 指令 4. 數(shù)據(jù)不必在網(wǎng)絡(luò)上進(jìn)行 大量無(wú)效的傳輸 . Clementine的結(jié)構(gòu)示意圖 Clementine 面板 流區(qū)域 Stream canvas 菜單欄 工具欄 面板區(qū) pallete 節(jié)點(diǎn)區(qū) node 流、結(jié)果、 模型管理區(qū) 項(xiàng)目管理區(qū) 第二講:數(shù)據(jù)簡(jiǎn)單準(zhǔn)備與理解 ?數(shù)據(jù)準(zhǔn)備之讀入數(shù)據(jù) ?數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量 ?數(shù)據(jù)理解之?dāng)?shù)據(jù)分布 Chapter 3 讀取數(shù)據(jù)文件 Chapter 3 讀取數(shù)據(jù)文件 ? 目的 –掌握 Clementine如何讀取文本格式數(shù)據(jù) –了解 Clementine可以讀取的數(shù)據(jù)格式 –掌握 Clementine中的字段類(lèi)型和方向 ? 數(shù)據(jù) – Chapter 3 讀取數(shù)據(jù)文件 ? 內(nèi)容及節(jié)點(diǎn): – Clementine可以讀取的數(shù)據(jù)格式 – 讀取文本數(shù)據(jù)與查看數(shù)據(jù) – 讀取 SPSS數(shù)據(jù) – 讀取數(shù)據(jù)庫(kù)數(shù)據(jù)(專(zhuān)用 spss配置的鏈接) – Clementine中的字段類(lèi)型 – Clementine中的字段方向 – 保存 Clementine流 Clementine可以讀取的數(shù)據(jù)格式 ? 文本格式數(shù)據(jù) ? SPSS/SAS數(shù)據(jù) ? Excel, Access, dBase, Foxpro, Oracle,SQL Server, DB2等數(shù)據(jù)庫(kù)(每次只能讀一個(gè)表) ? 用戶輸入數(shù)據(jù) 讀取文本數(shù)據(jù)與查看數(shù)據(jù) 讀取文本數(shù)據(jù)與查看數(shù)據(jù) 讀取文本數(shù)據(jù)與查看數(shù)據(jù) 讀取文本數(shù)據(jù)與查看數(shù)據(jù) 讀取文本數(shù)據(jù)與查看數(shù)據(jù) 讀取 SPSS數(shù)據(jù) ? 變量標(biāo)簽 ? 值標(biāo)簽 讀取數(shù)據(jù)庫(kù)數(shù)據(jù) ? ODBC設(shè)置 ?數(shù)據(jù)庫(kù) 表 Clementine中的字段類(lèi)型 ? 離散型 – 二分 eg: sex: m/f – 多分 eg:等級(jí):好 /中 /差 – 離散 eg: ? 連續(xù)型 – 整數(shù) – 實(shí)數(shù) – 日期、時(shí)間 ? 其它 Clementine中的字段方向 讀取其它格式的數(shù)據(jù) ? Sas ? Fixed text file:同一字段在各行的同一列 Chapter 4 數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量 Chapter 4 數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量 ? 目的: – 掌握如何應(yīng)用 Clementine發(fā)現(xiàn)數(shù)據(jù)的準(zhǔn)確性、完整性 – 熟悉用于數(shù)據(jù)質(zhì)量分析的幾個(gè)節(jié)點(diǎn) ? 內(nèi)容: – 數(shù)據(jù)理解 – 缺失值定義 – Quality節(jié)點(diǎn)介紹 – Distribution節(jié)點(diǎn) 初步理解字符型字段的分布 – Histogram/Statistics節(jié)點(diǎn) 初步理解數(shù)值型字段的分布 ? 數(shù)據(jù): – – 數(shù)據(jù)理解的內(nèi)容 ? 對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià) ? 對(duì)數(shù)據(jù)進(jìn)行初步的描述 ? 對(duì)數(shù)據(jù)之間的關(guān)系進(jìn)行探索性分析 數(shù)據(jù)理解 ? 在數(shù)據(jù)挖掘之前,理解數(shù)據(jù)的取值范圍及數(shù)值分布是非常重要的 – Histogram/Statistics – Distribution ? 數(shù)據(jù)質(zhì)量越高,挖掘結(jié)果準(zhǔn)確性越高 – Quality 缺失值定義 ? Missing values are values in the data set that are unknown, uncollected, or incorrectly entered. They are invalid for their fields. ? 缺失值的定義: type節(jié)點(diǎn) – 系統(tǒng)默認(rèn)缺失值 on ? Null數(shù)值型字段 空值 ―‖―$Null‖ ? Empty String 字符型字段 空值 ―‖ ? White Space 字符型字段 空值以及空格值 ―‖或“ ” 包括 Empty String – 指定缺失值 Blank Value ? 系統(tǒng)默認(rèn)缺失值 ? 指定特殊缺失值 ―99‖ ? 缺失值的檢查: quality節(jié)點(diǎn) 缺失值定義 缺失值定義 ? 數(shù)據(jù)缺失情況 –數(shù)據(jù)量的大小 –包含缺失值的字段的數(shù)量 –缺失值的數(shù)量 ? 缺失值的處理方法 –忽略含缺失值的字段 –忽略含缺失值的記錄 –默認(rèn)值代替缺失值 –根據(jù)一定規(guī)則填充缺失值 Quality節(jié)點(diǎn)介紹 ? 查看缺失值情況 ? 查看各類(lèi)型缺失值的分布情況 ? Blank Value的指定 Quality節(jié)點(diǎn)介紹 ? Quality結(jié)果 Distribution節(jié)點(diǎn) 初步理解字符型字段的分布 ? 單個(gè)字段的值分布 –例:人群中各種風(fēng)險(xiǎn)等級(jí)人數(shù)及百分比 ? 與其它分類(lèi)字段合并 –例:分性別顯示各種風(fēng)險(xiǎn)等級(jí)人數(shù)及百分比 –例:各種風(fēng)險(xiǎn)等級(jí)中男性女性各占比例 Histogram/Statistics節(jié)點(diǎn)初步理解數(shù)值型字段的分布 ? 單個(gè)字段的值分布 – 例:人群收入水平 ? 與其它分類(lèi)字段合并 – 例:顯示各種風(fēng)險(xiǎn)等級(jí)的收入水平 – 例:顯示各收入水平的各風(fēng)險(xiǎn)等級(jí)比例 Chapter 5 簡(jiǎn)單數(shù)據(jù)整理 Chapter 5 簡(jiǎn)單數(shù)據(jù)整理 ? 目的: – 掌握 Clementine中的數(shù)據(jù)整理技術(shù) – 熟悉用于數(shù)據(jù)整理的幾個(gè)節(jié)點(diǎn) ? 內(nèi)容 – Clem語(yǔ)言簡(jiǎn)介 – Select節(jié)點(diǎn)介紹 – Filter節(jié)點(diǎn)介紹 – Derive節(jié)點(diǎn)介紹 – 自動(dòng)生成操作節(jié)點(diǎn) ? 數(shù)據(jù) – – Clem語(yǔ)言簡(jiǎn)介 ? Clementine Language of Expression Manipulation ? 應(yīng)用節(jié)點(diǎn): Derive導(dǎo)出 , Select選擇 , Filter過(guò)濾 ? 構(gòu)建材料:函數(shù)、符號(hào)、數(shù)字、字段 ? 記錄敏感:對(duì)每條記錄返回值(整數(shù)、實(shí)數(shù)、布爾值、字符值、日期、時(shí)間)或評(píng)估是否滿足條件 ? 兩種表達(dá)式:條件表達(dá)式與計(jì)算表達(dá)式 Select節(jié)點(diǎn)介紹 ? 用于根據(jù)一定條件選擇或丟棄某些記錄 ? CLEM構(gòu)建 Filter節(jié)點(diǎn)介紹 ? 對(duì)某些字段進(jìn)行重命名或丟棄某些無(wú)意義的字段 ? 無(wú)意義字段 –缺失值占大比例 –所有記錄有相同值 –中間過(guò)程生成的中間變量 Derive節(jié)點(diǎn)介紹 ? 根據(jù)原有字段值生成新字段值 –按公式生成字段 –生成二分型字段 –生成多分型字段 ? 對(duì)所有記錄按同樣標(biāo)準(zhǔn)生成新字段 ? 對(duì)不同記錄按不同標(biāo)準(zhǔn)生成新字段 ? 對(duì)多個(gè)字段進(jìn)行同一轉(zhuǎn)換 Derive節(jié)點(diǎn)介紹 可以利用導(dǎo)出把連續(xù)數(shù)據(jù)離散化(導(dǎo)出為標(biāo)志及集合),以進(jìn)一步分析 自動(dòng)生成操作節(jié)點(diǎn) ? 自動(dòng)生成“ Select‖ ? 自動(dòng)生成“ Filter‖ 第三講主要內(nèi)容 ? 數(shù)據(jù)理解之?dāng)?shù)據(jù)關(guān)系探測(cè) ? 基本建模方法簡(jiǎn)要介紹 Chapter 6 數(shù)據(jù)理解之 數(shù)據(jù)間簡(jiǎn)單關(guān)系 Chapter 6 數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡(jiǎn)單關(guān)系 ? 目的: – 掌握如何理解字段間關(guān)系 – 熟悉用于字段關(guān)系理解的幾個(gè)節(jié)點(diǎn) ? 內(nèi)容 – Matrix節(jié)點(diǎn) 研究字符型字段間關(guān)系 – Web節(jié)點(diǎn) 研究字符型字段間關(guān)系 – Statistics節(jié)點(diǎn) 研究連續(xù)型字段間線性相關(guān)關(guān)系 – Plot節(jié)點(diǎn) 研究連續(xù)型字段間關(guān)系 – Histogram節(jié)點(diǎn) 研究連續(xù)型字段與字符型字段的關(guān)系 ? 數(shù)據(jù) – Chapter 6 數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡(jiǎn)單關(guān)系 ? 解決問(wèn)題 –風(fēng)險(xiǎn)等級(jí)是否與收入有關(guān) –風(fēng)險(xiǎn)等級(jí)是否與性別有關(guān) –如果一個(gè)人的信用卡數(shù)量較多,是否意味著它欺詐的可能性也大 Matrix節(jié)點(diǎn) 研究字符型字段間關(guān)系 ? 解決問(wèn)題 –月付款的人是否比周付款的
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1