freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓(xùn)手冊(cè)(專業(yè)版)

2025-10-31 09:03上一頁面

下一頁面
  

【正文】 ; ; 。 Symbolic Output ? Distribuiton節(jié)點(diǎn) —Symbolic Input amp。 客戶等級(jí)、信用級(jí)別、收入水平分類 中位數(shù)、累計(jì)百分比、秩相關(guān)、游程檢驗(yàn) 定距 定距變量是連續(xù)變量,可以比較大小,并且進(jìn)行加減運(yùn)算。 ? C/S結(jié)構(gòu)運(yùn)行 ? 以下情況必須使用 C/S結(jié)構(gòu)運(yùn)行: – 單機(jī)內(nèi)存或者硬盤不夠大,難以運(yùn)行大量數(shù)據(jù); – 單機(jī)上沒有或者無法配置數(shù)據(jù)連結(jié),無法從數(shù)據(jù)庫中獲取數(shù)據(jù); – 組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。 ? 以下情況可以使用 C/S結(jié)構(gòu)運(yùn)行: ? 要處理的數(shù)據(jù)量很大,并且存儲(chǔ)在可以通過 SPSS Data Access技術(shù)可到達(dá)的數(shù)據(jù)庫處; ? 單機(jī)速度慢, Clementine Server運(yùn)行的機(jī)器配置高。 日期、利潤 平均值、標(biāo)準(zhǔn)差、皮爾遜相關(guān)、 t檢驗(yàn)和 F檢驗(yàn) 定比 定比變量是連續(xù)變量,可以進(jìn)行加減乘除各類運(yùn)算。 Symbolic Output ? Histogram節(jié)點(diǎn) Numeric Input amp。 Clementine中提供的模型概述 Data Mining Model Supervised Model (Predictive Model) Unsupervised Model Data Reduction Neural Networks Camp。 Chapter 12 關(guān)聯(lián)規(guī)則 Chpater 12 關(guān)聯(lián)規(guī)則 ? 目的 – 掌握關(guān)聯(lián)規(guī)則在 Clementine中的建立、結(jié)果解釋 – 掌握 Apriori節(jié)點(diǎn) 無監(jiān)督的探索性模型 ? 內(nèi)容 – 關(guān)聯(lián)規(guī)則簡介 – Apriori節(jié)點(diǎn)及結(jié)果解釋 – 產(chǎn)生特定結(jié)果的規(guī)則集 – 特定結(jié)果規(guī)則集應(yīng)用于各記錄 ? 數(shù)據(jù) – 關(guān)聯(lián)規(guī)則簡介 ? 解決問題 ?考慮的是關(guān)聯(lián),得到的是規(guī)則,處理變量之間的相關(guān),而非客戶之間 ) –買香煙的人是否傾向于也買巧克力或啤酒 –高血脂的人是否也常伴有高血壓 –買車險(xiǎn)的人是否也傾向于買房險(xiǎn) ? 節(jié)點(diǎn) – GRINumeric字段可作為輸入字段,可用于連續(xù)型變量 – Apriori只接受 Symbolic字段(只能用字符型輸入)作為輸入字段 ? 特殊之處:產(chǎn)生的模型不能直接加入數(shù)據(jù)流 Apriori節(jié)點(diǎn)及結(jié)果解釋 ? Apriori節(jié)點(diǎn)設(shè)置 –字段類型及方向:無主次先后之分 – Content1flagboth – Content2flagboth – Content3flagboth – Contentnflagboth ? 結(jié)果: –有多少人購買了香煙?占總?cè)藬?shù)的百分比 –其中,有多少人購買了巧克力?占多少百分比 Instances(滿足記錄數(shù)) Support Confidence Consequent Antecedent1 Antecedent2 2051 巧克力 香煙 Apriori節(jié)點(diǎn)及結(jié)果解釋 產(chǎn)生特定結(jié)果的規(guī)則集 ? Generate menu – Rule set ? View 特定結(jié)果規(guī)則集應(yīng)用于各記錄 Chapter 13 序列檢測(cè) Chpater 13 序列檢測(cè) ? 目的 – 掌握 Clementine如何對(duì)與時(shí)間序列有關(guān)的數(shù)據(jù)進(jìn)行建模 – 熟悉 Sequence節(jié)點(diǎn) 也會(huì)存在規(guī)則的重復(fù) ? 內(nèi)容 – 序列檢測(cè)簡介 – 序列檢測(cè)所要求的數(shù)據(jù)結(jié)構(gòu) – 序列檢測(cè)模型 – Sequence節(jié)點(diǎn)及結(jié)果解釋 – Sequence結(jié)果用于各條數(shù)據(jù) ? 數(shù)據(jù) – 序列檢測(cè)簡介 ? 解決的問題:與順序有關(guān)的關(guān)聯(lián)規(guī)則 – Antecedent1?Antecedent2 ?Consequent ? 可用節(jié)點(diǎn): Sequence、 Capri 序列檢測(cè)所要求的數(shù)據(jù)結(jié)構(gòu) ? 數(shù)據(jù)結(jié)構(gòu) 1 –一個(gè)客戶一次購買多個(gè)產(chǎn)品算一條記錄 數(shù)據(jù)結(jié)構(gòu) 2 –一個(gè)客戶一次購買多個(gè)產(chǎn)品算多條記錄 序列檢測(cè)模型 ? Sequence與 Capri二者各有優(yōu)勢(shì) ? 二者使用不同的算法 ? 均可指定順序檢測(cè)標(biāo)準(zhǔn) ? 對(duì)于“ A1‖?‖A2‖?‖C‖, Capri可以不包含下列 –“ A1‖?‖A2‖ –‖A2‖?‖C‖ –―A1‖?‖C‖ Sequence節(jié)點(diǎn)及結(jié)果解釋 ? Sequence節(jié)點(diǎn)設(shè)置: –字段類型及方向 ? ID fieldNumeric/SymbolicAny ? Time fieldRangeIn ? Content fieldsSetIn/out/both多個(gè)一致 Sequence節(jié)點(diǎn)及結(jié)果解釋 ? 結(jié)果: –在先買了 A1 ,又買了 A2 的客戶中, 60%的人后來買 了 C; – 12%的客戶( 48例)是先買了 A1 ,又買了 A2 ,最后又買了 C –可對(duì)規(guī)則進(jìn)行重新排序 Sequence節(jié)點(diǎn)及結(jié)果解釋 Sequence結(jié)果用于各條數(shù)據(jù) 總結(jié) ? 業(yè)務(wù)問題是關(guān)鍵 ? 歷史數(shù)據(jù)是支撐 ? 業(yè)務(wù)思路、數(shù)據(jù)分析思路的轉(zhuǎn)變 ? 數(shù)據(jù)分析的常態(tài)與技巧 ? 如何使用數(shù)據(jù)分析應(yīng)用結(jié)果是業(yè)務(wù)思路的延伸 ? 方法永遠(yuǎn)是方法,工具永遠(yuǎn)是工具 五、 Clementine組合模型技巧 。 ? 關(guān)注值: flag變量的真值, set變量的第一個(gè)值 ? 五種圖形:收益圖、功效圖、響應(yīng)圖、投資回報(bào)圖、利潤圖 模型評(píng)價(jià) 收益圖 功效圖 理解預(yù)測(cè)原因 ? Web節(jié)點(diǎn) Symbolic Input amp。 郵編、客戶編號(hào)、性別 眾數(shù)、列聯(lián)相關(guān)、 ?2 檢驗(yàn) 定序 定序變量是離散變量,可以比較大小。 ? 以下情況可以使用單機(jī)版運(yùn)行: – 要處理的數(shù)據(jù)量很?。ū热纾盒∮?2M)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可到達(dá)局域網(wǎng)處; – 單機(jī)內(nèi)存、硬盤相對(duì)要處理的數(shù)據(jù)量來說足夠大,并且速度也滿足要求。 Clementine的系統(tǒng)結(jié)構(gòu) Clementine的三層結(jié)構(gòu) : 數(shù)據(jù)庫層; 通過 Clementine Server進(jìn)行調(diào)度,把那些可以通過 SQL語句執(zhí)行的數(shù)據(jù)操作過程以 SQL語句的形式導(dǎo)入數(shù)據(jù)庫并在其中進(jìn)行; 服務(wù)器端; 進(jìn)行調(diào)度,不能在數(shù)據(jù)庫層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過程) 客戶端。 年齡、收入、長度 幾何平均數(shù)、比例指標(biāo) 描述性統(tǒng)計(jì)量 ? 描述統(tǒng)計(jì)量( summary statistic),也稱匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量 ? 用少量數(shù)字概括大量數(shù)據(jù)的技術(shù) 離散變量的描述性統(tǒng)計(jì) ? 頻數(shù) ? 累計(jì)頻數(shù) ? 頻率 ? 累計(jì)頻率(累計(jì)必須是定序變量) 連續(xù)變量的描述指標(biāo) ? 反映數(shù)據(jù)平均趨勢(shì)和位置的指標(biāo) ? 反映數(shù)據(jù)離散趨勢(shì)的指標(biāo) ? 反映數(shù)據(jù)分布狀況的指標(biāo) 反映連續(xù)數(shù)據(jù)平均趨勢(shì)的指標(biāo) ? 平均數(shù) – 算術(shù)平均數(shù) – 幾何平均數(shù) – 截尾算術(shù)平均數(shù) :比較穩(wěn)健有效地描述平均值 ? 中位數(shù) :( 代表群體基本的趨勢(shì),集中的趨勢(shì)) ? 眾數(shù)(多用于離散變量) ? 四分位數(shù)( 25%, 50%, 75%) ? 百分位數(shù) 平均數(shù)與中位數(shù)的結(jié)合使用 異常值 下側(cè) 10分位點(diǎn) 下側(cè)四分位數(shù) 上側(cè)四分位數(shù) 中位數(shù) 上側(cè) 10分位點(diǎn) ? 對(duì) 5個(gè)數(shù)值表示的內(nèi)容說法有些不同 含義與左圖不同 含義與左圖不同 反映連續(xù)數(shù)據(jù)離散趨勢(shì)的指標(biāo) ? 極差(全距) range =maxmin ? 內(nèi)距 50%的差距 ? 方差 :更適合離散趨勢(shì)的描述(趨勢(shì)放大) ? 標(biāo)準(zhǔn)差 ? 變異系數(shù):標(biāo)準(zhǔn)差 /均值,值越大,則離散程度越大。 Symbolic Output 模型總結(jié) ? 預(yù)測(cè)風(fēng)險(xiǎn)中最重要因素是婚姻狀態(tài)和收入 ? 離異、單身、鰥寡人士可能是壞客戶 ? 神經(jīng)網(wǎng)絡(luò)模型,高收入人群是好客戶,但這一點(diǎn)并不與實(shí)際相符,如此預(yù)測(cè),可能會(huì)給銀行帶來損失 ? 題外話:可用驗(yàn)證數(shù)據(jù)集,利用分析節(jié)點(diǎn)、評(píng)估節(jié)點(diǎn)、 Matrix節(jié)點(diǎn)對(duì)模型進(jìn)行評(píng)估 Chapter 9 規(guī)則歸納模型 決策樹技術(shù) Chapter 9 規(guī)則歸納模型 ? 目的: –掌握如何在 Clementine中進(jìn)行規(guī)則歸納模型的構(gòu)建和解讀 –掌握 ? 數(shù)據(jù) – Chapter 9 規(guī)則歸納模型 ? 內(nèi)容 – 、 Camp。RT(CART) Regression Logistic regression Kohonen Kmeans TwoStep PCA(Principal Component Analysis) Factor Clustering APRIORI GRI Sequence Associations 離散變量預(yù)測(cè)問題是最重要的一類問題 ? 離散變量預(yù)測(cè)問題也就是分類問題 ? 在 Clementine( )中有很多模型可以做分類問題 – Neural Net – – Camp。 ? 聚類分析的缺陷在于:各類之間均值等可能有差別,但每個(gè)個(gè)體劃歸哪類更多地依賴于數(shù)字,解釋起來比較困難。 模型評(píng)價(jià) ? Evaluation Node評(píng)估比較模型,以選擇最優(yōu)模型 ? Evaluation 的原理:將數(shù)據(jù)按預(yù)測(cè)值和置信度從高到低排序,將數(shù)據(jù)拆分為多個(gè)集合,每集合包含相同的記錄數(shù),然后作圖。只能進(jìn)行等于或者不等于的比較。 Clementine的兩種運(yùn)行方式 ? 單機(jī)版運(yùn)行 ? 以下情況必須使用單機(jī)版運(yùn)行: – 數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)上共享; – 機(jī)器不聯(lián)網(wǎng); – 無 Clementine Server可供使用。 在三層結(jié)構(gòu)下通過 Clementine Server進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。 平均數(shù)與標(biāo)準(zhǔn)差的應(yīng)用 ? 切比雪夫定理 在任何一個(gè)數(shù)據(jù)集中,至少有 (11/z2 )的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在 z個(gè)標(biāo)準(zhǔn)差之內(nèi),其中 z是任意大于 1的值。RT介紹 – 構(gòu)建 – 決策樹型結(jié)果瀏覽和解釋 – 規(guī)則集型結(jié)果瀏覽和解釋 – 模型預(yù)測(cè)值生成 – 模型評(píng)價(jià) – 模型總結(jié) 、 Camp。RT – Logistic ? 連續(xù)變量預(yù)測(cè)問題可以通過某種形式轉(zhuǎn)化為離散變量預(yù)測(cè)問題 ? 多值變量問題可以轉(zhuǎn)化為兩值預(yù)測(cè)問題 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)指標(biāo) 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)圖形 ( Gains) ( Response) ( Lift) ( Profit) ( ROI) 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)圖形 什么是組合模型 ? 在數(shù)據(jù)挖掘模型中,每種模型都有各自的優(yōu)點(diǎn)和缺陷,為了更好的利用模型的優(yōu)點(diǎn),在 Clementine中可以把不同模型通過一定的方式組合在一起以解決特定的問題 ? 為了提高模型的精確度,我們可以把多個(gè)模型通過某種方式組合在一起 組合模型類型 ? 為了提高模型的可解釋性,可以應(yīng)用 對(duì)預(yù)測(cè)或者聚類結(jié)果進(jìn)行解釋 ? 為了得到各指標(biāo)對(duì)模型影響的重要程度,可以應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)指標(biāo)重要性進(jìn)行分析 ? 可以通過模型的特定組合提高模型的準(zhǔn)確性 ——下面以數(shù)據(jù)挖掘模型中最常用的二值預(yù)測(cè)來說明組合模型如何能夠提供模型的準(zhǔn)確性 二值預(yù)測(cè)是數(shù)據(jù)挖掘中重要問題 ? 二值預(yù)測(cè)問題是個(gè)非常常見的數(shù)據(jù)挖掘問題 流失、客戶獲得、欠費(fèi)、欺詐 …… ? 多值預(yù)測(cè)可以轉(zhuǎn)化為二值預(yù)測(cè)問題 ? 連續(xù)預(yù)測(cè)問題可以轉(zhuǎn)化為多值預(yù)測(cè)問題 二值預(yù)測(cè)結(jié)果的可能表達(dá)方式 1. T or F,我們稱為預(yù)測(cè)值; 2. 預(yù)測(cè)值為 T,預(yù)測(cè)準(zhǔn)確率為 P;或者預(yù)測(cè)值為 F,預(yù)測(cè)準(zhǔn)確率為 P; 3. T的概率為 p,稱為預(yù)測(cè)評(píng)分 (scoring)。 –例如:根據(jù)各種指數(shù)的取值范圍,將模式相近的指數(shù)的聚為一類。 Chapter 8 Neural Networks Chpater 8 Neural Networks ? 目的: –掌握如何在 Clementine中進(jìn)行 Neural Network 模型的構(gòu)建和解讀 –掌握 Neural Network節(jié)點(diǎn) ? 數(shù)據(jù): Chpater 8 Neural Networks ? 內(nèi)容 – Neural Net節(jié)點(diǎn)介
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1