freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘與clementine培訓(xùn)手冊(cè)-資料下載頁(yè)

2025-08-22 09:03本頁(yè)面

【導(dǎo)讀】數(shù)據(jù)變的復(fù)雜會(huì)如何?女性對(duì)市場(chǎng)活動(dòng)做出回應(yīng),數(shù)據(jù)挖掘的其他名稱(chēng)。來(lái)源于機(jī)器學(xué)習(xí)/人工智能、模式識(shí)別、統(tǒng)。傳統(tǒng)技術(shù)的局限性。數(shù)據(jù)所有權(quán)和分布。數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應(yīng)。的行動(dòng)以提高利潤(rùn)或降低成本?我們期望模型能夠給我們?cè)鯓拥木_率?有那些前提假定?是檢驗(yàn)性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘?評(píng)估和控制其他相關(guān)因素的影響。對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)暮喜⒑蛥R總。一般數(shù)據(jù)挖掘分析都要一個(gè)行×列(記錄×到的不同格式的數(shù)據(jù)整合成這樣一張表,所有記錄的變量信息是完整的(理想化狀態(tài),影響數(shù)據(jù)質(zhì)量的幾個(gè)主要問(wèn)題。不同數(shù)據(jù)源的不一致。數(shù)據(jù)的標(biāo)準(zhǔn)化變換

  

【正文】 一條記錄可能有多個(gè)規(guī)則可用 決策樹(shù) 決策樹(shù)拆分 可一分多 只能一分二 算法標(biāo)準(zhǔn) 信息收益比 離散測(cè)量 修剪 準(zhǔn)則不同 規(guī)定最小分支記錄數(shù) 構(gòu)建 ? 模型的準(zhǔn)確性與一般性 ? 模型的驗(yàn)證方法 –交叉驗(yàn)證(分散數(shù)據(jù)集,不斷用新數(shù)據(jù)去驗(yàn)證) ? 模型結(jié)果字段值的減少(輸入變量最終并非全部進(jìn)入模型) ? 建立多個(gè)模型: –耗時(shí)長(zhǎng) –難以解釋結(jié)果 構(gòu)建 決策樹(shù)型結(jié)果瀏覽和解釋 ? 結(jié)果: –決策樹(shù)、模型形式 ? 可分支的子根 ? 眾數(shù) ? 顯示例數(shù)與置信度 ? 繼承性 規(guī)則集型結(jié)果瀏覽和解釋 模型預(yù)測(cè)值生成 模型評(píng)價(jià) 預(yù)測(cè)值與實(shí)際值的比較 ? 利用 Matrix來(lái)比較預(yù)測(cè)值與實(shí)際值 模型評(píng)價(jià) 不同值的收益圖 Gains Chart for the Good Risk Category Gains Chart for the Bad Loss Category 模型總結(jié) ? Web、 Histogram等即可有效地理解模型 ? 與 Neural Net不同,沒(méi)有 Sensitivity Analysis,但同樣可以辨別字段的重要性 決策樹(shù)的優(yōu)點(diǎn) ? 可以生成可以理解的規(guī)則 ? 計(jì)算量相對(duì)來(lái)說(shuō)不是很大 ? 可以處理連續(xù)和種類(lèi)字段 ? 決策樹(shù)可以清晰的顯示哪些字段比較重要 決策樹(shù)的缺點(diǎn) ? 對(duì)連續(xù)性的字段比較難預(yù)測(cè) ? 對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作 ? 當(dāng)類(lèi)別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快(對(duì)分類(lèi)變量重新劃分,二分或者數(shù)據(jù)降維, spss聚類(lèi)分析法) ? 一般的算法分類(lèi)的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分類(lèi)(假設(shè)各字段間相關(guān)度不是很高) Chapter 10 模型比較 Chpater 10 模型比較 ? 目的 – 掌握如何利用 Analysis節(jié)點(diǎn)進(jìn)行模型的評(píng)估 – 掌握如何利用驗(yàn)證數(shù)據(jù)集比較不同模型 ? 內(nèi)容 – Analysis節(jié)點(diǎn)用于比較模型 – Evaluation節(jié)點(diǎn)用于比較模型 – 利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較 ? 數(shù)據(jù) – – Analysis節(jié)點(diǎn)用于比較模型 Analysis節(jié)點(diǎn)用于比較模型 ? 評(píng)估多個(gè)模型 ? 評(píng)估各模型結(jié)果的一致性 Train Validation Evaluation節(jié)點(diǎn)用于比較模型 Evaluation節(jié)點(diǎn)用于比較模型 ? 評(píng)估多個(gè)模型 ? 評(píng)估各模型結(jié)果的一致性 Train Validation 利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較 第五講主要內(nèi)容 ? 聚類(lèi)分析模型技術(shù) ? 關(guān)聯(lián)規(guī)則模型技術(shù) ? 序列探測(cè)模型技術(shù) Chapter 11 Kohonen Networks Chpater 11 Kohonen Networks ? 目的 – 掌握 Kohonen神經(jīng)網(wǎng)絡(luò)的建立、結(jié)果解釋 – 掌握 Kohonen節(jié)點(diǎn) ? 內(nèi)容 – Kohonen節(jié)點(diǎn)介紹 – 構(gòu)建 Kohonen Networks – 結(jié)果解釋 – 為每條記錄產(chǎn)生類(lèi)別字段 – 結(jié)果理解 ? 數(shù)據(jù) – Kohonen網(wǎng)絡(luò)結(jié)構(gòu) 輸入數(shù)據(jù)被展示在輸入層中,其數(shù)據(jù)值被傳送到輸出層。然后每個(gè)輸出層神經(jīng)元都做出回應(yīng)?;貞?yīng)最強(qiáng)烈的輸出層神經(jīng)元稱(chēng)為嬴家,它的回應(yīng)就做為輸入數(shù)據(jù)的結(jié)果。 Kohonen節(jié)點(diǎn)介紹 ? 聚類(lèi)分析 –發(fā)現(xiàn)數(shù)據(jù)的總體結(jié)構(gòu)及相互關(guān)系 –類(lèi)間差別,類(lèi)內(nèi)相似 構(gòu)建 Kohonen Networks ? Kohonen節(jié)點(diǎn) –字段方向設(shè)置: ? 購(gòu)買(mǎi)產(chǎn)品與否 In ? 其它 None / Out / Both –反饋圖:紅色越深,記錄越多 –指定類(lèi)別數(shù):長(zhǎng) *寬 結(jié)果解釋 ? Kohonen結(jié)果 – X軸 – Y軸 為每條記錄產(chǎn)生類(lèi)別字段 ? $ KXKohonen ? $ KYKohonen ? Cluster=$ KXKohonen$ KYKohonen 結(jié)果理解 ? 各 Cluster人群多少 條圖 ? 各 Cluster人群的一般特征 –年齡 條圖 –性別 條圖 –購(gòu)買(mǎi)產(chǎn)品 Web圖 –孩子 –婚姻狀態(tài) –工作狀態(tài) ? 各 Cluster人群總述 各種聚類(lèi)方法比較 聚類(lèi)分析之我見(jiàn) ? 聚類(lèi)分析的優(yōu)勢(shì)在于:它能夠在我們對(duì)數(shù)據(jù)了解很少時(shí),提供一種了解數(shù)據(jù)的方法。發(fā)現(xiàn)個(gè)體與變量間的綜合關(guān)系。 –例如:根據(jù)各省市的各種經(jīng)濟(jì)指數(shù)將所有的省市分為幾個(gè)等級(jí)。 –例如:根據(jù)各種指數(shù)的取值范圍,將模式相近的指數(shù)的聚為一類(lèi)。 ? 聚類(lèi)分析的缺陷在于:各類(lèi)之間均值等可能有差別,但每個(gè)個(gè)體劃歸哪類(lèi)更多地依賴(lài)于數(shù)字,解釋起來(lái)比較困難。 Chapter 12 關(guān)聯(lián)規(guī)則 Chpater 12 關(guān)聯(lián)規(guī)則 ? 目的 – 掌握關(guān)聯(lián)規(guī)則在 Clementine中的建立、結(jié)果解釋 – 掌握 Apriori節(jié)點(diǎn) 無(wú)監(jiān)督的探索性模型 ? 內(nèi)容 – 關(guān)聯(lián)規(guī)則簡(jiǎn)介 – Apriori節(jié)點(diǎn)及結(jié)果解釋 – 產(chǎn)生特定結(jié)果的規(guī)則集 – 特定結(jié)果規(guī)則集應(yīng)用于各記錄 ? 數(shù)據(jù) – 關(guān)聯(lián)規(guī)則簡(jiǎn)介 ? 解決問(wèn)題 ?考慮的是關(guān)聯(lián),得到的是規(guī)則,處理變量之間的相關(guān),而非客戶(hù)之間 ) –買(mǎi)香煙的人是否傾向于也買(mǎi)巧克力或啤酒 –高血脂的人是否也常伴有高血壓 –買(mǎi)車(chē)險(xiǎn)的人是否也傾向于買(mǎi)房險(xiǎn) ? 節(jié)點(diǎn) – GRINumeric字段可作為輸入字段,可用于連續(xù)型變量 – Apriori只接受 Symbolic字段(只能用字符型輸入)作為輸入字段 ? 特殊之處:產(chǎn)生的模型不能直接加入數(shù)據(jù)流 Apriori節(jié)點(diǎn)及結(jié)果解釋 ? Apriori節(jié)點(diǎn)設(shè)置 –字段類(lèi)型及方向:無(wú)主次先后之分 – Content1flagboth – Content2flagboth – Content3flagboth – Contentnflagboth ? 結(jié)果: –有多少人購(gòu)買(mǎi)了香煙?占總?cè)藬?shù)的百分比 –其中,有多少人購(gòu)買(mǎi)了巧克力?占多少百分比 Instances(滿(mǎn)足記錄數(shù)) Support Confidence Consequent Antecedent1 Antecedent2 2051 巧克力 香煙 Apriori節(jié)點(diǎn)及結(jié)果解釋 產(chǎn)生特定結(jié)果的規(guī)則集 ? Generate menu – Rule set ? View 特定結(jié)果規(guī)則集應(yīng)用于各記錄 Chapter 13 序列檢測(cè) Chpater 13 序列檢測(cè) ? 目的 – 掌握 Clementine如何對(duì)與時(shí)間序列有關(guān)的數(shù)據(jù)進(jìn)行建模 – 熟悉 Sequence節(jié)點(diǎn) 也會(huì)存在規(guī)則的重復(fù) ? 內(nèi)容 – 序列檢測(cè)簡(jiǎn)介 – 序列檢測(cè)所要求的數(shù)據(jù)結(jié)構(gòu) – 序列檢測(cè)模型 – Sequence節(jié)點(diǎn)及結(jié)果解釋 – Sequence結(jié)果用于各條數(shù)據(jù) ? 數(shù)據(jù) – 序列檢測(cè)簡(jiǎn)介 ? 解決的問(wèn)題:與順序有關(guān)的關(guān)聯(lián)規(guī)則 – Antecedent1?Antecedent2 ?Consequent ? 可用節(jié)點(diǎn): Sequence、 Capri 序列檢測(cè)所要求的數(shù)據(jù)結(jié)構(gòu) ? 數(shù)據(jù)結(jié)構(gòu) 1 –一個(gè)客戶(hù)一次購(gòu)買(mǎi)多個(gè)產(chǎn)品算一條記錄 數(shù)據(jù)結(jié)構(gòu) 2 –一個(gè)客戶(hù)一次購(gòu)買(mǎi)多個(gè)產(chǎn)品算多條記錄 序列檢測(cè)模型 ? Sequence與 Capri二者各有優(yōu)勢(shì) ? 二者使用不同的算法 ? 均可指定順序檢測(cè)標(biāo)準(zhǔn) ? 對(duì)于“ A1‖?‖A2‖?‖C‖, Capri可以不包含下列 –“ A1‖?‖A2‖ –‖A2‖?‖C‖ –―A1‖?‖C‖ Sequence節(jié)點(diǎn)及結(jié)果解釋 ? Sequence節(jié)點(diǎn)設(shè)置: –字段類(lèi)型及方向 ? ID fieldNumeric/SymbolicAny ? Time fieldRangeIn ? Content fieldsSetIn/out/both多個(gè)一致 Sequence節(jié)點(diǎn)及結(jié)果解釋 ? 結(jié)果: –在先買(mǎi)了 A1 ,又買(mǎi)了 A2 的客戶(hù)中, 60%的人后來(lái)買(mǎi) 了 C; – 12%的客戶(hù)( 48例)是先買(mǎi)了 A1 ,又買(mǎi)了 A2 ,最后又買(mǎi)了 C –可對(duì)規(guī)則進(jìn)行重新排序 Sequence節(jié)點(diǎn)及結(jié)果解釋 Sequence結(jié)果用于各條數(shù)據(jù) 總結(jié) ? 業(yè)務(wù)問(wèn)題是關(guān)鍵 ? 歷史數(shù)據(jù)是支撐 ? 業(yè)務(wù)思路、數(shù)據(jù)分析思路的轉(zhuǎn)變 ? 數(shù)據(jù)分析的常態(tài)與技巧 ? 如何使用數(shù)據(jù)分析應(yīng)用結(jié)果是業(yè)務(wù)思路的延伸 ? 方法永遠(yuǎn)是方法,工具永遠(yuǎn)是工具 五、 Clementine組合模型技巧 。 ; ; 。 Clementine中提供的模型概述 Data Mining Model Supervised Model (Predictive Model) Unsupervised Model Data Reduction Neural Networks Camp。RT(CART) Regression Logistic regression Kohonen Kmeans TwoStep PCA(Principal Component Analysis) Factor Clustering APRIORI GRI Sequence Associations 離散變量預(yù)測(cè)問(wèn)題是最重要的一類(lèi)問(wèn)題 ? 離散變量預(yù)測(cè)問(wèn)題也就是分類(lèi)問(wèn)題 ? 在 Clementine( )中有很多模型可以做分類(lèi)問(wèn)題 – Neural Net – – Camp。RT – Logistic ? 連續(xù)變量預(yù)測(cè)問(wèn)題可以通過(guò)某種形式轉(zhuǎn)化為離散變量預(yù)測(cè)問(wèn)題 ? 多值變量問(wèn)題可以轉(zhuǎn)化為兩值預(yù)測(cè)問(wèn)題 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)指標(biāo) 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)圖形 ( Gains) ( Response) ( Lift) ( Profit) ( ROI) 離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)圖形 什么是組合模型 ? 在數(shù)據(jù)挖掘模型中,每種模型都有各自的優(yōu)點(diǎn)和缺陷,為了更好的利用模型的優(yōu)點(diǎn),在 Clementine中可以把不同模型通過(guò)一定的方式組合在一起以解決特定的問(wèn)題 ? 為了提高模型的精確度,我們可以把多個(gè)模型通過(guò)某種方式組合在一起 組合模型類(lèi)型 ? 為了提高模型的可解釋性,可以應(yīng)用 對(duì)預(yù)測(cè)或者聚類(lèi)結(jié)果進(jìn)行解釋 ? 為了得到各指標(biāo)對(duì)模型影響的重要程度,可以應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)指標(biāo)重要性進(jìn)行分析 ? 可以通過(guò)模型的特定組合提高模型的準(zhǔn)確性 ——下面以數(shù)據(jù)挖掘模型中最常用的二值預(yù)測(cè)來(lái)說(shuō)明組合模型如何能夠提供模型的準(zhǔn)確性 二值預(yù)測(cè)是數(shù)據(jù)挖掘中重要問(wèn)題 ? 二值預(yù)測(cè)問(wèn)題是個(gè)非常常見(jiàn)的數(shù)據(jù)挖掘問(wèn)題 流失、客戶(hù)獲得、欠費(fèi)、欺詐 …… ? 多值預(yù)測(cè)可以轉(zhuǎn)化為二值預(yù)測(cè)問(wèn)題 ? 連續(xù)預(yù)測(cè)問(wèn)題可以轉(zhuǎn)化為多值預(yù)測(cè)問(wèn)題 二值預(yù)測(cè)結(jié)果的可能表達(dá)方式 1. T or F,我們稱(chēng)為預(yù)測(cè)值; 2. 預(yù)測(cè)值為 T,預(yù)測(cè)準(zhǔn)確率為 P;或者預(yù)測(cè)值為 F,預(yù)測(cè)準(zhǔn)確率為 P; 3. T的概率為 p,稱(chēng)為預(yù)測(cè)評(píng)分 (scoring)。 和置信度區(qū)分 例:以預(yù)測(cè)流失為例 1. 預(yù)測(cè)客戶(hù) A流失; 2. 預(yù)測(cè)客戶(hù) B不流失,把握程度為 ; 3. 預(yù)測(cè)客戶(hù) C的流失概率為 。 多值( set)問(wèn)題向二值問(wèn)題的轉(zhuǎn)化( flag) ? 多值集合變量向幾個(gè)二值變量的轉(zhuǎn)化(設(shè)為標(biāo)志) ? 由 Clementine中神經(jīng)網(wǎng)絡(luò)算法想起的 …… 多個(gè)輸出變量; 如果把二值變量問(wèn)題再轉(zhuǎn)化成多值變量問(wèn)題。 連續(xù)預(yù)測(cè)問(wèn)題向多值預(yù)測(cè)問(wèn)題的轉(zhuǎn)化 ? 從 Camp。RT算法想到的 …… 用分級(jí)節(jié)點(diǎn) ? 把連續(xù)預(yù)測(cè)問(wèn)題轉(zhuǎn)化為多值預(yù)測(cè)問(wèn)題 二值預(yù)測(cè)的結(jié)果表述 ? T or F ? 評(píng)分 (scoring) ? T- ? F- ? 二值預(yù)測(cè)結(jié)果的評(píng)價(jià) ? ( 1)總體準(zhǔn)確率 ? ( 2)命中率 ? ( 3)覆蓋率 ?1 . 0 0 . 0NoY e sNo Yes 覆蓋率 命中率 Clementine中預(yù)測(cè)二值問(wèn)題 ? Neural Net( $Noute ,$NCoute
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1