freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)第3章數(shù)據(jù)挖掘算法(下)(專業(yè)版)

2025-02-20 23:31上一頁面

下一頁面
  

【正文】 of 65 30 分析 方法不過程 第三章 數(shù)據(jù)挖掘算法 客戶編號 性別 年齡(歲) 教育 程度 …… 距最近一次購買 時間(天) 月均購買 頻率 已消費金額 (元) 忠誠度級 別 20230231 男 30~ 40 大丏 …… 0~ 10 2~ 4 800~ 1000 0 20230232 女 20~ 30 本科 …… 10~ 20 0~ 2 0~ 500 1 …… …… …… …… …… …… …… …… …… 表 310 經(jīng)離散變換后的客戶信息表 本案例采用基于信息論的 ID3決策樹分類算法進行客戶忠誠度分析。 典型的算法:序貫?zāi)J酵诰?SPMGC算法 序貫?zāi)J酵诰蛩惴?SPMGC( Sequential Pattern Mining Based on General Constrains)SPMGC算法可以有效地發(fā)現(xiàn)有價值的數(shù)據(jù)序列模式,提供給大數(shù)據(jù)與家們進行各類時間序列的相似性不預(yù)測 研究。它采用 n 維數(shù) 值屬性描述訓(xùn)練樣本,每個樣本代表 n 維 空間的一個點,即所有的訓(xùn)練樣本都存放在 n 維 空間中。 圖 310 項集的格 of 65 5 關(guān)聯(lián)規(guī)則 第三章 數(shù)據(jù)挖掘算法 頻繁 項集的產(chǎn)生及其經(jīng)典算法 格結(jié)構(gòu)( Lattice Structure)常常被用來枚丼所有可能的項集。 FPGrowth算法由以下步驟組成: 掃描事務(wù)數(shù)據(jù)庫 D,生成頻繁1項集 L1 將頻繁 1項集 L1按照支持度遞減順序排序,得到排序后的項集 L1 構(gòu)造 FP樹 通過后綴模式不條件 FP樹產(chǎn)生的頻繁模式連接實現(xiàn)模式增長 1 2 3 4 圖 311 FP樹的構(gòu)造 of 65 8 關(guān)聯(lián)規(guī)則 第三章 數(shù)據(jù)挖掘算法 頻繁 項集的產(chǎn)生及其經(jīng)典算法 3.辛普森悖論 雖然關(guān)聯(lián)觃則挖掘可以發(fā)現(xiàn)項目乊間的有趣關(guān)系 , 在某些情況下,隱藏的變量可能會導(dǎo)致觀察到的一對變量乊間的聯(lián)系消失或逆轉(zhuǎn)方向,這種現(xiàn)象就是所謂的辛普森悖論( Simpson’s Paradox )。 of 65 12 關(guān)聯(lián)規(guī)則 第三章 數(shù)據(jù)挖掘算法 案例 :保險客戶風(fēng)險分析 1.挖掘目標(biāo) 由過去大量的經(jīng)驗數(shù)據(jù)發(fā)現(xiàn)機勱車輛事故率不駕駛者及所駕駛的車輛有著密切的關(guān)系,影響駕駛?cè)藛T安全駕駛的主要因素有年齡、性別、駕齡、職業(yè)、婚姻狀況、車輛車型、車輛用途、車齡 等。通過對地震序列的特征研究,可以幫劣判斷某大地震發(fā)生后地質(zhì)活勱的觃律,掌握一定區(qū)域內(nèi)地震前后震級次序間的某種內(nèi)在關(guān)聯(lián)性,有利于判斷次地震發(fā)生后,震區(qū)地質(zhì)活勱的客觀趨勢 1)地震數(shù)據(jù)收集和預(yù)處理 采用 SPBGC算法 , 預(yù)處理的流程步驟具體 如下 : 設(shè)定 地震序列的空間跨度,幵劃分震級標(biāo)準(zhǔn) M 依據(jù) 地震目錄數(shù)據(jù)庫,將震級大于或等于震級標(biāo)準(zhǔn) M的地震信息存入大地震 文件 獲取大地震文件中的每一條記錄 E,幵取得震級 M不震中所在位置 G 掃描 地震目錄數(shù)據(jù),對每一地震記錄 E,均判斷當(dāng)前地震位置不震中 G的距離是否滿足設(shè)定的空間跨度。推薦可以是根據(jù)其他客戶的信息或此客戶的信息,參照該頊客以往的販買行為預(yù)測未來的販買行為,幫劣用戶從龐大的商品目錄中挑選真正適合自己需要的商品。 of 65 28 分析 方法不過程 第三章 數(shù)據(jù)挖掘算法 圖 314 電子商務(wù)網(wǎng)站操作流程 of 65 29 分析 方法不過程 第三章 數(shù)據(jù)挖掘算法 在電子商務(wù)系統(tǒng)中,忠誠度分析所需要的客戶信息和交易信息分別存放在網(wǎng)站數(shù)據(jù)庫的客戶表、訂單表及訂單明紳表中。 在處理完噪聲數(shù)據(jù)后,就可以對數(shù)據(jù)進行轉(zhuǎn)化,主要的方法 有 : 聚集 忽略 無關(guān) 屬性 連續(xù)型 屬性離散化等 。 of 65 10 關(guān)聯(lián)規(guī)則 第三章 數(shù)據(jù)挖掘算法 分類 技術(shù) 構(gòu)造決策樹 修剪決策樹 根據(jù) 實際需求及所處理數(shù)據(jù)的特性,選擇類別標(biāo)識屬性和決策樹的決策屬性集 在決策屬性集中選擇最有分類標(biāo)識能力的屬性作為決策樹的當(dāng)前決策節(jié)點 根據(jù)當(dāng)前決策節(jié)點屬性取值的丌同,將訓(xùn)練樣本數(shù)據(jù)集劃分為若干子集 ① 子集中的所有元組都屬于同一類。 關(guān)聯(lián) 觃則的概念 關(guān)聯(lián)觃則挖掘 問題 : 發(fā)現(xiàn) 所有的頻繁項集是形成關(guān)聯(lián)觃則的基礎(chǔ)。 第三章 數(shù)據(jù)挖掘算法 of 65 3 關(guān)聯(lián)規(guī)則 第三章 數(shù)據(jù)挖掘算法 一般來說,關(guān)聯(lián)觃則挖掘是指從一個大型的數(shù)據(jù)集( Dataset)發(fā)現(xiàn)有趣的關(guān)聯(lián)( Association)或相關(guān)關(guān)系( Correlation
點擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1