freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘技術(shù)方法(p151)-文庫(kù)吧在線文庫(kù)

  

【正文】 性質(zhì)n Efficient in clustering large datan Solution depends on initial meansn Sensitive to outliersn Spherical clustersn Numeric data69K均值算法局限非球形的簇70發(fā)現(xiàn)客戶(hù)的特征n 客戶(hù)分割( segmentation) 是一種發(fā)現(xiàn)用戶(hù)特性的方法。對(duì)于對(duì)稱(chēng)的二元變量,采用 簡(jiǎn)單匹配系數(shù) 來(lái)評(píng)價(jià)兩個(gè)對(duì)象之間的相異度 59二元變量n 非對(duì)稱(chēng)的如果變量的兩個(gè)狀態(tài)不是同樣重要的,則稱(chēng)該變量是不對(duì)稱(chēng)的。n 聚類(lèi)根據(jù)一定的聚類(lèi)規(guī)則,將具有某種相同特征的數(shù)據(jù)聚在一起也稱(chēng)為無(wú)監(jiān)督學(xué)習(xí)?,F(xiàn)在電腦主板生產(chǎn)商想通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,解決下面兩個(gè)問(wèn)題: ( 1)隨機(jī)地從倉(cāng)庫(kù)中取一只供電電容是次品的概率。收入負(fù)債年齡付款記錄信譽(yù)良好風(fēng)險(xiǎn)值信譽(yù)不良風(fēng)險(xiǎn)值38神經(jīng)網(wǎng)絡(luò)的應(yīng)用 (2)n 股票拐點(diǎn)趨勢(shì)預(yù)測(cè) :利用歷史價(jià)格數(shù)據(jù)預(yù)測(cè)中短期(從 2到 10或 15天)的價(jià)格走勢(shì)。上層單元與下層所有單元相聯(lián)結(jié)。以 MP模型和 Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類(lèi)多種神經(jīng)網(wǎng)絡(luò)模型:n 前饋式網(wǎng)絡(luò):以感知機(jī)、反向傳播模型 BP、 函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測(cè)、模式識(shí)別等方面。3分類(lèi)規(guī)則實(shí)例低風(fēng)險(xiǎn)收入 ¥ 40,000工作時(shí)間 5年 高負(fù)債高風(fēng)險(xiǎn)高風(fēng)險(xiǎn)低風(fēng)險(xiǎn)否否 否是是是If 收入 ? ¥ 40,000 而且工作時(shí)間 5年 then低風(fēng)險(xiǎn)4分類(lèi)數(shù)據(jù)n The data used to build a classification model consists ofn A set of records.n Each record has the same number of fields.n One field in these record contains indicators of classes which records belong to. This field is called target field.n Other fields are called independent fields which describe the individual objects represented by the records.5決策表實(shí)例6決策樹(shù)n are widely used in data mining.n were developed in machine learning and statistics.n are used to build classification and prediction models.n are widely available.判定樹(shù)分類(lèi)算法 output訓(xùn)練集 決策樹(shù)input新數(shù)據(jù)分類(lèi)7使用決策樹(shù)進(jìn)行分類(lèi)n 決策樹(shù) n 一個(gè)樹(shù)形的結(jié)構(gòu)n 內(nèi)部節(jié)點(diǎn)上選用一個(gè)屬性進(jìn)行分割n 每個(gè)分叉都是分割的一個(gè)部分n 葉子節(jié)點(diǎn)表示一個(gè)分類(lèi)n 決策樹(shù)生成算法分成兩個(gè)步驟n 樹(shù)的生成n 開(kāi)始,數(shù)據(jù)都在根節(jié)點(diǎn)n 遞歸的進(jìn)行數(shù)據(jù)分片n 樹(shù)的修剪:去掉一些可能是噪音或者異常的數(shù)據(jù)n 決策樹(shù)使用 : 對(duì)未知數(shù)據(jù)進(jìn)行分割n 按照決策樹(shù)上采用的分割屬性逐層往下,直到葉子節(jié)點(diǎn)8決策樹(shù)算法n 基本算法(貪心算法)n 自上而下分而治之的方法n 開(kāi)始時(shí)所有的實(shí)例都在根節(jié)點(diǎn)n 屬性都是分類(lèi)型 (如果是連續(xù)的,將其離散化 )n 所有記錄用所選屬性遞歸的進(jìn)行分割n 屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量 (如信息增益 )n 停止分割的條件n 一個(gè)節(jié)點(diǎn)上的實(shí)例都屬于同一個(gè)類(lèi)別;n 沒(méi)有屬性可以再用于對(duì)數(shù)據(jù)進(jìn)行分割9屬性選擇的統(tǒng)計(jì)度量n 信息增益 —Information gain (ID3/)n 所有屬性假設(shè)都是分類(lèi)型字段n 經(jīng)過(guò)修改之后可以適用于數(shù)值型字段n 基尼指數(shù) —Gini index (IBM Intelligent Miner)n 能夠適用于分類(lèi)和數(shù)值字段n 其他10信息增益度度量 (ID3/)n 任意樣本分類(lèi)的期望信息:n I(s1,s2,……,sm)=- ∑Pi log2(pi) (i=1..m)n 其中,數(shù)據(jù)集為 S, m為 S的分類(lèi)數(shù)目, Pin Ci為某分類(lèi)標(biāo)號(hào), Pi為任意樣本屬于 Ci的概率, si為分類(lèi) Ci上的樣本數(shù)n 由 A劃分為子集的熵:n E(A)= ∑j(|s1j|+ ……+|smj|)/|s| * I(s1j, ……, smj)n A為屬性,具有 V個(gè)不同的取值n 信息增益: Gain(A)= I(s1,s2,……,sm) - E(A)11訓(xùn)練集12使用信息增益進(jìn)行屬性選擇g Class P: buys_puter = “yes”g Class N: buys_puter = “no”g I(p, n) = I(9, 5) =g Compute the entropy for age:HenceSimilarly13分枝14決策樹(shù)age?overcaststudent? credit rating?no yes fairexcellent=30 40no noyes yesyes30..40151617基尼指數(shù)( Gini Index)n 集合 T包含 n個(gè)類(lèi)別的記錄,那么其 Gini指數(shù)就是pj 類(lèi)別 j出現(xiàn)的頻率n 如果集合 T分成兩部分 N1 and N2 。n 分類(lèi)要解決的問(wèn)題是為一個(gè)事件或?qū)ο髿w類(lèi),即確定一個(gè)特定的對(duì)象屬于哪一類(lèi)。由于促銷(xiāo)預(yù)算的限制,他只允許給 36000位顧客促銷(xiāo)袋。28神經(jīng)元n 神經(jīng)元:每個(gè)細(xì)胞處于兩種狀態(tài),突觸聯(lián)接有強(qiáng)度。 第一次把神經(jīng)網(wǎng)絡(luò)研究從純理論的探討推向工程實(shí)現(xiàn),在 IBM704計(jì)算機(jī)上進(jìn)行了模擬,證明了該模型有能力通過(guò)調(diào)整權(quán)的學(xué)習(xí)達(dá)到正確分類(lèi)的結(jié)果。 X和 Y的聯(lián)合概率和條件概率滿(mǎn)足下列關(guān)系:n 變換后得到41樸素貝葉斯分類(lèi)器 n 對(duì)于屬性集 ,如果 之間相互獨(dú)立,即 ,有樸素貝葉斯分類(lèi)器: 其中 是常數(shù),先驗(yàn)概率 可以通過(guò)訓(xùn)練集中每類(lèi)樣本所占的比例估計(jì)。當(dāng)一封新的郵件到達(dá)時(shí),這封郵件的內(nèi)容將被分解成字串。 Ci稱(chēng)為簇。有兩種計(jì)算相異度的方法 :n 方法 1: 簡(jiǎn)單匹配方法n m是匹配的數(shù)目 , p是全部變量的數(shù)目n 方法 2: 使用二元變量n 為每一個(gè)狀態(tài)創(chuàng)建一個(gè)新的二元變量,可以用非對(duì)稱(chēng)的二元變量來(lái)編碼標(biāo)稱(chēng)變量。n 應(yīng)用實(shí)例:用它來(lái)識(shí)別欺詐行為模式或控制生產(chǎn)過(guò)程的質(zhì)量。n 關(guān)聯(lián)分析即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。n 關(guān)聯(lián)分析又稱(chēng)購(gòu)物籃分析,在銷(xiāo)售配貨、商店商品的陳列設(shè)計(jì)、超市購(gòu)物路線設(shè)計(jì)、產(chǎn)品定價(jià)和促銷(xiāo)等方面得到廣泛應(yīng)用。n 項(xiàng)目是一個(gè)從具體問(wèn)題中抽象出的一個(gè)概念。若項(xiàng)目集包含的項(xiàng)目數(shù)為 k, 則稱(chēng)此項(xiàng)目集為 k項(xiàng)目集。n 置信度反應(yīng)了關(guān)聯(lián)規(guī)則的可信度 —購(gòu)買(mǎi)了項(xiàng)目集X中的商品的顧客同時(shí)也購(gòu)買(mǎi)了 Y中商品的 可能性 有多大。 Y ? Z 具有最小支持度和可信度n 支持度 , s, 交易中包含 {X 、 Y 、 Z}的 可能性n 可信度 , c, 包含 {X 、 Y}的交易中也包含 Z的 條件概率設(shè)最小支持度為 50%, 最小可信度為 50%, 則可得到A ? C (50%, %)C ? A (50%, 100%)買(mǎi)尿布的客戶(hù)二者都買(mǎi)的客戶(hù)買(mǎi)啤酒的客戶(hù)93關(guān)聯(lián)規(guī)則挖掘:路線圖n 布爾 vs. 定量 關(guān)聯(lián) (基于處理數(shù)據(jù)的類(lèi)型 )n buys(x, “SQLServer”) ^ buys(x, “DMBook”) 174。96如何生成候選集n 假定 Lk1 中的項(xiàng)按順序排列n 第一步 : 自連接 Lk1 insert into Ckselect , , …, k1, from Lk1 p, Lk1 qwhere =, …, k2=, n 第二步 : 修剪forall itemsets c in Ck doforall (k1)subsets s of c doif (s is not in Lk1) then delete c from Ck97生成候選集的例子n L3={abc, abd, acd, ace, bcd}n 自連接 : L3*L3n abc 和 abd 得到 abcd n acd 和 ace 得到 acden 修剪 :n ade 不在 L3中,刪除 acden C4={abcd}98Apriori算法例子數(shù)據(jù)庫(kù) D掃描 DC1 L1L2C2掃描 DC3 L3掃描 D {2,3}{5}99Apriori 夠快了嗎 ? — 性能瓶頸n Apriori算法的核心 :n 用頻繁的 (k – 1)項(xiàng)集生成候選的頻繁 k項(xiàng)集n 用數(shù)據(jù)庫(kù)掃描和模式匹配計(jì)算候選集的支持度n Apriori 的瓶頸 : 候選集生成n 巨大的候選集 :n 多次掃描數(shù)據(jù)庫(kù) : n 如果最長(zhǎng)的模式是 n的話,則需要 n +1次數(shù)據(jù)庫(kù)掃描100多層關(guān)聯(lián)規(guī)則n 項(xiàng)通常具有層次。 復(fù)旦面包房 黃面包n 不同種分層方法間的關(guān)聯(lián)規(guī)則 :酸奶 174。n 序列模式定義:給定一個(gè)由不同序列組成的集合,其中每個(gè)序列由不同的元素按順序有序排列,每個(gè)元素由不同項(xiàng)目組成,同時(shí)給定一個(gè)用戶(hù)指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶(hù)指定的最小支持度閾值。 DNA序列分析114序列模式n 符號(hào)化表示:167。長(zhǎng)度為 l的序列記為 l序列。 長(zhǎng)度為 l的序列模式記為 l模式。 需要的卻是給定時(shí)間間隔內(nèi)用戶(hù)的購(gòu)買(mǎi)意向。L1? C2 ? L2 ? C3 ? L3 ? C4 ? L4 ? ……122實(shí)例n 下表演示了如何從長(zhǎng)度為 3的序列模式產(chǎn)生長(zhǎng)度為 4的候選序列模式。許多問(wèn)題可以用線性回歸方法解決,而更多的問(wèn)題則可以對(duì)變量進(jìn)行變換,使得非線性的問(wèn)題轉(zhuǎn)換為線性的問(wèn)題加以處理。為此,可以采用最小二乘法計(jì)算。由于可以利用已知樣本數(shù)據(jù)進(jìn)行估計(jì)。s not linear, you39。把樣本數(shù)據(jù)代入 ,得到 ,式中 表示 X的轉(zhuǎn)置,而 表示 的逆操作。 141一元線性回歸模型的統(tǒng)計(jì)檢驗(yàn) n F檢驗(yàn)法、 t檢驗(yàn)法和 r檢驗(yàn)法等 142一元回歸分析應(yīng)用 n 表給出某種產(chǎn)品在 2022年 8個(gè)地區(qū)的銷(xiāo)售數(shù)據(jù),試建立該種產(chǎn)品的月平均銷(xiāo)售收入 y對(duì)月平均廣告支出 x的線性回歸方程。一元線性回歸模型表示為 ,其中 a和 b是系數(shù), 是隨機(jī)變量。n 有關(guān)時(shí)序和序列數(shù)據(jù)挖掘的研究?jī)?nèi)容包括趨勢(shì)分析,在時(shí)序分析中的相似度搜索以及與時(shí)間相關(guān)數(shù)據(jù)中序列模式和周期模式的挖掘等。120GSP算法n 掃描序列數(shù)據(jù)庫(kù),得到長(zhǎng)度為 1的序列模式 L1, 作為初始的種子集。118序列模式挖掘的主要算法n GSP(Generalized Sequential Patterns)算法:類(lèi)似于Apriori算法。 序列 ?在序列數(shù)據(jù)庫(kù) S中的支持?jǐn)?shù)為序列數(shù)據(jù)庫(kù) S中包含序列 ?的序列個(gè)數(shù),記為 Support(?)。167。 客戶(hù)購(gòu)買(mǎi)行為模式預(yù)測(cè)167。序列模式尋找的是事件之間在順序上的相關(guān)性。n 可以進(jìn)行共享的多維挖掘。for (k = 1。因此整個(gè)關(guān)聯(lián)規(guī)則挖掘過(guò)程可以分解為以下兩個(gè)子問(wèn)題:n 找出所有的頻繁項(xiàng)目集;n 根據(jù)找到的頻繁項(xiàng)目集導(dǎo)出所有的強(qiáng)關(guān)聯(lián)規(guī)則。87頻繁項(xiàng)目集n 定義 5:對(duì)任意的項(xiàng)目集 X, 若事務(wù)數(shù)據(jù)庫(kù) D中?%的事務(wù)包含項(xiàng)目集 X, 則項(xiàng)目集的支持率為 ?,記為 support( X) = ?, 其中包含項(xiàng)目集 X的事務(wù)數(shù)稱(chēng)為項(xiàng)目集 X的頻度,記為 count( X)。一條事務(wù) T是 I中項(xiàng)目的集合。 Beer number of transactions containing Cannedveg amp。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。異常探測(cè)算法對(duì)異常
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1