freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

清華大學(xué)大數(shù)據(jù)課程第4次課數(shù)據(jù)挖掘技術(shù)145-預(yù)覽頁(yè)

 

【正文】 Decision Trees ? 傾向性分析 ? 客戶保留 ? 客戶生命周期管理 ? 目標(biāo)市場(chǎng) ? 價(jià)格彈性分析 ? 客戶細(xì)分 ? 市場(chǎng)細(xì)分 ? 傾向性分析 ? 客戶保留 ? 目標(biāo)市場(chǎng) ? 欺詐檢測(cè) 關(guān)聯(lián)分析 Association ? 市場(chǎng)組合分析 ? 套裝產(chǎn)品分析 ? 目錄設(shè)計(jì) ? 交叉銷售 數(shù)據(jù)挖掘步驟 ?數(shù)據(jù)預(yù)處理 ?數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù),補(bǔ)缺) ?數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起) ?數(shù)據(jù)變換(規(guī)范化) ?數(shù)據(jù)規(guī)約(數(shù)據(jù)簡(jiǎn)化) ?數(shù)據(jù)挖掘算法(使用智能方法提取數(shù)據(jù)模式) ?分類、聚類、關(guān)聯(lián)分析、回歸預(yù)測(cè)、文本挖掘 ?質(zhì)量評(píng)估(識(shí)別提供知識(shí)的真正有趣模式) ?知識(shí)表示(可視化和知識(shí)表示技術(shù)) 數(shù)據(jù)質(zhì)量:為何需要數(shù)據(jù)預(yù)處理? ?數(shù)據(jù)質(zhì)量衡量: ?準(zhǔn)確度 :correct or wrong, accurate or not ?完整度 :not recorded unavailable ?一致性 :some modified but some not, dangling ?時(shí)效性 :timely update? ?可信度 :how trustable the data are correct? ?可解釋性 :how easily the data can be understood? 數(shù)據(jù)挖掘預(yù)處理的主要任務(wù) ?數(shù)據(jù)清理 ?填寫空缺的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),解決不一致性 ?數(shù)據(jù)集成 ?集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件 ?數(shù)據(jù)變換 ?規(guī)范化和聚集 ?數(shù)據(jù)歸約 ?得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果 ?數(shù)據(jù)離散化 ?數(shù)據(jù)歸約的一部分,通過概念分層和數(shù)據(jù)的離散化來規(guī)約數(shù)據(jù),對(duì)數(shù)字型數(shù)據(jù)特別重要 數(shù)據(jù)清洗 ?臟數(shù)據(jù):例如設(shè)備錯(cuò)誤,人或者機(jī)器錯(cuò)誤,傳輸錯(cuò)誤等 ?不完整性:屬性值缺失或者只有聚集數(shù)據(jù) ?例如: phone=“”。 不能制定合適的決策 ! 數(shù)據(jù) 知識(shí) 決策 ? 模式 ? 趨勢(shì) ? 事實(shí) ? 關(guān)系 ? 模型 ? 關(guān)聯(lián)規(guī)則 ? 序列 ? 目標(biāo)市場(chǎng) ? 資金分配 ? 貿(mào)易選擇 ? 在哪兒做廣告 ? 銷售的地理位置 ? 金融 ? 經(jīng)濟(jì) ? 政府 ? 人口統(tǒng)計(jì) ? 生命周期 數(shù)據(jù)挖掘的意義 數(shù)據(jù)挖掘 輔助社會(huì)管理 促進(jìn)民生改善 支持商業(yè)決策 推動(dòng)科技進(jìn)步 股票趨勢(shì)分析 智能交通 數(shù)據(jù)挖掘應(yīng)用 ? 銀行 ? 美國(guó)銀行家協(xié)會(huì) (ABA)預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在美國(guó)商業(yè)銀行的應(yīng)用增長(zhǎng)率是 %。這些孤立點(diǎn)可能包含有用的信息。 ?聚集:對(duì)數(shù)據(jù)進(jìn)行匯總或聚集。 數(shù)據(jù)變換 ?平滑 , 聚集 ?數(shù)據(jù)概化 , 規(guī)范化 ?屬性構(gòu)造 (特征構(gòu)造 ) 有限區(qū)間的歸一化: 無限區(qū)間的歸一化: 模糊隸屬度: m i nm a xm i nvv???39。 ?對(duì)歸約后的數(shù)據(jù)集 挖掘?qū)⒏行?,并產(chǎn)生相同(或幾乎相同)的結(jié)果。 屬性子集選擇 ?通過刪除不相關(guān)或冗余的屬性(或維)減小數(shù)據(jù)集。 ?如貪心算法:從局部最優(yōu)到全局最優(yōu)。 ?小波變換( DWT):有損,適合高維數(shù)據(jù)。 ?參數(shù)方法:回歸( regression )和對(duì)數(shù)線性模型 ?非參數(shù)方法:直方圖、聚類、抽樣 離散化 ?離散化的用途 : ( 1)適應(yīng)某些僅接受離散值的算法; ( 2)減小數(shù)據(jù)的尺度。 ?抽樣方法 ?s個(gè)樣本無放回簡(jiǎn)單隨機(jī)抽樣 ?s個(gè)樣本有放回簡(jiǎn)單隨機(jī)抽樣 ?聚類抽樣 ?分層抽樣 分類 分類 ?分類是指將數(shù)據(jù) 映射到預(yù)先定義好 的群組或 類。 分類應(yīng)用 ?分類具有廣泛的應(yīng)用,例如 醫(yī)療診斷、信用卡系統(tǒng)的信用分級(jí)、圖像模式識(shí) 別等。 ? 訓(xùn)練數(shù)據(jù)集中的單個(gè)元組稱作 訓(xùn)練樣本 ,假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)稱作 類標(biāo)號(hào) 。 ( 1)模型的構(gòu)建 Training Data Classification Algorithms IF rank = ‘ professor’ OR years 6 THEN tenured = ‘ yes’ Classifier (Model) NAME RANK YEARS TENURED Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no ( 2)利用模型分類 Classifier Testing Data N A M E RANK Y E A R S T E N U R E DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e sUnseen Data (Jeff, Professor, 4) Tenured? 分類方法評(píng)價(jià) ? 預(yù)測(cè)的準(zhǔn)確率 ? 這涉及模型正確地預(yù)測(cè)新的或先前未見過的數(shù)據(jù)的類標(biāo)號(hào)的能力 ? 速度 ? 構(gòu)造模型的速度 ? 利用模型進(jìn)行分類的速度 ? 強(qiáng)壯性 ? 給定噪聲數(shù)據(jù)或具有空缺值的數(shù)據(jù),模型正確預(yù)測(cè)的能力 ? 可伸縮性 ? 當(dāng)給定大量數(shù)據(jù)時(shí),有效地構(gòu)造模型的能力 ? 可解釋性 ? 涉及學(xué)習(xí)模型提供的理解和洞察的層次 分類器性能評(píng)價(jià)方式 ? 準(zhǔn)確率和召回率 混淆矩陣 等 ? 給定一個(gè)類 Cj和一個(gè)數(shù)據(jù)庫(kù)元組 ti, ti可能被分類器判定為屬于 Cj或不屬于 Cj,其實(shí) ti本身可能屬于 Cj或不屬于 Cj,這樣就會(huì)產(chǎn)生如下一些情況: – 真正 : 判定 ti在 Cj中,實(shí)際上的確在其中。 ?準(zhǔn)確率 :P=A/(A+B) ?召回率 :R=A/(A+C) 評(píng)估分類方法的準(zhǔn)確性 ?保持方法 ?給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合:訓(xùn)練集 (2/3)和測(cè)試集 (1/3) ?訓(xùn)練集導(dǎo)出分類法,測(cè)試集對(duì)其準(zhǔn)確性進(jìn)行評(píng)估 ?k折交叉驗(yàn)證 ?初始數(shù)據(jù)被劃分為 k個(gè)不相交的,大小大致相同的子集 S1,S2…S k ?進(jìn)行 k次訓(xùn)練和測(cè)試,第 i次時(shí),以 Si做測(cè)試集,其他做訓(xùn)練集 ?準(zhǔn)確率為 k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù) 分類方法 基于距離的分類方法 ?與一個(gè)類中的成員和另一個(gè)類中的成員之間的相似性相比,被映射到同一個(gè)類中的成員彼此之間被認(rèn)為是更加相似的。 x , y 241。 B |基于距離的分類方法的一般性描述 ? 算法 基于距離的分類算法 ? 輸入:每個(gè)類的中心 C1, … , Cm;待分類的元組 t。 ? 訓(xùn)練樣本用 n維數(shù)值屬性描述。 K近鄰算法( KNN) ? 要求的信息 ? 訓(xùn)練集 ? 距離計(jì)算值 ? 要獲取的最鄰近的鄰居的數(shù)目 k ? 一個(gè)未知的記錄進(jìn)行分類 ? 計(jì)算與其它訓(xùn)練記錄之間的距離 ? 識(shí)別出 k個(gè)最近的鄰居 ? 使用最近鄰居的類標(biāo)號(hào)來標(biāo)識(shí)未知元組的類( by taking majority vote) K近鄰算法( KNN) 算法 K近鄰分類算法 輸入: 訓(xùn)練數(shù)據(jù) T;近鄰數(shù)目 K;待分類的元組 t。 q決策樹 決策樹( Decision Tree) ? 決策樹是以實(shí)例為基礎(chǔ) 的 歸納學(xué)習(xí)算法 。 決策樹 例如,在貸款申請(qǐng)中,要對(duì)申請(qǐng)的風(fēng)險(xiǎn)大小做出判斷。 決策樹的步驟 ?使用決策樹進(jìn)行分類分為兩步: ?第 1步:利用訓(xùn)練集 建立 并精化一棵 決策樹 , 建立決策樹模型 。 決策樹 ?算法遞歸執(zhí)行的終止條件(停止分支的條件) ? 對(duì)于給定的節(jié)點(diǎn), 所有的例子都屬于同一個(gè)類 ? 雖然對(duì)于某一個(gè)節(jié)點(diǎn)當(dāng)前的例子不屬于同一個(gè)類,但是已經(jīng) 沒有屬性 可用來選擇繼續(xù)進(jìn)行分支處理 分裂屬性選擇 ?選擇屬性的方法 ? 選擇具有 最大信息增益 的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性 ? 該屬性使得對(duì)結(jié)果劃分中的樣本分類所需的 信息量最小 ,并反映劃分的最小隨機(jī)性。 ?選擇具有 最高信息增益 的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性。 分別計(jì)算不同屬性的信息增益。 ? IFTHEN分類規(guī)則表達(dá)方式易于被人理解,且當(dāng)決策樹較大時(shí), IFTHEN規(guī)則表示形式的優(yōu)勢(shì)就更加突出。 P(C|X)是后驗(yàn)概率 , 或稱條件 X下 C的后驗(yàn) 概率 。 (2)假 定有 m個(gè)類 C1, C2, … , Cm, 給定一個(gè)未知的數(shù)據(jù)樣本 X( 即沒有類標(biāo)號(hào) ) , 分類器將預(yù)測(cè) X屬于具有最高后驗(yàn)概率 ( 條件 X下 ) 的類 。 如果 Ci類的先驗(yàn)概率未知 , 則通常假定這些類是等概率的 , 即 P(C1)=P(C2)=… =P(Cm), 因此問題就轉(zhuǎn)換為對(duì)P(X|Ci)的最大化 ( P(X|Ci)常被稱為給定 Ci時(shí)數(shù)據(jù) X的似然度 , 而使 P(X|Ci)最大的假設(shè) Ci稱為 最大似然假設(shè) ) 。為降低計(jì)算 P(X|Ci)的開銷,可以做類條件獨(dú)立的樸素假定。 ?如果 Ak是連續(xù)值屬性,常用的處理方法有兩種:一是對(duì)其離散化,然后按照離散值處理;另一種假定這一屬性服從某一分布,通常假定該屬性服從高斯分布。 樸素貝葉斯分類舉例 希望分類的未知樣本為 : X=( age=“ =30” ,ine=“ medium” ,student=“ yes” ,credit_rating=“ fair” ) 思路 :計(jì)算每一個(gè)類的P(Ci|X)=P(X|Ci)P(Ci)/P(X) , Ci代表任意一個(gè)類, X代表需要判斷的查詢條件 樸素貝葉斯分類舉例 設(shè) C1對(duì)應(yīng)于類 buys_puter=“ yes” , C2對(duì)應(yīng)于類 buys_puter=“ no” 。 樸素貝葉斯分類舉例 (3) 假設(shè)條件獨(dú)立性 , 使用以上概率 , 得到: P(X|buys_puter=“ yes” )=***=, P(X|buys_puter=“ no” )=***=, P(X|buys_puter=“ yes” )*P(buys_puter=“ yes” )= *=, P(X|buys_puter=“ no” )*P(buys_puter=“ no” )= *=。 (有訓(xùn)練語(yǔ)料與無訓(xùn)練語(yǔ)料) ?Train And Classification (分類) 。它將對(duì)象劃分為群或聚類,使得在一個(gè)聚類中的對(duì)象“類似”,但與其它聚類中的對(duì)象“不類似”。 Kmeans ?初始參數(shù) 類別數(shù) 初始類別中心 。 容易陷入局部最優(yōu) 。 ?4 在得到類別中心下繼續(xù)進(jìn)行類別劃分 。 左側(cè)的全體數(shù)據(jù)僅與第一個(gè)類別中心相似 。選擇 E最小的那個(gè) Or來代替 Oi。 21 | | | | ||iiiicxCi e i ei i x Cc x m Cxm J x m JC???? ? ????個(gè) 類 別 , 待 聚 類 數(shù) 據(jù) , 為 類 別 的 中 心 ,越 小 聚 類 結(jié) 果 越 好39。根據(jù)層次的分解如何形成,層次的方法可以被分為凝聚或分裂方法。這種方法的主要優(yōu)點(diǎn)是它的處理速度很快。 ?密度可達(dá)性是直接密度可達(dá)性的 傳遞閉包 ,這種關(guān)系是 非對(duì)稱 的。 p q o DBSCAN DBSCAN算法描述: ? 輸入:包含 n個(gè)對(duì)象的數(shù)據(jù)庫(kù),半徑 ε ,最少數(shù)目 MinPts。 ? 第 2步,在數(shù)據(jù)庫(kù)中選擇一點(diǎn) 2,由于在以它為圓心的,以1為半徑的圓內(nèi)包含 2個(gè)點(diǎn),因此它不是核心點(diǎn),選擇下一個(gè)點(diǎn)。 ? 第 6步,在數(shù)據(jù)庫(kù)中選擇一點(diǎn) 6,由于在以它為圓心的,以 1為半徑的圓內(nèi)包含 3個(gè)點(diǎn),因此它不是核心點(diǎn),選擇下一個(gè)點(diǎn)。 ? 第 10步,在數(shù)據(jù)庫(kù)中選擇一點(diǎn) 10,已經(jīng)在簇 1中,選擇下一個(gè)點(diǎn)。 ? 應(yīng)用: ?購(gòu)物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)等。 第 1個(gè)子問題是近年來關(guān)聯(lián)規(guī)則挖掘算法研究的重點(diǎn)。 it e m s e t s u p{ 1 2 3 5 } 25%Apriori算法例子 ite m s e t s u p{ 1 2 3 } 25%{
點(diǎn)擊復(fù)制文檔內(nèi)容
范文總結(jié)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1