【文章內(nèi)容簡(jiǎn)介】
ts Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 【 案例 2】 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 ? 多媒體數(shù)據(jù)庫(kù)是指存儲(chǔ)和管理大量多媒體對(duì)象的數(shù)據(jù)庫(kù) ,如音頻數(shù)據(jù) 、 圖像數(shù)據(jù)和視頻數(shù)據(jù) 。 ? 多媒體數(shù)據(jù)庫(kù)用于基于內(nèi)容的提取 、 聲音 、 圖片和視頻搜索等 。 ? 多媒體數(shù)據(jù)庫(kù)必須支持大對(duì)象 , 因?yàn)橄笠曨l這樣的數(shù)據(jù)對(duì)象可能需要數(shù)十億字節(jié)的存儲(chǔ) 。 ? 還需要特殊的存儲(chǔ)和檢索技術(shù) , 因?yàn)橐曨l和音頻數(shù)據(jù)需要以穩(wěn)定的 、 預(yù)先確定的速率實(shí)時(shí)檢索 , 防止圖象或聲音間斷和系統(tǒng)緩沖區(qū)溢出 。 這種數(shù)據(jù)稱(chēng)為連續(xù)媒體數(shù)據(jù) 。 多媒體數(shù)據(jù)庫(kù) All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 數(shù)據(jù)挖掘與商業(yè)智能 1 什么激發(fā)數(shù)據(jù)挖掘? 2 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù) 3 數(shù)據(jù)挖掘算法及應(yīng)用 4 數(shù)據(jù)挖掘軟件的發(fā)展 5 商業(yè) 智能 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 Debt10% of Ine Debt=0% Good Credit Risks Bad Credit Risks Good Credit Risks Yes Yes Yes NO NO NO Ine$40K Q Q Q Q I I 1 2 3 4 5 6 factor 1 factor 2 factor n 神經(jīng)網(wǎng)絡(luò) Neural Networks 聚類(lèi)分析 Clustering Open Ac’t Add New Product Decrease Usage ??? Time 序列分析 Sequence Analysis 決策樹(shù) Decision Trees ? 傾向性分析 ? 客戶保留 ? 客戶生命周期管理 ? 目標(biāo)市場(chǎng) ? 價(jià)格彈性分析 ? 客戶細(xì)分 ? 市場(chǎng)細(xì)分 ? 傾向性分析 ? 客戶保留 ? 目標(biāo)市場(chǎng) ? 欺詐檢測(cè) 關(guān)聯(lián)分析 Association ? 市場(chǎng)組合分析 ? 套裝產(chǎn)品分析 ? 目錄設(shè)計(jì) ? 交叉銷(xiāo)售 數(shù)據(jù)挖掘中的算法及應(yīng)用 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 分類(lèi)與預(yù)測(cè) ? 分類(lèi): – 預(yù)測(cè)分類(lèi)標(biāo)號(hào)(或離散值) – 根據(jù)訓(xùn)練數(shù)據(jù)集和類(lèi)標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類(lèi)現(xiàn)有數(shù)據(jù),并用來(lái)分類(lèi)新數(shù)據(jù) ? 預(yù)測(cè): – 建立連續(xù)函數(shù)值模型,比如預(yù)測(cè)空缺值 ? 典型應(yīng)用 – 信譽(yù)證實(shí) – 目標(biāo)市場(chǎng) – 醫(yī)療診斷 – 性能預(yù)測(cè) All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 數(shù)據(jù)分類(lèi):兩步過(guò)程 ? 第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類(lèi)集和概念集 – 假定每個(gè)元組屬于一個(gè)預(yù)定義的類(lèi),由一個(gè)類(lèi)標(biāo)號(hào)屬性確定 – 基本概念 ? 訓(xùn)練數(shù)據(jù)集 :由為建立模型而被分析的數(shù)據(jù)元組形成 ? 訓(xùn)練樣本 :訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本(元組) – 學(xué)習(xí)模型可以用分類(lèi)規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式提供 ? 第二步,使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類(lèi) – 首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率 ? 對(duì)每個(gè)測(cè)試樣本,將已知的類(lèi)標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類(lèi)預(yù)測(cè)比較 ? 模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類(lèi)的測(cè)試樣本的百分比 ? 測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 第一步:建立模型 訓(xùn)練數(shù) 據(jù)集 N A M E RANK Y E A R S T E N U R E DM i k e A s s i s t a n t P r o f 3 noM a r y A s s i s t a n t P r o f 7 y e sB i l l P r o f e s s o r 2 y e sJ i m A s s o c i a t e P r o f 7 y e sD a v e A s s i s t a n t P r o f 6 noA n n e A s s o c i a t e P r o f 3 no分類(lèi)算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 分類(lèi)規(guī)則 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 第二步:用模型進(jìn)行分類(lèi) 分類(lèi)規(guī)則 測(cè)試集 NA M E RA NK Y E A RS T E NURE DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 用判定樹(shù)歸納分類(lèi) ? 什么是判定樹(shù)? – 類(lèi)似于流程圖的樹(shù)結(jié)構(gòu) – 每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試 – 每個(gè)分枝代表一個(gè)測(cè)試輸出 – 每個(gè)樹(shù)葉節(jié)點(diǎn)代表類(lèi)或類(lèi)分布 ? 判定樹(shù)的生成由兩個(gè)階段組成 – 判定樹(shù)構(gòu)建 ? 開(kāi)始時(shí),所有的訓(xùn)練樣本都在根節(jié)點(diǎn) ? 遞歸的通過(guò)選定的屬性,來(lái)劃分樣本 (必須是離散值) – 樹(shù)剪枝 ? 許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn),樹(shù)剪枝試圖檢測(cè)和剪去這種分枝 ? 判定樹(shù)的使用:對(duì)未知樣本進(jìn)行分類(lèi) – 通過(guò)將樣本的屬性值與判定樹(shù)相比較 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 判定歸納樹(shù)算法 ? 判定歸納樹(shù)算法(一個(gè)貪心算法) – 自頂向下的分治方式構(gòu)造判定樹(shù) – 樹(shù)以代表訓(xùn)練樣本的單個(gè)根節(jié)點(diǎn)開(kāi)始 – 使用分類(lèi)屬性(如果是量化屬性,則需先進(jìn)行離散化) – 遞歸的通過(guò)選擇相應(yīng)的 測(cè)試屬性 ,來(lái)劃分樣本,一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何后代上出現(xiàn) – 測(cè)試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計(jì)信息來(lái)進(jìn)行選擇(如:信息增益) ? 遞歸劃分步驟停止的條件 – 給定節(jié)點(diǎn)的所有樣本屬于同一類(lèi) – 沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本 ——使用多數(shù)表決 – 沒(méi)有剩余的樣本 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 判定歸納樹(shù)舉例 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 其他分類(lèi)方法 ? k最臨近分類(lèi) – 給定一個(gè)未知樣本, k最臨近分類(lèi)法搜索模式空間,找出最接近未知樣本的 k個(gè)訓(xùn)練樣本;然后使用 k個(gè)最臨近者中最公共的類(lèi)來(lái)預(yù)測(cè)當(dāng)前樣本的類(lèi)標(biāo)號(hào) ? 基于案例的推理 – 樣本或案例使用復(fù)雜的符號(hào)表示,對(duì)于新案例,先檢測(cè)是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類(lèi)似的訓(xùn)練案例 ? 遺傳算法 – 結(jié)合生物進(jìn)化思想的算法 ? 粗糙集方法 ? 貝葉斯方法 ? 模糊集方法 – 允許在分類(lèi)規(guī)則中定義“模糊的”臨界值或邊界 All Rights Reserved, 吳聯(lián)仁 北京第二外國(guó)語(yǔ)學(xué)院 什么是預(yù)測(cè)? ? 預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無(wú)樣本類(lèi),或評(píng)估給定樣本可能具有的屬性或值空間。 ? 預(yù)測(cè)和分類(lèi)的異同 ? 相同點(diǎn) – 兩者都需要構(gòu)建模型 – 都用模型來(lái)估計(jì)未知值 ? 預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析 – 線性回歸和多元回歸 – 非線性回歸 ? 不同點(diǎn) – 分類(lèi)法主要是用來(lái)預(yù)測(cè)類(lèi)標(biāo)號(hào)(分類(lèi)屬性值) – 預(yù)測(cè)法主要是用來(lái)估計(jì)連續(xù)值(量化屬性值) All Rights Reser