【文章內(nèi)容簡介】
ts Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 【 案例 2】 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 ? 多媒體數(shù)據(jù)庫是指存儲和管理大量多媒體對象的數(shù)據(jù)庫 ,如音頻數(shù)據(jù) 、 圖像數(shù)據(jù)和視頻數(shù)據(jù) 。 ? 多媒體數(shù)據(jù)庫用于基于內(nèi)容的提取 、 聲音 、 圖片和視頻搜索等 。 ? 多媒體數(shù)據(jù)庫必須支持大對象 , 因為象視頻這樣的數(shù)據(jù)對象可能需要數(shù)十億字節(jié)的存儲 。 ? 還需要特殊的存儲和檢索技術(shù) , 因為視頻和音頻數(shù)據(jù)需要以穩(wěn)定的 、 預(yù)先確定的速率實時檢索 , 防止圖象或聲音間斷和系統(tǒng)緩沖區(qū)溢出 。 這種數(shù)據(jù)稱為連續(xù)媒體數(shù)據(jù) 。 多媒體數(shù)據(jù)庫 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 數(shù)據(jù)挖掘與商業(yè)智能 1 什么激發(fā)數(shù)據(jù)挖掘? 2 數(shù)據(jù)庫與數(shù)據(jù)倉庫 3 數(shù)據(jù)挖掘算法及應(yīng)用 4 數(shù)據(jù)挖掘軟件的發(fā)展 5 商業(yè) 智能 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 Debt10% of Ine Debt=0% Good Credit Risks Bad Credit Risks Good Credit Risks Yes Yes Yes NO NO NO Ine$40K Q Q Q Q I I 1 2 3 4 5 6 factor 1 factor 2 factor n 神經(jīng)網(wǎng)絡(luò) Neural Networks 聚類分析 Clustering Open Ac’t Add New Product Decrease Usage ??? Time 序列分析 Sequence Analysis 決策樹 Decision Trees ? 傾向性分析 ? 客戶保留 ? 客戶生命周期管理 ? 目標(biāo)市場 ? 價格彈性分析 ? 客戶細(xì)分 ? 市場細(xì)分 ? 傾向性分析 ? 客戶保留 ? 目標(biāo)市場 ? 欺詐檢測 關(guān)聯(lián)分析 Association ? 市場組合分析 ? 套裝產(chǎn)品分析 ? 目錄設(shè)計 ? 交叉銷售 數(shù)據(jù)挖掘中的算法及應(yīng)用 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 分類與預(yù)測 ? 分類: – 預(yù)測分類標(biāo)號(或離散值) – 根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù) ? 預(yù)測: – 建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值 ? 典型應(yīng)用 – 信譽(yù)證實 – 目標(biāo)市場 – 醫(yī)療診斷 – 性能預(yù)測 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 數(shù)據(jù)分類:兩步過程 ? 第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集 – 假定每個元組屬于一個預(yù)定義的類,由一個類標(biāo)號屬性確定 – 基本概念 ? 訓(xùn)練數(shù)據(jù)集 :由為建立模型而被分析的數(shù)據(jù)元組形成 ? 訓(xùn)練樣本 :訓(xùn)練數(shù)據(jù)集中的單個樣本(元組) – 學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供 ? 第二步,使用模型,對將來的或未知的對象進(jìn)行分類 – 首先評估模型的預(yù)測準(zhǔn)確率 ? 對每個測試樣本,將已知的類標(biāo)號和該樣本的學(xué)習(xí)模型類預(yù)測比較 ? 模型在給定測試集上的準(zhǔn)確率是正確被模型分類的測試樣本的百分比 ? 測試集要獨立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 第一步:建立模型 訓(xùn)練數(shù) 據(jù)集 N A M E RANK Y E A R S T E N U R E DM i k e A s s i s t a n t P r o f 3 noM a r y A s s i s t a n t P r o f 7 y e sB i l l P r o f e s s o r 2 y e sJ i m A s s o c i a t e P r o f 7 y e sD a v e A s s i s t a n t P r o f 6 noA n n e A s s o c i a t e P r o f 3 no分類算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 分類規(guī)則 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 第二步:用模型進(jìn)行分類 分類規(guī)則 測試集 NA M E RA NK Y E A RS T E NURE DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 用判定樹歸納分類 ? 什么是判定樹? – 類似于流程圖的樹結(jié)構(gòu) – 每個內(nèi)部節(jié)點表示在一個屬性上的測試 – 每個分枝代表一個測試輸出 – 每個樹葉節(jié)點代表類或類分布 ? 判定樹的生成由兩個階段組成 – 判定樹構(gòu)建 ? 開始時,所有的訓(xùn)練樣本都在根節(jié)點 ? 遞歸的通過選定的屬性,來劃分樣本 (必須是離散值) – 樹剪枝 ? 許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝 ? 判定樹的使用:對未知樣本進(jìn)行分類 – 通過將樣本的屬性值與判定樹相比較 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 判定歸納樹算法 ? 判定歸納樹算法(一個貪心算法) – 自頂向下的分治方式構(gòu)造判定樹 – 樹以代表訓(xùn)練樣本的單個根節(jié)點開始 – 使用分類屬性(如果是量化屬性,則需先進(jìn)行離散化) – 遞歸的通過選擇相應(yīng)的 測試屬性 ,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何后代上出現(xiàn) – 測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進(jìn)行選擇(如:信息增益) ? 遞歸劃分步驟停止的條件 – 給定節(jié)點的所有樣本屬于同一類 – 沒有剩余屬性可以用來進(jìn)一步劃分樣本 ——使用多數(shù)表決 – 沒有剩余的樣本 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 判定歸納樹舉例 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 其他分類方法 ? k最臨近分類 – 給定一個未知樣本, k最臨近分類法搜索模式空間,找出最接近未知樣本的 k個訓(xùn)練樣本;然后使用 k個最臨近者中最公共的類來預(yù)測當(dāng)前樣本的類標(biāo)號 ? 基于案例的推理 – 樣本或案例使用復(fù)雜的符號表示,對于新案例,先檢測是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類似的訓(xùn)練案例 ? 遺傳算法 – 結(jié)合生物進(jìn)化思想的算法 ? 粗糙集方法 ? 貝葉斯方法 ? 模糊集方法 – 允許在分類規(guī)則中定義“模糊的”臨界值或邊界 All Rights Reserved, 吳聯(lián)仁 北京第二外國語學(xué)院 什么是預(yù)測? ? 預(yù)測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。 ? 預(yù)測和分類的異同 ? 相同點 – 兩者都需要構(gòu)建模型 – 都用模型來估計未知值 ? 預(yù)測當(dāng)中主要的估計方法是回歸分析 – 線性回歸和多元回歸 – 非線性回歸 ? 不同點 – 分類法主要是用來預(yù)測類標(biāo)號(分類屬性值) – 預(yù)測法主要是用來估計連續(xù)值(量化屬性值) All Rights Reser