freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘分類和預測(留存版)

2025-10-25 12:12上一頁面

下一頁面
  

【正文】 tor: xi wij ? ?? i jiijj OwI ?jIj eO ??? 1 1))(1( jjjjj OTOOE r r ???ijijij OE r rlww )(??jjj E r rl )(?? ??jkk kjjj wE r rOOE r r ??? )1(2020年 9月 16日星期三 Data Mining: Concepts and Techniques 48 計算實例 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 49 ? 一個訓練樣本 X={1,0,1},輸出為 1 ? X1=1,x2=0,x3=1,w14=,w15=,w24=,w25=,w34=,w35=,w46=,w56=, ? 偏置值 :節(jié)點 4:,節(jié)點 5:,節(jié)點 6: ? 學習率設為 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 50 ? 節(jié)點 4: 輸入值 :w14*x1+w24*x2+w34*x3+節(jié)點 4的偏置 =1*+**= 輸出值 :用公式 可得 ? 同理 :節(jié)點 5輸入值 ,輸出值 ? 節(jié)點 6: 輸入值 :w46*o4+w56*o5+節(jié)點 6的偏置 =**+= 輸出值 : jIj eO ??? 1 12020年 9月 16日星期三 Data Mining: Concepts and Techniques 51 誤差計算 ? 節(jié)點 6: *()*()= ? 節(jié)點 5: *()**()= ? 同理節(jié)點 4誤差為 : ))(1( jjjjj OTOOE r r ???jkk kjjj wE r rOOE r r ??? )1(2020年 9月 16日星期三 Data Mining: Concepts and Techniques 52 更新權值和偏置值 ? W46: +()()()= ? 其他 Wij同理 ? 節(jié)點 6的偏置 : +()*()= ? 其他偏置同理 ijijij OE r rlww )(??jjj E r rl )(?? ??2020年 9月 16日星期三 Data Mining: Concepts and Techniques 53 終止條件 ? 對所有樣本作一次掃描稱為一個周期 ? 終止條件 :對前一周期所有 Wij的修改值都小于某個指定的閾值 。P(hot|p) 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 22 對基本決策樹的提高 ? 加入對連續(xù)字段的支持 – 采用 A=V的形式 ? 處理空值 – 用最常見的值代替 – 每個可能的值都給一個概率 ? 屬性構造 – 在現(xiàn)有屬性上創(chuàng)建新的屬性 ,主要是針對一些稀疏屬性 – 從而降低 fragmentation, repetition, and replication 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 23 在大型數(shù)據(jù)庫中進行分類 ? 分類 —在統(tǒng)計和機器學習中有廣泛的研究 ? 伸縮性 : 對幾百萬記錄和幾百個屬性進行訓練的時候,能夠達到一定的速度。2020年 9月 16日星期三 Data Mining: Concepts and Techniques 1 第七章:分類和預測 什么是分類?什么是預測 關于分類和預測的一些問題 使用決策樹進行分類 貝葉斯分類 (向后傳播分類)帶回饋的分類 基于關聯(lián)規(guī)則的分類 其他分類方法 預測 分類法的準確性 總結 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 2 分類: – 預測種類字段 – 基于訓練集形成一個模型,訓練集中的類標簽是已知的。 X2檢驗 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 19 從樹中生成分類規(guī)則 ? 用 IFTHEN 這種形式來表現(xiàn)規(guī)則 ? 每個葉子節(jié)點都創(chuàng)建一條規(guī)則 ? 每個分割都成為一個規(guī)則中的一個條件 ? 葉子節(jié)點中的類別就是 Then的內(nèi)容 ? 規(guī)則對于人來說更容易理解 ? 例子 IF age = ―=30‖ AND student = ―no‖ THEN buys_puter = ―no‖ IF age = ―=30‖ AND student = ―yes‖ THEN buys_puter = ―yes‖ IF age = ―31…40‖ THEN buys_puter = ―yes‖ IF age = ―40‖ AND credit_rating = ―excellent‖ THEN buys_puter = ―yes‖ IF age = ―=30‖ AND credit_rating = ―fair‖ THEN buys_puter = ―no‖ 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 20 在分類中避免過度適應(Overfit) ? 在訓練集中生成的會可能會 Overfit – 太多的分支 , 有些可能是對異常例外的反映 – 在進行預測的時候準確率比較差 ? 兩種 – 預修剪 : ? 難點:選擇一個域值比較困難 – 后修建 : 先生成完整的樹,然后進行修剪 ? 使用另外一個的一個測試集來決定哪個樹最好 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 21 決定最終樹大小的方法 ? 使用部分數(shù)據(jù): ? 使用全部數(shù)據(jù): – 使用一個統(tǒng)計測試 (., chisquare) 來估計保留或者修剪掉一個分支的影響 ? 使用最小描述長度 (MDL) 原則 : – 當樹的 Coding最小的時候最佳。P(p) = P(rain|p)2/5 基因挖掘 基因表達路徑分析 基因表達相似性分析 基因表達共發(fā)生分析 。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 80 二、數(shù)據(jù)挖掘軟件的發(fā)展 橫向的數(shù)據(jù)挖掘工具集 ( 95年開始) ? 發(fā)展原因 – 隨著數(shù)據(jù)挖掘應用的發(fā)展,人們逐漸認識到數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結合: 1)數(shù)據(jù)庫和數(shù)據(jù)倉庫; 2)多種類型的數(shù)據(jù)挖掘算法; 3)數(shù)據(jù)清洗、轉(zhuǎn)換等預處理工作。P(false|n)如果不同字段的值少于預定值,進行完全搜索 187。 ? 相關性分析 (屬性選擇 ) – 去掉不相關或者冗余的屬性 ? 數(shù)據(jù)轉(zhuǎn)換 – 泛化或者對數(shù)據(jù)進行標準化 (1): 數(shù)據(jù)準備 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 8 關于分類和預測的問題 (2): 評估、比較分類方法 ? 預測的準確率 ? 速度 – 創(chuàng)建速度 – 使用速度 ? 強壯性 – 處理噪聲數(shù)據(jù)和缺失值數(shù)據(jù)的能力 ? 伸縮性 – 對大量數(shù)據(jù),對磁盤駐留數(shù)據(jù)的處理能力 ? 可解釋性 : – 對模型的可理解和解釋的程度。 ? 模型使用 : 用創(chuàng)建的模型預測未來或者類別未知的記錄 – 估計模型的準確率 ? 使用創(chuàng)建的模型在一個測試集上進行預測,并將結果和實際值進行比較。 屬性值 187。2/9 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 70 二、數(shù)據(jù)挖掘軟件的發(fā)展 第一代數(shù)據(jù)挖掘軟件 CBA 新加坡國立大學。 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 93 四、數(shù)據(jù)挖掘應用 數(shù)據(jù)挖掘 客 戶 分 析 析 基 分 因 其他 保險客戶 證券客戶 銀行客戶 電信客戶 零售客戶 ?信用卡 ?儲蓄卡 ?存折 ?按揭 ?借貸 人類基因 植物基因 動物基因 特殊群體基因 ?基因序列 ?基因表達譜 ?基因功能 ?基因制藥 ………... 數(shù)據(jù)挖掘中國內(nèi)地市場規(guī)模未來五年內(nèi)將達百億 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 94 四、數(shù)據(jù)挖掘應用 為什么沒有廣泛使用? ? 數(shù)據(jù)挖掘正在快速的發(fā)展 – 技術的研究和開發(fā)已經(jīng)走在很前沿的地方 – 數(shù)據(jù)挖掘應用面已經(jīng)擴充了很多 ? 但是仍然沒有希望的高,為什么? – 希望在多少年內(nèi)達到數(shù)十億元的盈利? – 是一種增值服務( Not breadandbutter) – 不能認為高不可攀,所以不去過問 – 是一門年輕的技術,需要和實際結合,解決現(xiàn)實問題 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 95 四、數(shù)據(jù)挖掘應用 國內(nèi)應用存在的問題 ? 數(shù)據(jù)積累不充分、不全面 ? 業(yè)務模型構建困難 ? 缺少有經(jīng)驗的實施者 2020年 9月 16日星期三 Data Mining: Concepts and Techniques 96 四、數(shù)據(jù)挖掘應用 業(yè)務建摸 Debt10% of Ine Debt=0% Good Credit Risks Bad Credit Risks Good Credit Risks Yes Yes Yes NO NO NO Ine$40K Q Q Q Q I I 1 2 3 4 5 6 factor 1 factor 2 factor n 神經(jīng)網(wǎng)絡 Neural Networks 聚類分析 Clustering Open Ac’t Add New Product Decrease Usage ??? Time 序列分析 Sequence Analysis 決策樹 Decision Trees ? 傾向性分析 ? 客戶保留 ? 客戶生命周期管理 ? 目標市場 ? 價格彈性分析 ? 客戶細分 ? 市場細分 ? 傾向性分析 ? 客戶保留 ? 目標市場 ? 欺詐檢測 關聯(lián)分析 Association ? 市場組合分析 ? 套裝產(chǎn)品分析 ? 目錄設計 ? 交叉銷售 2020年 9月 16日星期三 Dat
點擊復制文檔內(nèi)容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1