freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[互聯(lián)網(wǎng)]數(shù)據(jù)挖掘偶然看到比較好的-在線瀏覽

2025-02-15 12:08本頁面
  

【正文】 opyright by Song Zhihuan 工業(yè)控制技術研究所 污染數(shù)據(jù)形成的原因 ? 濫用縮寫詞 ? 數(shù)據(jù)輸入錯誤 ? 數(shù)據(jù)中的內(nèi)嵌控制信息 ? 不同的慣用語 ? 重復記錄 ? 丟失值 ? 拼寫變化 ? 不同的計量單位 ? 過時的編碼 ? 含有各種噪聲 169。 2. 垃圾進、垃圾出 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 數(shù)據(jù)規(guī)約 ? 數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達到相同或基本相同的分析結果 ? 主要策略 : ? 數(shù)據(jù)聚集 ? 維規(guī)約 ? 數(shù)據(jù)壓縮 ? 數(shù)值規(guī)約 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 噪聲數(shù)據(jù) ? 如何平滑數(shù)據(jù),去掉噪聲 ? 數(shù)據(jù)平滑技術 ? 分箱 ? 聚類 ? 計算機和人工檢查相結合 ? 回歸 169。 ? 箱的寬度:每個箱值的取值區(qū)間是個常數(shù)。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 聚類 ? 每個簇中的數(shù)據(jù)用其中心值代替 ? 忽略孤立點 ? 先通過聚類等方法找出孤立點。 ? 人工再審查這些孤立點 169。 ? 線性回歸 ? 多線性回歸 169。 ? 實體識別 實體和模式的匹配 ? 冗余:某個屬性可以由別的屬性推出。 A隨 B的值得增大而增大 rA,B0,正相關。 A隨 B的值得增大而減少 ? 重復 同一數(shù)據(jù)存儲多次 ? 數(shù)據(jù)值沖突的檢測和處理 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 ? 最小 最大規(guī)范化 ? 小數(shù)定標規(guī)范化 ? 屬性構造 ? 由給定的屬性構造和添加新的屬性,以幫助提高精度和對高維數(shù)據(jù)結構的理解 規(guī)范化 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 維規(guī)約 ? 刪除不相關的屬性(維)來減少數(shù)據(jù)量。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 數(shù)據(jù)壓縮 ? 有損,無損 ? 小波變換 ? 將數(shù)據(jù)向量 D轉換成為數(shù)值上不同的小波系數(shù)的向量D’. ? 對 D’進行剪裁,保留小波系數(shù)最強的部分。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 數(shù)值規(guī)約 ? 回歸和對數(shù)線形模型 ? 線形回歸 ? 對數(shù)線形模型 ? 直方圖 ? 等寬 ? 等深 ? V最優(yōu) ? maxDiff 169。 ? 選樣 ? 簡單選擇 n個樣本,不放回 ? 簡單選擇 n個樣本,放回 ? 聚類選樣 ? 分層選樣 169。 ? 大量時間花在排序上。 ? 分箱 ? 直方圖分析 169。 7個不同值,按 233劃分為 3個區(qū)間 ?最高位包含 2, 4, 8個不同值,劃分為 4個等寬區(qū)間 ?最高位包含 1 , 5, 10個不同值,劃分為 5個等寬區(qū)間 ?最高分層一般在第 5個百分位到第 95個百分位上進行 169。一個分類屬性可能有有限個不同的值。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 三、數(shù)據(jù)挖掘算法 -分類與預測 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 數(shù)據(jù)分類:兩步過程 ? 第一步,建立一個模型,描述預定數(shù)據(jù)類集和概念集 ? 假定每個元組屬于一個預定義的類,由一個類標號屬性確定 ? 基本概念 訓練數(shù)據(jù)集 :由為建立模型而被分析的數(shù)據(jù)元組形成 訓練樣本 :訓練數(shù)據(jù)集中的單個樣本(元組) ? 學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供 ? 第二步,使用模型,對將來的或未知的對象進行分類 ? 首先評估模型的預測準確率 對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較 模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比 測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分適應數(shù)據(jù)”的情況 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 第二步:用模型進行分類 分類規(guī)則 測試集 N A M E RANK Y E A R S T E N U R E DT o m A s s i s t a n t P r o f 2 noM e r l i s a A s s o c i a t e P r o f 7 noG e o r g e P r o f e s s o r 5 y e sJ o s e p h A s s i s t a n t P r o f 7 y e s未知數(shù)據(jù) (Jeff, Professor, 4) Tenured? 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 比較分類方法 ? 使用下列標準比較分類和預測方法 ? 預測的準確率:模型正確預測新數(shù)據(jù)的類編號的能力 ? 速度:產(chǎn)生和使用模型的計算花銷 ? 魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預測的能力 ? 可伸縮性:對大量數(shù)據(jù),有效的構建模型的能力 ? 可解釋性:學習模型提供的理解和洞察的層次 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 判定歸納樹算法 ? 判定歸納樹算法(一個貪心算法) ? 自頂向下的分治方式構造判定樹 ? 樹以代表訓練樣本的單個根節(jié)點開始 ? 使用分類屬性(如果是量化屬性,則需先進行離散化) ? 遞歸的通過選擇相應的 測試屬性 ,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何后代上出現(xiàn) ? 測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進行選擇(如:信息增益) ? 遞歸劃分步驟停止的條件 ? 給定節(jié)點的所有樣本屬于同一類 ? 沒有剩余屬性可以用來進一步劃分樣本 —— 使用多數(shù)表決 ? 沒有剩余的樣本 169。 ? 樸素貝葉斯分類:假設每個屬性之間都是相互獨立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 后向傳播分類 ? 后向傳播是一種神經(jīng)網(wǎng)絡學習算法;神經(jīng)網(wǎng)絡是一組連接的輸入 /輸出單元,每個連接都與一個權相連。 ? 優(yōu)點 ? 預測精度總的來說較高 ? 健壯性好,訓練樣本中包含錯誤時也可正常工作 ? 輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值 ? 對目標進行分類較快 ? 缺點 ? 訓練(學習)時間長 ? 蘊涵在學習的權中的符號含義很難理解 ? 很難根專業(yè)領域知識相整合 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 什么是預測? ? 預測是構造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 回歸方法 ? 線性回歸: Y = ? + ? X ? 其中 ?和 ?是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點,通過最小二乘法來求得 ? 多元回歸: Y = ? + ?1X1 + ?2 X2 ? 線性回歸的擴展,設計多個預測變量,可以用最小二乘法求得上式中的 ?, ?1 和 ?2 ? 非線性回歸: Y = ? + ?1X1 + ?2 X22+ ?3 X33 ? 對不呈線性依賴的數(shù)據(jù)建模 ? 使用多項式回歸建模方法,然后進行變量變換,將非線性模型轉換為線性模型,然后用最小二乘法求解 211)())((????????Si iiSi ixxyyxx?xy ?? ??169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 提高分類法的準確性 ? Bagging技術和 boosting技術都通過將 T個學習得到的分類法 C1,C2…C T組合起來,從而創(chuàng)造一個改進的分類法 C* ? Bagging技術 ?對訓練集 S進行 T次迭代,每次通過放回取樣選取樣本集 St,通過學習 St得到分類法 Ct ?對于未知樣本 X,每個分類法返回其類預測,作為一票 ? C*統(tǒng)計得票,并將得票最高的預測賦予 X ? Boosting技術 ?每個訓練樣本賦予一個權值 ? Ct的權值取決于其錯誤率 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 聚類分析 ? 什么是聚類分析 ? ? 聚類分析中的數(shù)據(jù)類型 ? 主要聚類分析方法分類 ? 劃分方法( Partitioning Methods) ? 分層方法 ? 基于密度的方法 ? 基于表格的方法 ? 基于模型( ModelBased)的聚類方法 ? 異常分析 ? 總結 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 應用聚類分析的例子 ? 市場銷售 : 幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標明確的市場計劃; ? 土地使用 : 在一個陸地觀察數(shù)據(jù)庫中標識那些土地使用相似的地區(qū); ? 保險 : 對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶; ? 城市規(guī)劃 : 根據(jù)類型、價格、地理位置等來劃分不同類型的住宅; ? 地震研究 : 根據(jù)地質(zhì)斷層的特點把已觀察到的地震中心分成不同的類; 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 聚類方法性能評價 ? 可伸縮性 ? 能夠處理不同類型的屬性 ? 能發(fā)現(xiàn)任意形狀的簇 ? 在決定輸入?yún)?shù)的時候,盡量不需要特定的領域知識; ? 能夠處理噪聲和異常 ? 對輸入數(shù)據(jù)對象的順序不敏感 ? 能處理高維數(shù)據(jù) ? 能產(chǎn)生一個好的、能滿足用戶指定約束的聚類結果 ? 結果是可解釋的、可理解的和可用的 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 評價聚類質(zhì)量 ? 差異度 /相似度矩陣 : 相似度通常用距離函數(shù)來表示; ? 有一個單獨的質(zhì)量評估函數(shù)來評判一個簇的好壞; ? 對不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細討論; ? 根據(jù)實際的應用和數(shù)據(jù)的語義,在計算距離的時候,不同的變量有不同的權值相聯(lián)系; ? 很難定義 “ 足夠相似了 ” 或者 “ 足夠好了 ” ? 只能憑主觀確定; 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 區(qū)間標度變量 ? 數(shù)據(jù)標準化 ? 計算絕對偏差的平均值 : 其中 ? 計算標準度量值 (zscore) ? 使用絕對偏差的平均值比使用標準偏差更健壯( robust) .)...211 nffff xx(xn m ????|)|...|||(|1 21 fnffffff mxmxmxns ???????ffifif smx z ??169。 ? 常用的距離度量方法有 : 明考斯基距離 ( Minkowski distance) : 其中 i = (xi1, xi2, … , xip) 和 j = (xj1, xj2, … , xjp) 是兩個 p維的數(shù)據(jù)對象 , q是一個正整數(shù)。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 計算對象之間的相異度 ? 當 q=2時 , d 就成為 歐幾里德距離 : ? 距離函數(shù)有如下特性: d(i,j) ? 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) ? d(i,k) + d(k,j) ? 可以根據(jù)每個變量的重要性賦予一個權重 )||. ..|||(|),( 2222211 pp jxixjxixjxixjid ???????169。 169。這通過用 zif來替代 rif來實現(xiàn) ?用前面所述的區(qū)間標度變量的任一種距離計算方法來計算 11???fifif Mrz},.. .,1{ fif Mr ?169。 169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 混合類型的變量 ? f 是二元變量或標稱變量 : if xif = xjf dij(f) = 0, else dij(f) = 1 ? f 是區(qū)間標度變量 : dij(f) = | xifxjf |/maxhxhfminhxhf 其中 h遍取變量 f的所有非空缺對象 ? f 是序數(shù)型或比例標度型 計算秩 rif 計算 zif并將其作為區(qū)間標度變量值對待 11???fifMrz if169。 Copyright by Song Zhihuan 工業(yè)控制技術研究所 五、數(shù)據(jù)挖掘算法-關聯(lián) 169。 ? 應用: ? 購物籃分析、交叉銷售、產(chǎn)品目錄設計、 lossleader analysis、聚集、分類等。 Copy
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1