freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

《數(shù)據(jù)挖掘入門》ppt課件-全文預覽

2025-06-02 08:50 上一頁面

下一頁面
  

【正文】 Unknown 、 Null等n 簡單,但是沒有意義Date 40n 使用屬性的平均值填充空缺數(shù)值n 簡單方便、挖掘結果容易產(chǎn)生不精確的結果n 使用與給定元組同一個類別的所有樣本的平均值n 分類非常重要,尤其是分類指標的選擇n 使用最有可能的值予以填充n 利用回歸、基于推導的使用貝葉斯形式化的方法的工具或者判定樹歸納確定n 利用屬性之間的關系進行推斷,保持了屬性之間的聯(lián)系缺失數(shù)據(jù)的處理方法(續(xù))Date 41噪音數(shù)據(jù)n 噪音數(shù)據(jù) :一個度量(指標)變量中的隨機錯誤或者偏差n 主要原因n 數(shù)據(jù)采集設備的錯誤n 數(shù)據(jù)錄入問題n 數(shù)據(jù)傳輸問題n 部分技術的限制n 數(shù)據(jù)轉換中的不一致 n 數(shù)據(jù)清理中所需要處理的其它問題n 重復的記錄n 不完整的數(shù)據(jù)n 不一致的數(shù)據(jù)Date 42噪音數(shù)據(jù)的處理n 分箱( Binning) 的方法n 聚類方法n 檢測并消除異常點n 線性回歸n 對不符合回歸的數(shù)據(jù)進行平滑處理n 人機結合共同檢測n 由計算機檢測可疑的點,然后由用戶確認Date 43處理噪音數(shù)據(jù):分箱方法n 分箱( Binning) 方法 :n 基本思想:通過考察相鄰數(shù)據(jù)的值,來平滑存儲數(shù)據(jù)的值n 基本步驟:n 首先,對數(shù)據(jù)進行排序,并分配到具有相同寬度 /深度的不同的 “箱子 ”中n 其次,通過箱子的平均值( Means)、 中值(Median)、 或者邊界值等來進行平滑處理Date 44分箱( Binning) 方法舉例n 對數(shù)據(jù)進行排序 : 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34n 對數(shù)據(jù)進行分割 (相同深度 ) :n Bin 1: 4, 8, 9, 15n Bin 2: 21, 21, 24, 25n Bin 3: 26, 28, 29, 34n 根據(jù) bin中的平均值進行離散化 :n Bin 1: 9, 9, 9, 9n Bin 2: 23, 23, 23, 23n Bin 3: 29, 29, 29, 29Date 45基于聚類分析的平滑處理Date 46通過線性回歸的平滑處理xyy = x + 1X1Y1Y1’Date 47主要內(nèi)容n 為什么需要數(shù)據(jù)預處理n 數(shù)據(jù)清洗 n 數(shù)據(jù)集成與轉換n 數(shù)據(jù)歸約n 數(shù)據(jù)離散化與概念層次的構建n 本章小結Date 48數(shù)據(jù)集成n 數(shù)據(jù)集成的概念n 將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來存放在一個一致的數(shù)據(jù)存儲中n 數(shù)據(jù)源包括:多個數(shù)據(jù)庫、多維數(shù)據(jù)庫和一般的文件n 數(shù)據(jù)集成也是數(shù)據(jù)倉庫建設中的一個重要問題n 數(shù)據(jù)集成的內(nèi)容n 模式集成n 利用數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)信息n 主要工作是識別現(xiàn)實世界中的實體定義n 冗余數(shù)據(jù)的處理n 檢測和解決數(shù)值沖突n 對于現(xiàn)實世界中的同一實體,來自于不同數(shù)據(jù)源的屬性值可能不同n 主要原因:不同的數(shù)據(jù)表示、度量單位、編碼方式以及語義的不同Date 49模式集成n 數(shù)據(jù)類型沖突n 性別: string(Male、 Female)、 Char( M、 F)、 Interger( 0、 1)n 日期: Date、 DateTime、 Stringn 數(shù)據(jù)標簽沖突:解決同名異義、異名同義n 學生成績、分數(shù)n 度量單位沖突n 學生成績n 百分制: 100 ~ 0n 五分制: A 、 B、 C、 D、 En 字符表示:優(yōu)、良、及格、不及格n 概念不清n 最近交易額:前一個小時、昨天、本周、本月?n 聚集沖突:根源在于表結構的設計 Date 50冗余數(shù)據(jù)的處理n 從多個數(shù)據(jù)源中抽取不同的數(shù)據(jù),容易導致數(shù)據(jù)的冗余n 不同的屬性在不同的數(shù)據(jù)源中是不同的命名方式n 有些屬性可以從其它屬性中導出, 例如:銷售額=單價 銷售量n 有些冗余可以通過相關分析檢測到 其中: n是元組的個數(shù), 和 分別是 A和 B的平均值, 和 分別是 A和 B的標準差 n 元組級的 “重復 ”,也是數(shù)據(jù)冗余的一個重要方面n 減少冗余數(shù)據(jù),可以大大提高數(shù)據(jù)挖掘的性能Date 51數(shù)據(jù)轉換n 平滑處理 : 從數(shù)據(jù)中消除噪音數(shù)據(jù)n 聚集操作 : 對數(shù)據(jù)進行綜合,類似于 Data Cube的構建n 數(shù)據(jù)概化:構建概念層次n 數(shù)據(jù)規(guī)范化 : 將數(shù)據(jù)集中到一個較小的范圍之中n 最大 最小規(guī)范化n zscore( 零-均值)規(guī)范化n 小數(shù)范圍規(guī)范化( 0–1規(guī)范化)n 屬性構造n 構造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘Date 52數(shù)據(jù)轉換:規(guī)范化n 最大 最小規(guī)范化n 對原始數(shù)據(jù)進行線性變換n 保持了原始數(shù)據(jù)值之間的關系n 當有新的輸入,落在原數(shù)據(jù)區(qū)之外,該方法將面臨 “越界 ”錯誤n 受到孤立點的影響可能會比較大Date 53數(shù)據(jù)轉換:規(guī)范化(續(xù))n zscore( 零-均值 ) 規(guī)范化n 屬性基于平均值和標準差規(guī)范化n 當屬性的最大值和最小值未知,或者孤立點左右了最大-最小規(guī)范化時,該方法有效n 01規(guī)范化(小數(shù)定標規(guī)范化)n 通過移動屬性的小數(shù)點位置進行規(guī)范化n 例如 A的值為 125,那么 |A|=125,則 j=3,有v=。 DMW是一個用在信用卡欺詐分析方面的數(shù)據(jù)挖掘工具,支持反向傳播神經(jīng)網(wǎng)絡算法,并能以自動和人工模式操作216。 Clementine可以把直觀的圖形用戶界面與多種分析技術結合在一起,包括神經(jīng)網(wǎng)絡、關聯(lián)規(guī)則和規(guī)則歸納技術。216。由于是在微弱變化中獲取信息,該系統(tǒng)也可以應用于 證券領域中的股市行情預測 。會產(chǎn)生 “如果在某一時間段內(nèi)發(fā)生某些預警信息組合,那么其他類型的預警信息將在某個時間范圍內(nèi)發(fā)生 ”的規(guī)則。216。 另一種解決辦法是研究開發(fā)可以直接對多媒體數(shù)據(jù)進行挖掘的工具。 多媒體數(shù)據(jù)挖掘就是通過綜合分析多媒體數(shù)據(jù)的內(nèi)容和語義,從大量多媒體數(shù)據(jù)中發(fā)現(xiàn)隱含的、有效的、有價值的、可理解的模式,得出事件的發(fā)展趨向和關聯(lián)關系,為用戶提供問題求解層次上的決策支持能力。分類也可以用來預測。預測的目的是從歷史數(shù)據(jù)中自動推導出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預測。216。內(nèi)部節(jié)點是屬性或?qū)傩缘募?,葉節(jié)點代表樣本所屬的類或類分布。第二步是用模型對數(shù)據(jù)對象進行分類。 分類的目的是提出一個分類函數(shù)或分類模型(即分類器)通過分類器將數(shù)據(jù)對象映射到某一個給定的類別中。將人工神經(jīng)網(wǎng)絡應用于數(shù)據(jù)挖掘,希望借助其非線性處理能力和容噪能力,得到較好的數(shù)據(jù)挖掘結果。 ( 2)由頻繁項集生成滿足最小信任度閾值的規(guī)則。項集在事物數(shù)據(jù)庫中出現(xiàn)的次數(shù)占總事物的百分比叫做項集的支持度。商家關注高支持度的產(chǎn)品。用聚類生成的簇來表達數(shù)據(jù)集不可避免地會損失一些信息,但卻可以使問題得到必要的簡化。聚類生成的組為簇,簇是數(shù)據(jù)對象的集合。 ?A(x)的值接近 0,表示 x隸屬于 A的程度很低。美國加利福尼亞大學的扎德教授于 1965年提出了模糊集合論,用隸屬程度 來描述差異的中間過渡,是一種用精確的數(shù)
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1