freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

大數(shù)據(jù)應(yīng)用基礎(chǔ)-數(shù)據(jù)挖掘流程77-展示頁

2025-03-17 10:38本頁面
  

【正文】 據(jù)質(zhì)量很重要。 ? 如果數(shù)據(jù)有誤,那么所得到的結(jié)果很可能有誤導(dǎo)性。然而,對于在商業(yè)中不太重要的字段,人們往往不太重視確保其質(zhì)量 。 ? “經(jīng)常保持對客戶數(shù)據(jù)的懷疑之心! ”“所有的 數(shù)據(jù)都是臟的 ” ? 例如,有些 數(shù)據(jù)是缺失的(屬性的值 是 空值 ),有些是含噪聲的(屬性的值是錯誤 的,或有孤立點數(shù)據(jù)), 有時同樣的信息采用了多種不同的表示 方式(在編碼或命名上存在不一致)。 ? 人們往往沒有那么好的運氣,有現(xiàn)成的質(zhì)量好的數(shù)據(jù)可以直接用。 ? 通過 散點圖 ,能了解 屬性之間 是否 有相關(guān)性 。對于離散型變量,則可以用頻次分析。比如: –每個 變量的 值域 區(qū)間(最大值和最小值)是否合理 ?所有的值都落在期望的區(qū)間內(nèi)嗎? –平均值 與 中位數(shù)是相等的還是差別很大(這有助于說明變量是否符合 正態(tài)分布 )?數(shù)據(jù)是對稱的還是傾斜的。 ? 怎樣能知道數(shù)據(jù)的質(zhì)量呢?你需要把 自己沉浸在數(shù)據(jù)中 ,進(jìn)行數(shù)據(jù)探索, 從而了解數(shù)據(jù)質(zhì)量 。 ? 幾乎很少有現(xiàn)成的數(shù)據(jù)能直接使用。 數(shù)據(jù)探索 ? 在數(shù)據(jù)集成后,需要數(shù)據(jù)探索( data exploring)。 ? 有些冗余可以被相關(guān)分析檢測到。 數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問題 ? 重量在一個數(shù)據(jù)源中的單位可能是千克;在另一處則是斤。 ? 又例如,對同一個省份可能用了不同的名稱。 ? 例如,不同數(shù)據(jù)源中日期的格式不同。 數(shù)據(jù)集成中 的數(shù)據(jù)值格式不一致問題 ? 對同一個實體,來自不同數(shù)據(jù)源的屬性值可能是不同的。 ? 也就是說,如何能保證,用戶在不同設(shè)備上登錄你的網(wǎng)站時的訪問記錄都能匯總到一起,而不是把這些訪問記錄當(dāng)做是多個不同用戶的訪問記錄。 ? 如果我們確定這兩個字段是一致的,那么我們就能夠把標(biāo)識相同的客戶當(dāng)作同一個客戶。 ? 我們需要識別數(shù)據(jù)中能唯一標(biāo)識實體的字段。 ? 如果 只有一個數(shù)據(jù)源,這一步可以省略。因此應(yīng)該重視原始數(shù)據(jù)的質(zhì)量,從源頭上減少錯誤和誤差,尤其是減少人為誤差。因為,沒有 高質(zhì)量的數(shù)據(jù) ,就沒有高質(zhì)量的挖掘結(jié)果。數(shù)據(jù)挖掘流程 大數(shù)據(jù)應(yīng)用基礎(chǔ) ——第三次課 魏煒 數(shù)據(jù)挖掘的基本流程 數(shù)據(jù)預(yù)處理 2 評估 4 信息收集 3 1數(shù)據(jù)挖掘 3 知識表示 3 5數(shù)據(jù)挖掘的基本流程 高度重視以下同義詞 ? 以下術(shù)語大致是同一個意思: ? 表格中的 行 :個案 =實例 =記錄 =樣本點 =數(shù)據(jù)點 ? 表格中的 列 :屬性 =特征 =字段 =維度 =預(yù)測變量=自變量 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理的步驟 ? 主要 包括: –數(shù)據(jù)集成 –數(shù)據(jù)清理 –數(shù)據(jù) 歸約(抽樣和屬性篩選 ) –數(shù)據(jù)變換。 數(shù)據(jù)質(zhì)量有很多方面問題 數(shù)據(jù)準(zhǔn)備 ? 在數(shù)據(jù)挖掘過程中,數(shù)據(jù)準(zhǔn)備工作占用的時間往往在一半甚至 60%以上! ? 這些工作對提高數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性是必不可少的。 ? 數(shù)據(jù)挖掘出現(xiàn)錯誤結(jié)果 多半是由數(shù)據(jù)源的質(zhì)量引起 的。 數(shù)據(jù)準(zhǔn)備的重要性 數(shù)據(jù)準(zhǔn)備工作占用的時間往往 在 60%以上! 數(shù)據(jù)集成 ? 數(shù)據(jù)挖掘或統(tǒng)計分析可能用到來自 不同數(shù)據(jù)源 的數(shù)據(jù),我們需要將這些數(shù)據(jù)集成在一起。 數(shù)據(jù) 集成中的 實體識別問題 ? 一個重要問題是實體識別問題:在不同的數(shù)據(jù)源中,相同的字段也許有不同的名稱。我們怎么能確定一個數(shù)據(jù)源中的 customer_id和另一個數(shù)據(jù)源中的 customer_number指的是同一個字段呢?這里我們可以利用字段的元數(shù)據(jù)信息,例如含義、數(shù)據(jù)類型、字段允許值的范圍等,從而避免在數(shù)據(jù)集成時出錯 。 數(shù)據(jù)集成中的實體識別問題 ? 對于互聯(lián)網(wǎng)企業(yè)來說,一個需要注意的重要問題是如何能把 PC端用戶、手機(jī)端用戶給對應(yīng)起來。 數(shù)據(jù)集成 中屬性值不一致的問題 ? 同一個人的名字可能在一個數(shù)據(jù)庫中登記為“王思聰”,在另一個數(shù)據(jù)庫中則登記為“ Sicong Wang” 。原因可能是各個數(shù)據(jù)源往往以不同的方式表示相同的數(shù)據(jù),或采用不同的度量等。 –日期有時是一個數(shù)值; –有時是以“ XXXX年 X月 X日”的字符串 格式 存儲; –有時以“ YY/MM/DD”的字符串格式存儲。 ? 還有,同 一 個名字的屬性 sales,在一個數(shù)據(jù)庫中是指一個區(qū)域的銷量,在另一個數(shù)據(jù)庫中可能是指一個分店的銷量。 一種度量 另一 種 度量 數(shù)據(jù)集成中 的屬性冗余問題 ? 一個屬性可能能由另一個或一組屬性導(dǎo)出。我們通過相關(guān)系數(shù)或卡方檢驗了解兩個屬性是否是統(tǒng)計相關(guān)的。這個步驟不是數(shù)據(jù)預(yù)處理,但對數(shù)據(jù)預(yù)處理很重要。數(shù)據(jù)總是看上去不整潔,例如有臟數(shù)據(jù)、缺失值等。 數(shù)據(jù) 探索的方法 ? 在 R中的 summary(變量名 )這種指令(在其他軟件中有類似指令)能 提供諸多 基本統(tǒng)計信息 。 –每個變量的標(biāo)準(zhǔn)差是多少?(遠(yuǎn)離屬性的均值超過兩個或三個標(biāo)準(zhǔn)差的值可能是 離群點 ) –有 多少 缺失值 ? 直方圖 箱圖 箱圖 散點圖 ? 通過 直方圖 ,能 觀察連續(xù)型變量 的分布是否接近 正態(tài)分布 。 ? 通過 箱圖 ,能觀察到 離群值 ,比如識別出觀測值特別高的個案。 數(shù)據(jù) 清理(數(shù)據(jù)預(yù)處理) ? “數(shù)據(jù)的重要程度大過算法本身!” ? 無論專家多有經(jīng)驗,無論算法再完美,也不可能從一堆 垃圾 中發(fā)現(xiàn)寶石?,F(xiàn)實世界的數(shù)據(jù)是“ 雜亂的”,其中總是有這樣或那樣的問題。 數(shù)據(jù)清理 ? 對于在商業(yè)中比較重要的字段,系統(tǒng)開發(fā)者和系統(tǒng)使用者會盡量 確保其正確性 。 ? 通過數(shù)據(jù)清理,可以確保存入數(shù)據(jù)倉庫中的信息是完整、正確和格式一致的。 ? 但是,數(shù)據(jù)挖掘者不應(yīng)
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1