freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第2章-數(shù)據(jù)倉庫與olap技術(shù)-展示頁

2024-08-30 23:02本頁面
  

【正文】 score規(guī)范化。 ( _ m a x _ m i n ) _ m i nm a x m i nAA A AAAvv n e w n e w n e w?? ? ??例:假定收入屬性的最小與最大分別是 12022和 98000,現(xiàn)在想映射到區(qū)間 [, 1],則 7 3 6 0 0 1 2 0 0 039。(采用隨機(jī)抽樣、等間隔抽樣、聚類后在同一類中抽取等) 數(shù)據(jù)挖掘 數(shù)據(jù)規(guī)范化 ?最大 最小規(guī)范化 : ?對原始數(shù)據(jù)進(jìn)行線性變換。比如年齡按 10歲分段,收入按 1000分段等 ?數(shù)據(jù)規(guī)范化 數(shù)據(jù)挖掘 數(shù)據(jù)庫中的空缺值 ?空缺的數(shù)據(jù)會(huì)影響數(shù)據(jù)挖掘的質(zhì)量,所以應(yīng)該處理忽略該元組 ?問題:若缺少的數(shù)據(jù)的元組太多,則性能非常差 ?人工填寫空缺值 ?問題:缺很多值時(shí)不可行 ?使用一個(gè)全局常量填空 ?問題:但由于該常量太多,數(shù)據(jù)挖掘程序可能會(huì)錯(cuò)誤的認(rèn)為是一個(gè)有趣的概念。 這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。 由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。 這是第一次對整個(gè)數(shù)據(jù)倉庫進(jìn)行裝載。 保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。 用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。 如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。 按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中去。 不同系統(tǒng)中得到的值存在一些差別 ,需要給出合理的值。 數(shù)據(jù)來源于多個(gè)不同的客戶系統(tǒng),對相同客戶可能分別有不同的鍵碼,將它們組合成一條單獨(dú)的記錄。 數(shù)據(jù)挖掘 數(shù)據(jù)轉(zhuǎn)換類型 ( 1)格式修正 ( 2)字段的解碼 ( 3)計(jì)算值和導(dǎo)出值 ( 4)單個(gè)字段的分離 ( 5)信息的合并 ( 6)特征集合轉(zhuǎn)化 ( 7)度量單位的轉(zhuǎn)化 ( 8)關(guān)鍵字重新構(gòu)造 ( 9)匯總 ( 10)日期 /時(shí)間轉(zhuǎn)化 數(shù)據(jù)挖掘 數(shù)據(jù)整合和合并 ?數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。 ?匯總: 將最低粒度數(shù)據(jù)進(jìn)行匯總。 ?分離 /合并: 對源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。例如,對于每一保險(xiǎn)索賠,都經(jīng)過索賠開始、確認(rèn)、評估和解決等步驟,都要考慮有時(shí)間說明。當(dāng)商業(yè)交易時(shí),這些數(shù)據(jù)是會(huì)發(fā)生變化的。 數(shù)據(jù)挖掘 數(shù)據(jù)抽取、轉(zhuǎn)換和加載 ?數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載的過程,存儲到數(shù)據(jù)倉庫的數(shù)據(jù)模型中。 ?它還具有 DELTA文件的優(yōu)越性質(zhì),提取數(shù)據(jù)只要局限日志文件即可,不用掃描整個(gè)數(shù)據(jù)庫。 ?但因應(yīng)用系統(tǒng)常由不同的軟件開發(fā)商開發(fā),生成DELTA文件的應(yīng)用并不普遍。 ?它占用大量資源,對性能影響極大,因此無實(shí)際意義。 ?但并非所有數(shù)據(jù)庫中的數(shù)據(jù)都含有時(shí)標(biāo)。 數(shù)據(jù)挖掘 事實(shí)星座模式示例 time 時(shí)間鍵 年 季度 月 星期 天 產(chǎn)品鍵 產(chǎn)品類 產(chǎn)品名 型號 item 時(shí)間鍵 產(chǎn)品鍵 地區(qū)鍵 sales (事實(shí)表) 銷售量 銷售價(jià) location 地區(qū)鍵 國家 省 市 ship(事實(shí)表) 產(chǎn)品鍵 時(shí)間鍵 起運(yùn)點(diǎn) 終止點(diǎn) 運(yùn)價(jià) 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫的數(shù)據(jù)追加(選學(xué)) ?時(shí)標(biāo)法 ?前后映像文件方法 ?DELTA文件 ?日志文件 數(shù)據(jù)挖掘 時(shí)標(biāo)法 ?基本思想:為記錄數(shù)據(jù)增加一個(gè)時(shí)間標(biāo)記。 ?在數(shù)據(jù)倉庫設(shè)計(jì)中, 雪花模式不如星型模式流行 。 ?實(shí)際上,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。 數(shù)據(jù)挖掘 雪花模式示例 time 時(shí)間鍵 年 季度 月 星期 天 產(chǎn)品鍵 產(chǎn)品類 產(chǎn)品名 型號 item 時(shí)間鍵 產(chǎn)品鍵 地區(qū)鍵 sales (事實(shí)表) 銷售量 銷售價(jià) location 地區(qū)鍵 國家 省鍵 省鍵 省名 市鍵 市鍵 市名 province city 數(shù)據(jù)挖掘 星型模式 VS 雪花模式 ?雪花模式的 維表可能是規(guī)范化的 ,以便減少冗余。 數(shù)據(jù)挖掘 星型模式示例 時(shí)間鍵 產(chǎn)品鍵 地區(qū)鍵 sales (事實(shí)表) 銷售量 銷售價(jià) time 時(shí)間鍵 年 季度 月 星期 天 產(chǎn)品鍵 產(chǎn)品類 產(chǎn)品名 型號 item location 地區(qū)鍵 國家 省 市 維表 數(shù)據(jù)挖掘 雪花模式 ?雪花模型是對星形模型的擴(kuò)展, 每一個(gè)維度都可以向外連接多個(gè)詳細(xì)類別表 。 ?每一個(gè)維度表利用維度關(guān)鍵字通過事實(shí)表中的外鍵約束于事實(shí)表中的某一行,實(shí)現(xiàn)與事實(shí)表的關(guān)聯(lián),這就要求事實(shí)表中的外鍵不能為空,這與一般數(shù)據(jù)庫中外鍵允許為空是不同的。 數(shù)據(jù)挖掘 星型模式 ?事實(shí)表 ?主要包含了描述特定商業(yè)事件的數(shù)據(jù),即某些特定商業(yè)事件的度量值。通過事實(shí)表將各種不同的維度表連接起來,各個(gè)維度表都連接到中央事實(shí)表。 ?事實(shí)表 中每條元組都含有指向各個(gè)維表的外鍵和一些相應(yīng)的測量數(shù)據(jù),事實(shí)表的記錄數(shù)量很多,維表中記錄的是有關(guān)這一維的屬性。 數(shù)據(jù)挖掘 星型模式 ?數(shù)據(jù)倉庫中包含 ( 1) 一個(gè)大的包含大批數(shù)據(jù)和不冗余的 事實(shí)表(中心表); ( 2) 一組小的附屬表 ,稱為維表。關(guān)系數(shù)據(jù)的基礎(chǔ)是關(guān)系數(shù)據(jù)庫模型,通過標(biāo)準(zhǔn)的 SQL語言來加以實(shí)現(xiàn)。 數(shù)據(jù)挖掘 基于關(guān)系表的存儲方式 ?將數(shù)據(jù)倉庫的數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)中,在元數(shù)據(jù)的管理下完成數(shù)據(jù)倉庫的功能。 ?優(yōu)點(diǎn): 組織方式簡單、花費(fèi)少、使用靈活; ?缺點(diǎn): 只有當(dāng)源數(shù)據(jù)庫的數(shù)據(jù)組織比較規(guī)范、沒有數(shù)據(jù)不完備及冗余,同時(shí)又比較接近多維數(shù)據(jù)模型時(shí),虛擬數(shù)據(jù)倉庫的多維語義才容易定義。 數(shù)據(jù)挖掘 連續(xù)文件 ?通過兩個(gè)連續(xù)的簡單直接文件,可以生成另一個(gè)連續(xù)文件 ?連續(xù)文件也可以通過把一個(gè)快照追加到一個(gè)以前生成的連續(xù)文件上來創(chuàng)建 數(shù)據(jù)挖掘 連續(xù)文件 ?連續(xù)文件也可以通過把一個(gè)快照追加到一個(gè)以前生成的連續(xù)文件上來創(chuàng)建 數(shù)據(jù)挖掘 數(shù)據(jù)存儲 ?虛擬存儲方式 ?基于關(guān)系表的存儲方式 ?多維數(shù)據(jù)庫組織 數(shù)據(jù)挖掘 虛擬存儲方式 ?沒有專門的數(shù)據(jù)倉庫數(shù)據(jù)存儲,數(shù)據(jù)倉庫中的數(shù)據(jù)仍然在源數(shù)據(jù)庫中。 ?是間隔一定時(shí)間的操作型數(shù)據(jù)的一個(gè)快照。 數(shù)據(jù)挖掘 簡單堆積 VS 輪轉(zhuǎn)綜合 ?輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)的簡單堆積結(jié)構(gòu)相比,僅處理非常少的數(shù)據(jù)單元。 每日事物處理 每日綜合 天 周 月 年 1 2 3 4 5 6 7 1 2 3 4 5 。 ?最簡單最常用的數(shù)據(jù)組織形式 數(shù)據(jù)挖掘 輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu) ?簡單逐日堆積數(shù)據(jù)的一種變種。 ?系統(tǒng)層的分割由 數(shù)據(jù)庫管理系統(tǒng)和操作系統(tǒng)完成; ?應(yīng)用層的分割 由應(yīng)用系統(tǒng)完成,在應(yīng)用層上分割更有意義。 數(shù)據(jù)挖掘 分割的標(biāo)準(zhǔn) ?數(shù)據(jù)分割的標(biāo)準(zhǔn)可以根據(jù)實(shí)際情況來確定,通??蛇x擇 : ?按日期、地域、業(yè)務(wù)領(lǐng)域或組織單位等來進(jìn)行分割, ?按多個(gè)分割標(biāo)準(zhǔn)的組合來進(jìn)行, ?一般情況分割標(biāo)準(zhǔn)總應(yīng)包括日期項(xiàng)。 ?小物理單元具有容易重構(gòu)、自由索引、順序掃描、容易重組、容易恢復(fù)和容易監(jiān)控等優(yōu)點(diǎn)。 數(shù)據(jù)挖掘 數(shù)據(jù)分割 ?一般在進(jìn)行實(shí)際的分析處理時(shí),對于存在某種相關(guān)性的數(shù)據(jù)集合的分析是最常見的,如對某時(shí)間或某時(shí)段的數(shù)據(jù)的分析,對某一地區(qū)的數(shù)據(jù)的分析;對特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù)的分析等,將其有這種相關(guān)性的數(shù)據(jù)組織在一起,就會(huì)提高效率。分割之后,小單元內(nèi)的數(shù)據(jù)相對獨(dú)立,處理起來更快、更容易。 數(shù)據(jù)挖掘 粒度的一個(gè)例子 能回答,但需要一定量的檢索 不能回答,缺少細(xì)節(jié)信息 數(shù)據(jù)挖掘 粒度權(quán)衡 數(shù)據(jù)挖掘 數(shù)據(jù)分割 ?分割 是指將數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理效率。 ?粒度影響存放在數(shù)據(jù)倉庫中的 數(shù)據(jù)量的大小 ,同時(shí)影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)程度,是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)最重要方面。 數(shù)據(jù)挖掘 分析工具- 數(shù)據(jù)挖掘工具 ?從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘( Data Mining)工具。 數(shù)據(jù)挖掘 分析工具- 多維分析工具 ? 通過對信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,這樣便利用戶對數(shù)據(jù)進(jìn)行深入的分析和觀察。 ?軟硬件平臺不一致 ?ETL過程 ?抽?。?Extraction) ?轉(zhuǎn)換( Transform) ?裝載( Load) 數(shù)據(jù)挖掘 分析工具- 查詢工具 ?數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。 ?元數(shù)據(jù)定義了 數(shù)據(jù)倉庫有什么 ,指明了數(shù)據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲了與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息,而且 整個(gè)數(shù)據(jù)倉庫的運(yùn)行都是基于元數(shù)據(jù)的 。 ?數(shù)據(jù)倉庫的數(shù)據(jù)建模是適應(yīng)決策用戶使用的 邏輯數(shù)據(jù)模型 。 ?數(shù)據(jù)倉庫的增加了時(shí)間屬性數(shù)據(jù)。 ?數(shù)據(jù)倉庫的管理部分由 數(shù)據(jù)倉庫定義部件 、 數(shù)據(jù)獲取部件 、 數(shù)據(jù)管理部件 和 元數(shù)據(jù)管理部件 四部分組成 數(shù)據(jù)挖掘 倉庫管理- 數(shù)據(jù)建模 ?數(shù)據(jù)建模是建立數(shù)據(jù)倉庫的數(shù)據(jù)模型。 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫體系結(jié)構(gòu) ?數(shù)據(jù)倉庫系統(tǒng) :對進(jìn)入數(shù)據(jù)倉庫的原始數(shù)據(jù)完成抽取、轉(zhuǎn)換、過濾、清洗等處理,最終進(jìn)入數(shù)據(jù)倉庫,以及對數(shù)據(jù)倉庫中存儲的數(shù)據(jù)進(jìn)行更新、管理、使用、表現(xiàn)等的相關(guān)軟件 /工具進(jìn)行集合,用以支持?jǐn)?shù)據(jù)倉庫應(yīng)用或管理決策。 數(shù)據(jù)挖掘 建設(shè)途徑 ?從 全局?jǐn)?shù)據(jù)倉庫 到 數(shù)據(jù)集市 ?從 數(shù)據(jù)集市 到 全局?jǐn)?shù)據(jù)倉庫 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 VS 數(shù)據(jù)集市 ? 數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的 基表與視圖 的關(guān)系。 ?例:在有關(guān)商品銷售的數(shù)據(jù)倉庫中可以建立多個(gè)不同主題的數(shù)據(jù)集市: ?商品采購數(shù)據(jù)集市 ?庫房使用數(shù)據(jù)集市 ?商品銷售數(shù)據(jù)集市 數(shù)據(jù)挖掘 數(shù)據(jù)集市類型 ?按照數(shù)據(jù)獲取來源: ?獨(dú)立型: 直接從操作型環(huán)境獲取數(shù)據(jù)。但是 ,全局性數(shù)據(jù)倉庫往往太大,在實(shí)際應(yīng)用中將它們按部門或個(gè)人分別建立反映各個(gè)子主題的局部性數(shù)據(jù)組織 ,它們即是 數(shù)據(jù)集市 。 ?數(shù)據(jù)倉庫中的數(shù)據(jù)必須以一定時(shí)間段為單位進(jìn)行統(tǒng)一更新。 數(shù)據(jù)挖掘 隨時(shí)間不斷變化 ?數(shù)據(jù)倉庫以維的形式對數(shù)據(jù)進(jìn)行組織, 時(shí)間維是數(shù)據(jù)倉庫中很重要的一個(gè)維度 。同時(shí),一個(gè)穩(wěn)定的數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和決策的制訂。 ?數(shù)據(jù)倉庫中的數(shù)據(jù)是為分析服務(wù)的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,因此數(shù)據(jù)倉庫中的數(shù)據(jù)必須從多個(gè)數(shù)據(jù)源中獲取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫、文件系統(tǒng)以及 Inter網(wǎng)上數(shù)據(jù)等,它們通過數(shù)據(jù)集成而形成數(shù)據(jù)倉庫中的數(shù)據(jù)。 數(shù)據(jù)挖掘 集成的 ?集成性 是 指數(shù)據(jù)倉庫中數(shù)據(jù)必須是一致的 。 ?關(guān)系數(shù)據(jù)庫。 ?不同的主題之間也有重疊的內(nèi)容,但這種重疊是邏輯上的,而不是物理存儲上的重疊;是部分細(xì)節(jié)的重疊,而不是完全的重疊。 數(shù)據(jù)挖掘 主題一: 商品 ?商品固有信息 :商品號,商品名,類別,顏色等 ?商品采購信息 :商品號,供應(yīng)商號,供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等 ?商品銷售信息 :商品號,顧客號,售價(jià),銷售日期,銷售量等 ?商品庫存信息 :商品號,庫房號,庫存量,日期等 數(shù)據(jù)挖掘 主題二: 供應(yīng)商 ?供應(yīng)商固有信息 :供應(yīng)商號,供應(yīng)商名,地址,電話等 ?供應(yīng)商品信息 :供應(yīng)商號,商品號,供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等 數(shù)據(jù)挖掘 主題三: 顧客 ?顧客固有信息 :顧客號,顧客名,性別,年齡,文化程度,住址,電話等 ?顧客購物信息 :顧客號,商品號,售價(jià),購買日期,購買量等 數(shù)據(jù)挖掘 面向主題 ?在每個(gè)主題中,都包含了有關(guān) 該主題的所有信息 ,同時(shí)又拋棄了與分析處理無關(guān)或不需要的數(shù)據(jù),從而將原本分散在各個(gè)子系統(tǒng)中的有關(guān)信息集中在一個(gè)主題中,形成有關(guān)該主題的一個(gè)完整一致的描述。 數(shù)據(jù)挖掘 面向主題示例 ?例:一個(gè) 面向事務(wù)處理 的“商場”數(shù)據(jù)庫系統(tǒng),其數(shù)據(jù)模式如下 采購子系統(tǒng): 訂單 (訂單號,供應(yīng)商號,總金額,日期) 訂單細(xì)則 (訂單號,商品號,類別,單價(jià),數(shù)量) 供應(yīng)商 (供應(yīng)商號,供應(yīng)商名,地址,電話) 銷售子系統(tǒng): 顧客 (顧客號,姓名,性別,年齡,文化程度,地址,電話) 銷售 (員工號,顧客號,商品號,數(shù)量,單價(jià),日期) 數(shù)據(jù)挖掘 面向事務(wù)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1