freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

第2章-數(shù)據(jù)倉庫與olap技術(shù)-文庫吧

2025-07-31 23:02 本頁面


【正文】 數(shù)據(jù)分割 ?分割 是指將數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理效率。 ?數(shù)據(jù)分割后的數(shù)據(jù)單元稱為 分片 。分割之后,小單元內(nèi)的數(shù)據(jù)相對獨(dú)立,處理起來更快、更容易。 ?分割是數(shù)據(jù)倉庫中數(shù)據(jù)的第二個主要的設(shè)計問題 ?分割問題的焦點(diǎn)不是該不該分割而是如何去分割的問題。 數(shù)據(jù)挖掘 數(shù)據(jù)分割 ?一般在進(jìn)行實際的分析處理時,對于存在某種相關(guān)性的數(shù)據(jù)集合的分析是最常見的,如對某時間或某時段的數(shù)據(jù)的分析,對某一地區(qū)的數(shù)據(jù)的分析;對特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù)的分析等,將其有這種相關(guān)性的數(shù)據(jù)組織在一起,就會提高效率。 數(shù)據(jù)挖掘 數(shù)據(jù)分割的好處 ?對當(dāng)前細(xì)節(jié)數(shù)據(jù)進(jìn)行分割的總體目的就是把數(shù)據(jù)劃分成小的物理單元,為操作者和設(shè)計者在管理數(shù)據(jù)時提供更大的靈活性。 ?小物理單元具有容易重構(gòu)、自由索引、順序掃描、容易重組、容易恢復(fù)和容易監(jiān)控等優(yōu)點(diǎn)。 ?數(shù)據(jù)倉庫的本質(zhì)之一就是靈活的訪問數(shù)據(jù),大塊數(shù)據(jù)達(dá)不到這個目的。 數(shù)據(jù)挖掘 分割的標(biāo)準(zhǔn) ?數(shù)據(jù)分割的標(biāo)準(zhǔn)可以根據(jù)實際情況來確定,通常可選擇 : ?按日期、地域、業(yè)務(wù)領(lǐng)域或組織單位等來進(jìn)行分割, ?按多個分割標(biāo)準(zhǔn)的組合來進(jìn)行, ?一般情況分割標(biāo)準(zhǔn)總應(yīng)包括日期項。 數(shù)據(jù)挖掘 數(shù)據(jù)分割例子 處理集 A 處理集 B 數(shù)據(jù)挖掘 分割的層次 ?分割的層次一般分為系統(tǒng)層和應(yīng)用層兩層。 ?系統(tǒng)層的分割由 數(shù)據(jù)庫管理系統(tǒng)和操作系統(tǒng)完成; ?應(yīng)用層的分割 由應(yīng)用系統(tǒng)完成,在應(yīng)用層上分割更有意義。 數(shù)據(jù)挖掘 數(shù)據(jù)組織形式 (選學(xué) ) ?數(shù)據(jù)倉庫中有多種數(shù)據(jù)組織形式: ?簡單堆積數(shù)據(jù)結(jié)構(gòu) ?輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu) ?簡單直接文件 ?連續(xù)文件 數(shù)據(jù)挖掘 簡單堆積數(shù)據(jù)結(jié)構(gòu) ?每日從數(shù)據(jù)庫中提取并加工數(shù)據(jù)逐天積累。 ?最簡單最常用的數(shù)據(jù)組織形式 數(shù)據(jù)挖掘 輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu) ?簡單逐日堆積數(shù)據(jù)的一種變種。 ?數(shù)據(jù)用與前面相同的處理方法從操作型環(huán)境輸入到數(shù)據(jù)倉庫環(huán)境中,只是在輪轉(zhuǎn)綜合文件中的數(shù)據(jù)才被輸入到不同的結(jié)構(gòu)形式中。 每日事物處理 每日綜合 天 周 月 年 1 2 3 4 5 6 7 1 2 3 4 5 。 。 數(shù)據(jù)挖掘 簡單堆積 VS 輪轉(zhuǎn)綜合 ?輪轉(zhuǎn)綜合數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)的簡單堆積結(jié)構(gòu)相比,僅處理非常少的數(shù)據(jù)單元。 數(shù)據(jù)挖掘 簡單直接文件 ?數(shù)據(jù)僅僅是從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境中,并沒有任何累積。 ?是間隔一定時間的操作型數(shù)據(jù)的一個快照。不是在每天的基礎(chǔ)上組織的,而是以較長時間為單位的,比如一個星期或一個月。 數(shù)據(jù)挖掘 連續(xù)文件 ?通過兩個連續(xù)的簡單直接文件,可以生成另一個連續(xù)文件 ?連續(xù)文件也可以通過把一個快照追加到一個以前生成的連續(xù)文件上來創(chuàng)建 數(shù)據(jù)挖掘 連續(xù)文件 ?連續(xù)文件也可以通過把一個快照追加到一個以前生成的連續(xù)文件上來創(chuàng)建 數(shù)據(jù)挖掘 數(shù)據(jù)存儲 ?虛擬存儲方式 ?基于關(guān)系表的存儲方式 ?多維數(shù)據(jù)庫組織 數(shù)據(jù)挖掘 虛擬存儲方式 ?沒有專門的數(shù)據(jù)倉庫數(shù)據(jù)存儲,數(shù)據(jù)倉庫中的數(shù)據(jù)仍然在源數(shù)據(jù)庫中。只是根據(jù)用戶的多維需求及形成的多維視圖臨時在源數(shù)據(jù)庫中找出所需要的數(shù)據(jù),完成多維分析。 ?優(yōu)點(diǎn): 組織方式簡單、花費(fèi)少、使用靈活; ?缺點(diǎn): 只有當(dāng)源數(shù)據(jù)庫的數(shù)據(jù)組織比較規(guī)范、沒有數(shù)據(jù)不完備及冗余,同時又比較接近多維數(shù)據(jù)模型時,虛擬數(shù)據(jù)倉庫的多維語義才容易定義。 而在一般的數(shù)據(jù)庫應(yīng)用中,這很難做到。 數(shù)據(jù)挖掘 基于關(guān)系表的存儲方式 ?將數(shù)據(jù)倉庫的數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)中,在元數(shù)據(jù)的管理下完成數(shù)據(jù)倉庫的功能。 ?實體關(guān)系( ER) 模型一般用于關(guān)系型數(shù)據(jù)庫設(shè)計,而數(shù)據(jù)倉庫采用 ?星型 ?雪 花 型 ?事實星座 數(shù)據(jù)挖掘 基于關(guān)系表的存儲方式 ?關(guān)系數(shù)據(jù)庫一般采用二維數(shù)據(jù)表的形式來表示數(shù)據(jù),一個維是行,另一個維是列,行和列的交叉處就是數(shù)據(jù)元素。關(guān)系數(shù)據(jù)的基礎(chǔ)是關(guān)系數(shù)據(jù)庫模型,通過標(biāo)準(zhǔn)的 SQL語言來加以實現(xiàn)。 ?數(shù)據(jù)倉庫是多維數(shù)據(jù)庫,它擴(kuò)展了關(guān)系數(shù)據(jù)庫模型,以 星形架構(gòu)為主要結(jié)構(gòu)方式 的,并在它的基礎(chǔ)上,擴(kuò)展出 理論雪花形架構(gòu)和數(shù)據(jù)星座等 方式,但不管是哪一種架構(gòu), 維度表、事實表和事實表中的量度 都是必不可少的組成要素。 數(shù)據(jù)挖掘 星型模式 ?數(shù)據(jù)倉庫中包含 ( 1) 一個大的包含大批數(shù)據(jù)和不冗余的 事實表(中心表); ( 2) 一組小的附屬表 ,稱為維表。每維一個。 ?事實表 中每條元組都含有指向各個維表的外鍵和一些相應(yīng)的測量數(shù)據(jù),事實表的記錄數(shù)量很多,維表中記錄的是有關(guān)這一維的屬性。 數(shù)據(jù)挖掘 星型模式 ?星形模型可以采用 關(guān)系型數(shù)據(jù)庫結(jié)構(gòu) ,模型的核心是事實表 , 圍繞事實表的是維度表 。通過事實表將各種不同的維度表連接起來,各個維度表都連接到中央事實表。維度表中的對象通過事實表與另一維度表中的對象相關(guān)聯(lián),這樣就能建立各個維度表對象之間的聯(lián)系。 數(shù)據(jù)挖掘 星型模式 ?事實表 ?主要包含了描述特定商業(yè)事件的數(shù)據(jù),即某些特定商業(yè)事件的度量值。 ?一般情況下,事實表中的數(shù)據(jù)不允許修改,新的數(shù)據(jù)只是簡單地添加進(jìn)事實表中, ?維度表主要包含了存儲在事實表中數(shù)據(jù)的特征數(shù)據(jù)。 ?每一個維度表利用維度關(guān)鍵字通過事實表中的外鍵約束于事實表中的某一行,實現(xiàn)與事實表的關(guān)聯(lián),這就要求事實表中的外鍵不能為空,這與一般數(shù)據(jù)庫中外鍵允許為空是不同的。 ?這種結(jié)構(gòu)使用戶能夠很容易地從維度表中的數(shù)據(jù)分析開始,獲得維度關(guān)鍵字,以便連接到中心的事實表,進(jìn)行查詢。 數(shù)據(jù)挖掘 星型模式示例 時間鍵 產(chǎn)品鍵 地區(qū)鍵 sales (事實表) 銷售量 銷售價 time 時間鍵 年 季度 月 星期 天 產(chǎn)品鍵 產(chǎn)品類 產(chǎn)品名 型號 item location 地區(qū)鍵 國家 省 市 維表 數(shù)據(jù)挖掘 雪花模式 ?雪花模型是對星形模型的擴(kuò)展, 每一個維度都可以向外連接多個詳細(xì)類別表 。 ?在這種模式中,維度表除了具有星形模型中維度表的功能外,還連接對事實表進(jìn)行詳細(xì)描述的詳細(xì)類別表,詳細(xì)類別表通過對事實表在有關(guān)維上的詳細(xì)描述達(dá)到了縮小事實表和提高查詢效率的目的。 數(shù)據(jù)挖掘 雪花模式示例 time 時間鍵 年 季度 月 星期 天 產(chǎn)品鍵 產(chǎn)品類 產(chǎn)品名 型號 item 時間鍵 產(chǎn)品鍵 地區(qū)鍵 sales (事實表) 銷售量 銷售價 location 地區(qū)鍵 國家 省鍵 省鍵 省名 市鍵 市鍵 市名 province city 數(shù)據(jù)挖掘 星型模式 VS 雪花模式 ?雪花模式的 維表可能是規(guī)范化的 ,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲空間。 ?實際上,與巨大的事實表相比,這種空間的節(jié)省可以忽略。 ?由于執(zhí)行查詢需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的性能。 ?在數(shù)據(jù)倉庫設(shè)計中, 雪花模式不如星型模式流行 。 數(shù)據(jù)挖掘 事實星座模式 ?一個復(fù)雜的商業(yè)智能應(yīng)用往往會在數(shù)據(jù)倉庫中存放多個事實表,這時就會出現(xiàn) 多個事實表共享某一個或多個維表的情況 ,這就是 事實星座 ,也稱為星系模型(galaxy schema)。 數(shù)據(jù)挖掘 事實星座模式示例 time 時間鍵 年 季度 月 星期 天 產(chǎn)品鍵 產(chǎn)品類 產(chǎn)品名 型號 item 時間鍵 產(chǎn)品鍵 地區(qū)鍵 sales (事實表) 銷售量 銷售價 location 地區(qū)鍵 國家 省 市 ship(事實表) 產(chǎn)品鍵 時間鍵 起運(yùn)點(diǎn) 終止點(diǎn) 運(yùn)價 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫的數(shù)據(jù)追加(選學(xué)) ?時標(biāo)法 ?前后映像文件方法 ?DELTA文件 ?日志文件 數(shù)據(jù)挖掘 時標(biāo)法 ?基本思想:為記錄數(shù)據(jù)增加一個時間標(biāo)記。 ?如果數(shù)據(jù)含有時標(biāo),對新插入或更新的數(shù)據(jù)記錄,在其上添加更新時的時標(biāo),那么只需根據(jù)時標(biāo)判斷即可。 ?但并非所有數(shù)據(jù)庫中的數(shù)據(jù)都含有時標(biāo)。 數(shù)據(jù)挖掘 前后映像文件方法 ?在抽取數(shù)據(jù)前后對數(shù)據(jù)庫各做一次快照,然后比較兩幅快照從而確定新數(shù)據(jù)。 ?它占用大量資源,對性能影響極大,因此無實際意義。 數(shù)據(jù)挖掘 DELTA文件 ?DELTA文件視圖從能夠感知數(shù)據(jù)變化的應(yīng)用程序來生成追加文件 ?利用 DELTA文件效率很高,它避免掃描整個數(shù)據(jù)庫。 ?但因應(yīng)用系統(tǒng)常由不同的軟件開發(fā)商開發(fā),生成DELTA文件的應(yīng)用并不普遍。 數(shù)據(jù)挖掘 日志文件 ?日志是 DMBS的固有機(jī)制 ?系統(tǒng)日志能把數(shù)據(jù)庫服務(wù)器所執(zhí)行的所有操作詳細(xì)記錄下來,通過分析日志獲取數(shù)據(jù)變化情況。 ?它還具有 DELTA文件的優(yōu)越性質(zhì),提取數(shù)據(jù)只要局限日志文件即可,不用掃描整個數(shù)據(jù)庫。 ?固有機(jī)制,不影響 OLTP性能。 數(shù)據(jù)挖掘 數(shù)據(jù)抽取、轉(zhuǎn)換和加載 ?數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載的過程,存儲到數(shù)據(jù)倉庫的數(shù)據(jù)模型中。 ?ETL過程 ?抽取( Extraction) ?轉(zhuǎn)換( Transform) ?裝載( Load) 數(shù)據(jù)挖掘 數(shù)據(jù)抽取 ?確認(rèn)數(shù)據(jù)源 ?數(shù)據(jù)抽取技術(shù) 數(shù)據(jù)挖掘 確認(rèn)數(shù)據(jù)源 ? 列出對事實表的每一個數(shù)據(jù)項和事實 ? 列出每一個維度屬性 ? 對于每個目標(biāo)數(shù)據(jù)項,找出源數(shù)據(jù)項 ? 一個數(shù)據(jù)元素有多個來源,選擇最好的來源 ? 確認(rèn)一個目標(biāo)字段的多個源字段,建立合并規(guī)則 ? 確認(rèn)一個目標(biāo)字段的多個源字段,建立分離規(guī)則 ? 確定默認(rèn)值 ? 檢查缺失值的源數(shù)據(jù) 數(shù)據(jù)挖掘 數(shù)據(jù)抽取技術(shù) ?當(dāng)前值 :源系統(tǒng)中存儲的數(shù)據(jù)都代表了當(dāng)前時刻的值。當(dāng)商業(yè)交易時,這些數(shù)據(jù)是會發(fā)生變化的。 ?周期性的狀態(tài) :這類數(shù)據(jù)存儲的是每次發(fā)生變化時的狀態(tài)。例如,對于每一保險索賠,都經(jīng)過索賠開始、確認(rèn)、評估和解決等步驟,都要考慮有時間說明。 數(shù)據(jù)挖掘 數(shù)據(jù)轉(zhuǎn)換 T ?數(shù)據(jù)轉(zhuǎn)換的基本功能 ?數(shù)據(jù)轉(zhuǎn)換類型 ?數(shù)據(jù)整合和合并 ?如何實施轉(zhuǎn)換 數(shù)據(jù)挖掘 數(shù)據(jù)轉(zhuǎn)換的基本功能 ?選擇: 從源系統(tǒng)中選擇整個記錄或者部分記錄。 ?分離 /合并: 對源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。 ?轉(zhuǎn)化: 對源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和可理解化。 ?匯總: 將最低粒度數(shù)據(jù)進(jìn)行匯總。 ?清晰: 對單個字段數(shù)據(jù)進(jìn)行重新分配和簡化 。 數(shù)據(jù)挖掘 數(shù)據(jù)轉(zhuǎn)換類型 ( 1)格式修正 ( 2)字段的解碼 ( 3)計算值和導(dǎo)出值 ( 4)單個字段的分離 ( 5)信息的合并 ( 6)特征集合轉(zhuǎn)化 ( 7)度量單位的轉(zhuǎn)化 ( 8)關(guān)鍵字重新構(gòu)造 ( 9)匯總 ( 10)日期 /時間轉(zhuǎn)化 數(shù)據(jù)挖掘 數(shù)據(jù)整合和合并 ?數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。 ?實體識別問題。 數(shù)據(jù)來源于多個不同的客戶系統(tǒng),對相同客戶可能分別有不同的鍵碼,將它們組合成一條單獨(dú)的記錄。 ?多數(shù)據(jù)源相同屬性不同值的問題。 不同系統(tǒng)中得到的值存在一些差別 ,需要給出合理的值。 數(shù)據(jù)挖掘 如何實施轉(zhuǎn)換 ?自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換 ?使用轉(zhuǎn)換工具 數(shù)據(jù)挖掘 數(shù)據(jù)裝載 L ?數(shù)據(jù)裝載方式 ?數(shù)據(jù)裝載類型 數(shù)據(jù)挖掘 數(shù)據(jù)裝載方式 ?基本裝載。 按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中去。 ?追加。 如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。 ?破壞性合并。 用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。 ?建設(shè)性合并。 保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。 數(shù)據(jù)挖掘 數(shù)據(jù)裝載類型 ?初始裝載。 這是第一次對整個數(shù)據(jù)倉庫進(jìn)行裝載。 ?增量裝載。 由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。 ?完全刷新。 這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。 數(shù)據(jù)挖掘 數(shù)據(jù)處理的有關(guān)討論 ?數(shù)據(jù)庫中的空缺值 ?不一致的數(shù)據(jù) ?由于某種原因的不一致需統(tǒng)一(比如英制與公制) ?樣本空間的大小 ?與分析無關(guān)的數(shù)據(jù)不要裝入數(shù)據(jù)倉庫 ?數(shù)據(jù)離散化 ?在必要的情況下將連續(xù)的數(shù)據(jù)變換成離散值。比如年齡按 10歲分段,收入按 1000分段等 ?數(shù)據(jù)規(guī)范化 數(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1