freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)倉庫的開發(fā)設(shè)計過程-資料下載頁

2025-06-30 01:52本頁面
  

【正文】 統(tǒng)。如果還未完成大量的更新,就不應(yīng)該移動數(shù)據(jù)。如果數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個相互關(guān)聯(lián)的操作系統(tǒng),就應(yīng)該保證在這些系統(tǒng)同步工作時移動數(shù)據(jù)。廣義的數(shù)據(jù)準備,覆蓋面很廣泛,包含了從數(shù)據(jù)源抽取數(shù)據(jù),一直到最終數(shù)據(jù)呈現(xiàn)在用戶面前之間的所有工作,這其中的最主要的工作就是數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、裝載等一系列工作。在最初的數(shù)據(jù)倉庫實現(xiàn)之前所有的這些工作都是用程序手工實現(xiàn)的。這樣就造成了一個非常嚴重的問題,就是數(shù)據(jù)倉庫的持續(xù)發(fā)展問題,因為利用程序?qū)崿F(xiàn)每一個數(shù)據(jù)抽取過程,導(dǎo)致所有的數(shù)據(jù)邏輯都隱藏在程序內(nèi)部,當數(shù)據(jù)倉庫進一步發(fā)展時,這些程序的管理和修改,將成為阻礙數(shù)據(jù)倉庫發(fā)展的最大的障礙。 經(jīng)過一段時間的發(fā)展,人們最終認識到 ETL 工具的重要性,于是相關(guān)的 ETL工具也紛紛出臺,其中比較著名的是 IBM 的 Visual warehouse,Ardent 公司的data stage 等等。如何判斷一個 ETL 工具的優(yōu)略呢,一般而言,主要有一下幾個因素: 1 OPEN datasourceThe tools must extract data from most kind of data source use Native database Driver就是說這種工具必須從很多不同的數(shù)據(jù)源抽取數(shù)據(jù),并盡可能地使用數(shù)據(jù)源本身提供的驅(qū)動程序來提高使用效率29 / 332 OPEN target DatabaseThe Tools must can Use most database like (DB2,.) as Target database.要支持不同的數(shù)據(jù)庫作為數(shù)據(jù)倉庫的載體3 Schedule job 可以定時進行數(shù)據(jù)的更新的整理4 High Performance 較高的工作效率5 Metadata management 完善的元數(shù)據(jù)管理,可以對整個 ETL 過程中產(chǎn)生的元數(shù)據(jù)進行管理6 Parallel support 支持并行數(shù)據(jù)抽取7 Visualize UI 可視化的工作界面8 Custom define program 可以支持用戶自定義的程序做一些普通 SQL 語句無法完成的工作9 SecuritySupport multi user and user group支持多用戶和多用戶組的工作方式10 Increment data extract support 可以實現(xiàn)數(shù)據(jù)的增量抽取11 Use subject to manage ETL Job 用戶可以對所有進程按照主題進行管理12 Enable Complex cleansing and transformAutomatic generate SQL, Custom SQL support 支持復(fù)雜的數(shù)據(jù)清洗工作,自動生成 SQL 語句,用戶自定義 SQL30 / 3313 Support MDD data load 可以支持多維數(shù)據(jù)庫的數(shù)據(jù)加載14 Support TB data extract and load 可以支持 TB 級別的數(shù)據(jù)加載15 Data model export and import 現(xiàn)有設(shè)置可以進行Export 和 import七、 如何建立數(shù)據(jù)倉庫 數(shù)據(jù)倉庫的實現(xiàn)主要以關(guān)系數(shù)據(jù)庫(RDB)技術(shù)為基礎(chǔ),因為關(guān)系數(shù)據(jù)庫的數(shù)據(jù)存儲和管理技術(shù)發(fā)展得較為成熟,其成本和復(fù)雜性較低,已開發(fā)成功的大型事務(wù)數(shù)據(jù)庫多為關(guān)系數(shù)據(jù)庫,但關(guān)系數(shù)據(jù)庫系統(tǒng)并不能滿足數(shù)據(jù)倉庫的數(shù)據(jù)存儲要求,需要通過使用一些技術(shù),如動態(tài)分區(qū)、位圖索引、優(yōu)化查詢等,使關(guān)系數(shù)據(jù)庫管理系統(tǒng)在數(shù)據(jù)倉庫應(yīng)用環(huán)境中的性能得到大幅度的提高。 數(shù)據(jù)倉庫在構(gòu)建之初應(yīng)明確其主題,主題是一個在較高層次將數(shù)據(jù)歸類的標準,每一個主題對應(yīng)一個宏觀的分析領(lǐng)域,針對具體決策需求可細化為多個主題表,具體來說就是確定決策涉及的范圍和所要解決的問題。但是主題的確定必須建立在現(xiàn)有聯(lián)機事務(wù)處理(OLTP)系統(tǒng)基礎(chǔ)上,否則按此主題設(shè)計的數(shù)據(jù)倉庫存儲結(jié)構(gòu)將成為一個空殼,缺少可存儲的數(shù)據(jù)。但一味注重OLTP 數(shù)據(jù)信息,也將導(dǎo)致迷失數(shù)據(jù)提取方向,偏離主題。需要在 OLTP 數(shù)31 / 33據(jù)和主題之間找到一個“平衡點”,根據(jù)主題的需要完整地收集數(shù)據(jù),這樣構(gòu)建的數(shù)據(jù)倉庫才能滿足決策和分析的需要。 建立一個數(shù)據(jù)倉庫需要經(jīng)過以下幾個處理過程:①數(shù)據(jù)倉庫設(shè)計;②數(shù)據(jù)抽??;③數(shù)據(jù)管理。 數(shù)據(jù)倉庫設(shè)計 根據(jù)決策主題設(shè)計數(shù)據(jù)倉庫結(jié)構(gòu),一般采用星型模型和雪花模型設(shè)計其數(shù)據(jù)模型,在設(shè)計過程中應(yīng)保證數(shù)據(jù)倉庫的規(guī)范化和體系各元素的必要聯(lián)系。主要有以下 3 個步驟: ①定義該主題所需各數(shù)據(jù)源的詳細情況,包括所在計算機平臺、擁有者、數(shù)據(jù)結(jié)構(gòu)、使用該數(shù)據(jù)源的處理過程、倉庫更新計劃等。 ②定義數(shù)據(jù)抽取原則,以便從每個數(shù)據(jù)源中抽取所需數(shù)據(jù);定義數(shù)據(jù)如何轉(zhuǎn)換、裝載到主題的哪個數(shù)據(jù)表中。 ③將一個主題細化為多個業(yè)務(wù)主題,形成主題表,據(jù)此從數(shù)據(jù)倉庫中選出多個數(shù)據(jù)子集,即數(shù)據(jù)集市(DataMart)。數(shù)據(jù)集市通常針對部門級的決策或某個特定業(yè)務(wù)需求,它開發(fā)周期短,費用低,能在較短時間內(nèi)滿足用戶決策的需要。因此,在實際開發(fā)過程中可以選擇在成功建立幾個數(shù)據(jù)集市后再構(gòu)建數(shù)據(jù)倉庫32 / 33這種策略。 這些數(shù)據(jù)定義直接輸入系統(tǒng)中,作為元數(shù)據(jù)(metadata)存儲,供數(shù)據(jù)管理模塊和分析使用。元數(shù)據(jù)存儲在元數(shù)據(jù)庫中,它不僅是數(shù)據(jù)倉庫的文檔資料,供管理、維護人員使用,而且亦可供用戶查詢,使之更好地了解數(shù)據(jù)倉庫結(jié)構(gòu),提高自己的使用水平。 數(shù)據(jù)抽取模塊 該模塊是根據(jù)元數(shù)據(jù)庫中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對異地異構(gòu)數(shù)據(jù)源(包括各平臺的數(shù)據(jù)庫、文本文件、HTML 文件、知識庫等)進行清理、轉(zhuǎn)換,對數(shù)據(jù)進行重新組織和加工,裝載到數(shù)據(jù)倉庫的目標庫中。在組織不同來源的數(shù)據(jù)過程中,先將數(shù)據(jù)轉(zhuǎn)換成一種中間模式,再把它移至臨時工作區(qū)。加工數(shù)據(jù)是保證目標數(shù)據(jù)庫中數(shù)據(jù)的完整性、一致性。例如,有兩個數(shù)據(jù)源存儲與人員有關(guān)的信息,在定義數(shù)據(jù)組成的人員編碼類型時,可能一個是字符型,一個是整型;在定義人員性別這一屬性的類型時,一個可能是char(2),存儲的數(shù)據(jù)值為“男”和“女”,而另一個屬性類型為 char(1),數(shù)據(jù)值為“F”和“ M”。這兩個數(shù)據(jù)源的值都是正確的,但對于目標數(shù)據(jù)來說,必須加工為一種統(tǒng)一的方法來表示該屬性值,然后交由最終用戶進行驗證,這樣才能保證數(shù)據(jù)的質(zhì)量。在數(shù)據(jù)抽取過程中,必須在最終用戶的密切配合下,才能實現(xiàn)數(shù)據(jù)的真正統(tǒng)一。早期數(shù)據(jù)抽取是依靠手工編程和程序生成器實現(xiàn),現(xiàn)在則通過高效的工具來實現(xiàn),如 Ardent 公司的 Infomoter 產(chǎn)品、SAS 的數(shù)據(jù)33 / 33倉庫產(chǎn)品 SAS/WA(WarehouseAdministrator)及各大數(shù)據(jù)倉庫廠商推出的、完整的數(shù)據(jù)倉庫解決方案。 數(shù)據(jù)維護模塊 該模塊分為目標數(shù)據(jù)維護和元數(shù)據(jù)維護兩方面。目標數(shù)據(jù)維護是根據(jù)元數(shù)據(jù)庫所定義的更新頻率、更新數(shù)據(jù)項等更新計劃任務(wù)來刷新數(shù)據(jù)倉庫,以反映數(shù)據(jù)源的變化,且對時間相關(guān)性進行處理。更新操作有兩種情況,即在倉庫的原有數(shù)據(jù)表中進行某些數(shù)據(jù)的更新和產(chǎn)生一個新的時間區(qū)間的數(shù)據(jù),因為匯總數(shù)據(jù)與數(shù)據(jù)倉庫中的許多信息元素有關(guān)系,必需完整地匯總,這樣才能保證全體信息的一致性。 數(shù)據(jù)倉庫規(guī)模一般都很大,從建立之初就要保證它的可管理性,一個企業(yè)可能建立幾個數(shù)據(jù)倉庫或數(shù)據(jù)集市,但他們可共用一個元數(shù)據(jù)庫對其進行管理。首先從元數(shù)據(jù)庫查詢所需元數(shù)據(jù),然后進行數(shù)據(jù)倉庫更新作業(yè),更新結(jié)束后,將更新情況記錄于元數(shù)據(jù)庫中。當數(shù)據(jù)源的運行環(huán)境、結(jié)構(gòu)及目標數(shù)據(jù)的維護計劃發(fā)生變化時,需要修改元數(shù)據(jù)。元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分,元數(shù)據(jù)的質(zhì)量決定整個數(shù)據(jù)倉庫的質(zhì)量。
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1