freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項目中etl設計與思考(留存版)

2025-08-13 19:01上一頁面

下一頁面
  

【正文】 的最后步驟?! ?,清洗和回收臟數(shù)據(jù)。數(shù)據(jù)流的終點通常是數(shù)據(jù)的目的地(目標表)?! ∧敲矗旅嫖覀兙蛠砜匆豢?,構(gòu)建企業(yè)級數(shù)據(jù)倉庫的流程?! ±纾杭僭O目前的數(shù)據(jù)最小記錄到秒,即數(shù)據(jù)庫中記錄了每一秒的交易額。同時,代理鍵對緩慢變化維度有著重要的意義,在原數(shù)據(jù)主鍵相同的情況下,它起到了對新數(shù)據(jù)與歷史數(shù)據(jù)的標識作用?! ?五)、創(chuàng)建事實表  在確定好事實數(shù)據(jù)和維度后,我們將考慮加載事實表。ETL為我們搭建了OLTP系統(tǒng)和OLAP系統(tǒng)之間的橋梁。在ETL的流程搭建好后,要定期對其運行,所以調(diào)度是執(zhí)行ETL流程的關(guān)鍵步驟。在使用調(diào)度前要考慮到事實數(shù)據(jù)量,確定需要多長時間更新一次。例如:下圖就向我們展示了ETL的數(shù)據(jù)轉(zhuǎn)換效果。另一種方法是將該維度打上時間戳,即將歷史數(shù)據(jù)生效的時間段作為它的一個屬性,在與原始表匹配生成事實表時將按照時間段進行關(guān)聯(lián),這種方法的好處是該維度成員生效時間明確。我們也可以使用三張表,分別保存產(chǎn)品大類、產(chǎn)品子類、產(chǎn)品三部分數(shù)據(jù),比如產(chǎn)品維度。我們或者將該數(shù)據(jù)匯總,或者將該數(shù)據(jù)取次數(shù)、獨立次數(shù)或取最大最小值等,這樣的數(shù)據(jù)稱為量度。而相比較而言,雪花型架構(gòu)的中間為事實表,兩邊的維度表可以再有其關(guān)聯(lián)子表,從而表達了清晰的維度層次關(guān)系。數(shù)據(jù)流是新的概念。ODI能夠檢測事件,一個事件可以觸發(fā)ODI的一個接口流程,從而完成近乎實時的數(shù)據(jù)集成。 39。訂閱者需要清楚自己感興趣的是哪些變化數(shù)據(jù)。每次進行數(shù)據(jù)抽取時,對源表和MD5臨時表進行MD5校驗碼的比對,從而決定源表中的數(shù)據(jù)是新增、修改還是刪除,同時更新MD5校驗碼。  (2)增量抽取  增量抽取只抽取自上次抽取以來數(shù)據(jù)庫中要抽取的表中新增或修改的數(shù)據(jù)。   但是,在實施數(shù)據(jù)集成的過程中,由于不同用戶提供的數(shù)據(jù)可能來自不同的途徑,其數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬別,有時甚至會遇到數(shù)據(jù)格式不能轉(zhuǎn)換或數(shù)據(jù)轉(zhuǎn)換格式后丟失信息等棘手問題,嚴重阻礙了數(shù)據(jù)在各部門和各應用系統(tǒng)中的流動與共享。   A、不完整的數(shù)據(jù),其特征是是一些應該有的信息缺失,如供應商的名稱,分公司的名稱,客戶的區(qū)域信息缺失、業(yè)務系統(tǒng)中主表與明細表不能匹配等。  與存放DW的數(shù)據(jù)庫系統(tǒng)相同的數(shù)據(jù)源處理方法  這一類數(shù)源在設計比較容易,一般情況下,DBMS(包括SQLServer,Oracle)都會提供數(shù)據(jù)庫鏈接功能,在DW數(shù)據(jù)庫服務器和原業(yè)務系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫Select 語句直接訪問。記錄日志的目的是隨時可以知道ETL運行情況,如果出錯了,可以知道哪里出錯。  數(shù)據(jù)清洗是一個反復的過程,不可能在幾天內(nèi)完成,只有不斷的發(fā)現(xiàn)問題,解決問題。一種是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服務、Informatic等)實現(xiàn),一種是SQL方式實現(xiàn),另外一種是ETL工具和SQL相結(jié)合?! τ谂c存放DW的數(shù)據(jù)庫系統(tǒng)相同的數(shù)據(jù)源處理方法  這一類數(shù)據(jù)源在設計上比較容易?! ?2)數(shù)據(jù)粒度的轉(zhuǎn)換:業(yè)務系統(tǒng)一般存儲非常明細的數(shù)據(jù),而數(shù)據(jù)倉庫中數(shù)據(jù)是用來分析的,不需要非常明細的數(shù)據(jù)。ETL也是一個長期的過程,只有不斷的發(fā)現(xiàn)問題并解決問題,才能使ETL運行效率更高,為項目后期開發(fā)提供準確的數(shù)據(jù)。  對于文件類型數(shù)據(jù)源(.txt,,xls),可以培訓業(yè)務人員利用數(shù)據(jù)庫工具將這些數(shù)據(jù)導入到指定的數(shù)據(jù)庫,然后從指定的數(shù)據(jù)庫抽取。這一類數(shù)據(jù)也要分類,對于類似于全角字符、數(shù)據(jù)前后有不面見字符的問題只能寫SQL的方式找出來,然后要求客戶在業(yè)務系統(tǒng)修正之后抽取?! TL日志分為三類。(2)數(shù)據(jù)轉(zhuǎn)換:將從源數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務需求,轉(zhuǎn)換成目的數(shù)據(jù)源要求的形式,并對錯誤、不一致的數(shù)據(jù)進行清洗和加工。性能,不能對業(yè)務系統(tǒng)造成太大的壓力,影響現(xiàn)有業(yè)務。CDC 特性是在Oracle9i數(shù)據(jù)庫中引入的。  ETL處理的數(shù)據(jù)源除了關(guān)系數(shù)據(jù)庫外,還可能是文件,例如txt文件、excel文件、xml文件等。裝載數(shù)據(jù)的最佳方法取決于所執(zhí)行操作的類型以及需要裝入多少數(shù)據(jù)?! ???梢詫?shù)據(jù)流的執(zhí)行認為是一個流水線的過程,在該過程中,每一行數(shù)據(jù)都是裝配線中需要處理的零件,而每一個轉(zhuǎn)換都是裝配線中的處理單元?! 《?、構(gòu)建企業(yè)級數(shù)據(jù)倉庫五步法  (一)、確定主題  即確定數(shù)據(jù)分析或前端展現(xiàn)的主題。那么,如果我們可以確認,在將來的分析需求中,時間只需要精確到天就可以的話,我們就可以在ETL處理過程中,按天來匯總數(shù)據(jù),此時,數(shù)據(jù)倉庫中量度的粒度就是“天”?! ≡诖?,我們不妨談一談維度表隨時間變化的問題,這是我們經(jīng)常會遇到的情況,我們稱其為緩慢變化維度?! ≡诠镜拇罅繑?shù)據(jù)堆積如山時,我們想看看里面究竟是什么,結(jié)果發(fā)現(xiàn)里面是一筆筆生產(chǎn)記錄,一筆筆交易記錄… 那么這些記錄是我們將要建立的事實表的原始數(shù)據(jù),即關(guān)于某一主題的事實記錄表?! ∷?、項目實踐技巧  (一)、準備區(qū)的運用  在構(gòu)建數(shù)據(jù)倉庫時,如果數(shù)據(jù)源位于一臺服務器上,數(shù)據(jù)倉庫在另一臺服務器端,考慮到數(shù)據(jù)源Server端訪問頻繁,并且數(shù)據(jù)量大,需要不斷更新,所以可以建立準備區(qū)數(shù)據(jù)庫(圖八:)。每一次調(diào)度除了寫入Log日志表的數(shù)據(jù)處理信息外,還要使用發(fā)送Email或報警服務等,這樣也方便的技術(shù)人員對ETL流程的把握,增強了安全性和數(shù)據(jù)處理的準確性。2使用道具  (四)、使用調(diào)度  在對數(shù)據(jù)倉庫進行增量更新時必須使用調(diào)度(圖九:),即對事實數(shù)據(jù)表進行增量更新處理?! TL是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、加載(Load )的簡寫,它是指:將OLTP系統(tǒng)中的數(shù)據(jù)抽取出來,并將不同數(shù)據(jù)源的數(shù)據(jù)進行轉(zhuǎn)換和整合,得出一致性的數(shù)據(jù),然后加載到數(shù)據(jù)倉庫中。而在統(tǒng)計2006年數(shù)據(jù)時就應該定位到B部門,然后再有新的數(shù)據(jù)插入時,將按照新部門(B部門)進行處理,這樣我們的做法是將該維度成員列表加入標識列,將歷史的數(shù)據(jù)標識為“過期”,將目前的數(shù)據(jù)標識為“當前的”?! ∧敲?,我們分析中所用到的這些維度,在數(shù)據(jù)倉庫中的存在形式是怎樣的呢?  我們可以將3個級別設置成一張數(shù)據(jù)表中的3個字段,比如時間維度。它們一般為數(shù)值型數(shù)據(jù)。如圖所示,星型架構(gòu)的中間為事實表,四周為維度表,類似星星。當前任務的執(zhí)行結(jié)果決定沿哪條分支前進。ODI和Oracle原來的ETL工具OWB相比有一些顯著的特點,比如和OWB一樣是ELT架構(gòu),但是比OWB支持更多的異構(gòu)的數(shù)據(jù)源,ODI提供了call web service的機制,并且ODI的接口也可以暴露為web service,從而可以和SOA環(huán)境進行交互。select ID as USERID, substr(TITLE, 1, 20) as TITLE, case when REMARK is null then 39。它還使訂閱者能夠控制對變化數(shù)據(jù)的訪問。ETL工具事先為要抽取的表建立一個結(jié)構(gòu)類似的MD5臨時表,該臨時表記錄源表主鍵以及根據(jù)所有字段的數(shù)據(jù)計算出來的MD5校驗碼。全量抽取比較簡單。數(shù)據(jù)集成是企業(yè)應用集成的重要環(huán)節(jié),企業(yè)實現(xiàn)數(shù)據(jù)集成,可以使更多的人更充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復勞動和相應費用。   A、不一致數(shù)據(jù)轉(zhuǎn)換,這個過程是一個整合的過程,將不同業(yè)務系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個供應商在結(jié)算系統(tǒng)的編碼是XX0001,而在CRM中編碼是YY0001,這樣在抽取過來之后統(tǒng)一轉(zhuǎn)換成一個編碼?! ?shù)據(jù)的抽取  數(shù)據(jù)的抽取需要在調(diào)研階段做大量工作,首先要搞清楚以下幾個問題:數(shù)據(jù)是從幾個業(yè)務系統(tǒng)中來?各個業(yè)務系統(tǒng)的數(shù)據(jù)庫服務器運行什么DB
點擊復制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1