freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項(xiàng)目中etl設(shè)計(jì)與思考-wenkub.com

2025-06-26 19:01 本頁(yè)面
   

【正文】 owb,odi都是ELT工具,不過(guò)支持ETL。例如:如果數(shù)據(jù)源的臟數(shù)據(jù)很多,在搭建數(shù)據(jù)倉(cāng)庫(kù)之前我們首先要進(jìn)行數(shù)據(jù)清洗,以剔除掉不需要的信息和臟數(shù)據(jù)。在ETL的流程搭建好后,要定期對(duì)其運(yùn)行,所以調(diào)度是執(zhí)行ETL流程的關(guān)鍵步驟。在使用調(diào)度前要考慮到事實(shí)數(shù)據(jù)量,確定需要多長(zhǎng)時(shí)間更新一次。例如:在進(jìn)行數(shù)據(jù)抽取時(shí),我們將按照時(shí)間戳對(duì)OLTP系統(tǒng)中的數(shù)據(jù)進(jìn)行抽取,比如在午夜0:00取前一天的數(shù)據(jù),我們將按照OLTP系統(tǒng)中的時(shí)間戳取GETDATE到GETDATE減一天,這樣得到前一天數(shù)據(jù)。數(shù)據(jù)準(zhǔn)備區(qū)中將存在原始抽取表、轉(zhuǎn)換中間表和臨時(shí)表以及ETL日志表等。ETL為我們搭建了OLTP系統(tǒng)和OLAP系統(tǒng)之間的橋梁。例如:下圖就向我們展示了ETL的數(shù)據(jù)轉(zhuǎn)換效果。如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是一座大廈,那么ETL就是大廈的根基?! ∪绻紤]到擴(kuò)展,可以將事實(shí)表加一唯一標(biāo)識(shí)列,以為了以后擴(kuò)展將該事實(shí)作為雪花型維度,不過(guò)不需要時(shí)一般建議不用這樣做。  (五)、創(chuàng)建事實(shí)表  在確定好事實(shí)數(shù)據(jù)和維度后,我們將考慮加載事實(shí)表。另一種方法是將該維度打上時(shí)間戳,即將歷史數(shù)據(jù)生效的時(shí)間段作為它的一個(gè)屬性,在與原始表匹配生成事實(shí)表時(shí)將按照時(shí)間段進(jìn)行關(guān)聯(lián),這種方法的好處是該維度成員生效時(shí)間明確。這時(shí),要將原數(shù)據(jù)更新,將新數(shù)據(jù)插入,我們使用UPDATE / INSERT。對(duì)于緩慢變化維度,有三種情況:  緩慢變化維度第一種類(lèi)型:  歷史數(shù)據(jù)需要修改。同時(shí),代理鍵對(duì)緩慢變化維度有著重要的意義,在原數(shù)據(jù)主鍵相同的情況下,它起到了對(duì)新數(shù)據(jù)與歷史數(shù)據(jù)的標(biāo)識(shí)作用。我們也可以使用三張表,分別保存產(chǎn)品大類(lèi)、產(chǎn)品子類(lèi)、產(chǎn)品三部分?jǐn)?shù)據(jù),比如產(chǎn)品維度?! ∵@里我們首先要確定維度的層次(Hierarchy)和級(jí)別(Level)(圖四:)。關(guān)于建立多維分析模型(CUBE)的相關(guān)問(wèn)題,我們將在下期欄目中予以闡述?! ±纾杭僭O(shè)目前的數(shù)據(jù)最小記錄到秒,即數(shù)據(jù)庫(kù)中記錄了每一秒的交易額。我們或者將該數(shù)據(jù)匯總,或者將該數(shù)據(jù)取次數(shù)、獨(dú)立次數(shù)或取最大最小值等,這樣的數(shù)據(jù)稱(chēng)為量度。從而,不同的主題來(lái)源于數(shù)據(jù)倉(cāng)庫(kù)中的不同子集,我們可以稱(chēng)之為數(shù)據(jù)集市?! ∥覀兛梢孕蜗蟮膶⒁粋€(gè)主題想象為一顆星星:統(tǒng)計(jì)數(shù)值型數(shù)據(jù)(量度)存在于星星中間的事實(shí)表?! ∧敲矗旅嫖覀兙蛠?lái)看一看,構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的流程。而相比較而言,雪花型架構(gòu)的中間為事實(shí)表,兩邊的維度表可以再有其關(guān)聯(lián)子表,從而表達(dá)了清晰的維度層次關(guān)系。數(shù)據(jù)倉(cāng)庫(kù)建模與ETL的實(shí)踐技巧開(kāi)發(fā)者在線 更新時(shí)間:20080916作者: 來(lái)源:本文關(guān)鍵詞: IT技術(shù) ETL 數(shù)據(jù)倉(cāng)庫(kù)  一、數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)   數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse DW)是為了便于多維分析和多角度展現(xiàn)而將數(shù)據(jù)按特定的模式進(jìn)行存儲(chǔ)所建立起來(lái)的關(guān)系型數(shù)據(jù)庫(kù),它的數(shù)據(jù)基于OLTP源系統(tǒng)?! ?3)抽取和裝載的性能是不是較高,且對(duì)業(yè)務(wù)系統(tǒng)的性能影響大不大,傾入性高不高。數(shù)據(jù)流的終點(diǎn)通常是數(shù)據(jù)的目的地(目標(biāo)表)。數(shù)據(jù)流是新的概念。控制流也稱(chēng)為工作流或者任務(wù)流,它更像工作流,在工作流中每個(gè)組件都是一個(gè)任務(wù)。在SQL Server 2005的前兩個(gè)版本SQL Server Server 2000中,DTS主要集中于提取和加載?! ?,清洗和回收臟數(shù)據(jù)。ODI能夠檢測(cè)事件,一個(gè)事件可以觸發(fā)ODI的一個(gè)接口流程,從而完成近乎實(shí)時(shí)的數(shù)據(jù)集成。另外一種是第三方工具提供商,如Kettle?! 〈蠖鄶?shù)情況下會(huì)使用第一種方法,因?yàn)樗鼈冞M(jìn)行了日志記錄并且是可恢復(fù)的。    數(shù)據(jù)裝載  將轉(zhuǎn)換和加工后的數(shù)據(jù)裝載到目的庫(kù)中通常是ETL過(guò)程的最后步驟。 39?! ∮行〦TL工具還提供了腳本支持,使得用戶(hù)可以以一種編程的方式定制數(shù)據(jù)的轉(zhuǎn)換和加工行為。  數(shù)據(jù)的轉(zhuǎn)換和加工可以在ETL引擎中進(jìn)行,也可以在數(shù)據(jù)抽取過(guò)程中利用關(guān)系數(shù)據(jù)庫(kù)的特性同時(shí)進(jìn)行。異步模式則是基于Oracle的流復(fù)制技術(shù)。訂閱者需要清楚自己感興趣的是哪些變化數(shù)據(jù)。通常,CDC系統(tǒng)擁有一個(gè)發(fā)布者和多個(gè)訂閱者。這樣就可以捕獲發(fā)生變化的數(shù)據(jù),然后利用數(shù)據(jù)庫(kù)視圖以一種可控的方式提供給目標(biāo)系統(tǒng)。Oracle的改變數(shù)據(jù)捕獲(CDC,Changed Data Capture)技術(shù)是這方面的代表。每次進(jìn)行數(shù)據(jù)抽取時(shí),對(duì)源表和MD5臨時(shí)表進(jìn)行MD5校驗(yàn)碼的比對(duì),從而決定源表中的數(shù)據(jù)是新增、修改還是刪除,同時(shí)更新MD5校驗(yàn)碼。同觸發(fā)器方式一樣,時(shí)間戳方式的性能也比較好,數(shù)據(jù)抽取相對(duì)清楚簡(jiǎn)單,但對(duì)業(yè)務(wù)系統(tǒng)也有很大的傾入性(加入額外的時(shí)間戳字段),特別是對(duì)不支持時(shí)間戳的自動(dòng)更新的數(shù)據(jù)庫(kù),還要求業(yè)務(wù)系統(tǒng)進(jìn)行額外的更新時(shí)間戳操作。 ?。核且环N基于快照比較的變化數(shù)據(jù)捕獲方式,在源表上增加一個(gè)時(shí)間戳字段,系統(tǒng)中更新修改表數(shù)據(jù)的時(shí)候,同時(shí)修改時(shí)間戳字段的值。對(duì)捕獲方法一般有兩點(diǎn)要求:準(zhǔn)確性,能夠?qū)I(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù)按一定的頻率準(zhǔn)確地捕獲到。  (2)增量抽取  增量抽取只抽取自上次抽取以來(lái)數(shù)據(jù)庫(kù)中要抽取的表中新增或修改的數(shù)據(jù)。實(shí)際應(yīng)用中,數(shù)據(jù)源較多采用的是關(guān)系數(shù)據(jù)庫(kù)。現(xiàn)在也越來(lái)越多地將ETL應(yīng)用于一般信息系統(tǒng)中數(shù)據(jù)的遷移、交換和同步。(1)數(shù)據(jù)抽?。簭脑磾?shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù)。   但是,在實(shí)施數(shù)據(jù)集成的過(guò)程中,由于不同用戶(hù)提供的數(shù)據(jù)可能來(lái)自不同的途徑,其數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬(wàn)別,有時(shí)甚至?xí)龅綌?shù)據(jù)格式不能轉(zhuǎn)換或數(shù)據(jù)轉(zhuǎn)換格式后丟失信息等棘手問(wèn)題,嚴(yán)重阻礙了數(shù)據(jù)在各部門(mén)和各應(yīng)用系統(tǒng)中的流動(dòng)與共享。但是隨著信息系統(tǒng)的增加,各自孤立工作的信息系統(tǒng)將會(huì)造成大量的冗余數(shù)據(jù)和業(yè)務(wù)人員的重復(fù)勞動(dòng)。第三類(lèi)日志是總體日志,只記錄ETL開(kāi)始時(shí)間,結(jié)束時(shí)間是否成功信息。  ETL日志與警告發(fā)送  ETL日志,記錄日志的目的是隨時(shí)可以知道ETL運(yùn)行情況,如果出錯(cuò)了,出錯(cuò)在那里。 數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過(guò)濾掉了,對(duì)于每個(gè)過(guò)濾規(guī)則認(rèn)真進(jìn)行驗(yàn)證,并要用戶(hù)確認(rèn)才行。   C、重復(fù)的數(shù)據(jù),特別是維表中比較常見(jiàn),將重復(fù)的數(shù)據(jù)的記錄所有字段導(dǎo)出來(lái),讓客戶(hù)確認(rèn)并整理。   B、錯(cuò)誤的數(shù)據(jù),產(chǎn)生原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒(méi)有進(jìn)行判斷直接寫(xiě)入后臺(tái)數(shù)據(jù)庫(kù)造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個(gè)回車(chē)、日期格式不正確、日期越界等。   A、不完整的數(shù)據(jù),其特征是是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱(chēng),分公司的名稱(chēng),客戶(hù)的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不能匹配等。 1 2 :12下一頁(yè) 一般情況,業(yè)務(wù)系統(tǒng)會(huì)記錄業(yè)務(wù)發(fā)生的時(shí)間,可以用作增量的標(biāo)志,每次抽取之前首先判斷ODS中記錄最大的時(shí)間,然后根據(jù)這個(gè)時(shí)間去業(yè)務(wù)系統(tǒng)取大于這個(gè)時(shí)間的所有記錄。另外一種方法通過(guò)程序接口來(lái)完成?! ∨c存放DW的數(shù)據(jù)庫(kù)系統(tǒng)相同的數(shù)據(jù)源處理方法  這一類(lèi)數(shù)源在設(shè)計(jì)比較容易,一般情況下,DBMS(包括SQLServer,Oracle)都會(huì)提供數(shù)據(jù)庫(kù)鏈接功能,在DW數(shù)據(jù)庫(kù)服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫(xiě)Select 語(yǔ)句直接訪問(wèn)。前兩種方法各有優(yōu)缺點(diǎn),借助工具可以快速的建立起ETL工程,屏蔽復(fù)雜的編碼任務(wù),提高速度,降低難度,但是欠缺靈活性。數(shù)據(jù)的抽取是從各個(gè)不同的數(shù)據(jù)源抽取到ODS中(這個(gè)過(guò)程也可以做一些數(shù)據(jù)的清洗和轉(zhuǎn)換),在抽取的過(guò)程中需要挑選不同的抽取方法,盡可能的提高ETL的運(yùn)行效率。數(shù)據(jù)抽取、清洗與轉(zhuǎn)換 BI項(xiàng)目中ETL設(shè)計(jì)作者: 葉江,  出處:ITPub, 責(zé)任編輯: 葉江,  20070514 13:39  ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1