freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項(xiàng)目中etl設(shè)計(jì)與思考(專業(yè)版)

2025-08-10 19:01上一頁面

下一頁面
  

【正文】 如果有緩慢變化維度情況,調(diào)度時(shí)需要考慮到維度表更新情況,在更新事實(shí)數(shù)據(jù)表之前要先更新維度表。類似地,我們也可以根據(jù)其他需求,完善數(shù)據(jù)倉庫中的數(shù)據(jù)。例如:某一維度成員新加入了一列,該列在歷史數(shù)據(jù)中不能基于它瀏覽,而在目前數(shù)據(jù)和將來數(shù)據(jù)中可以按照它瀏覽,那么此時(shí)我們需要改變維度表屬性,即加入新的字段列。代理鍵是數(shù)值型的ID號(hào)碼(例如圖六中每張表的第一個(gè)字段),它唯一標(biāo)識(shí)了每一維度成員?! ?三)、確定事實(shí)數(shù)據(jù)粒度  在確定了量度之后,我們要考慮到該量度的匯總情況和不同維度下量度的聚合情況。而雪花型結(jié)構(gòu)明確,便于與OLTP系統(tǒng)交互。數(shù)據(jù)流由一組預(yù)定義的轉(zhuǎn)換操作組成?! ??! ∠啾仍贓TL引擎中進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加工,直接在SQL語句中進(jìn)行轉(zhuǎn)換和加工更加簡(jiǎn)單清晰,性能更高。訂閱者需要?jiǎng)?chuàng)建一個(gè)訂閱者視圖來訪問經(jīng)發(fā)布者授權(quán)可以訪問的變化數(shù)據(jù)。當(dāng)表中沒有主鍵或唯一列且含有重復(fù)記錄時(shí),MD5方式的準(zhǔn)確性較差。增量抽取較全量抽取應(yīng)用更廣。ETL是實(shí)現(xiàn)數(shù)據(jù)集成的主要技術(shù)。 補(bǔ)全后才寫入數(shù)據(jù)倉庫?! ∵@一類數(shù)據(jù)源一般情況下也可以通過ODBC的方式建立數(shù)據(jù)庫鏈接,如SQL Server和Oracle之間。發(fā)送警告的方式多種,一般常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯(cuò)的信息,方便管理員排查錯(cuò)誤。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過濾掉,對(duì)于每個(gè)過濾規(guī)則認(rèn)真進(jìn)行驗(yàn)證,并要用戶確認(rèn)。 二、數(shù)據(jù)的清洗轉(zhuǎn)換  一般情況下,數(shù)據(jù)倉庫分為ODS、DW兩部分。SQL的方法優(yōu)點(diǎn)是靈活,提高ETL運(yùn)行效率,但是編碼復(fù)雜,對(duì)技術(shù)要求比較高。ETL即數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程,它是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié)。第三種是綜合了前面二種的優(yōu)點(diǎn),會(huì)極大地提高ETL的開發(fā)速度和效率。通常的做法是從業(yè)務(wù)系統(tǒng)到ODS做清洗,將臟數(shù)據(jù)和不完整數(shù)據(jù)過濾掉,在從ODS到DW的過程中轉(zhuǎn)換,進(jìn)行一些業(yè)務(wù)規(guī)則的計(jì)算和聚合?! ?shù)據(jù)轉(zhuǎn)換  數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換,以及一些商務(wù)規(guī)則的計(jì)算?! TL是BI項(xiàng)目的關(guān)鍵部分,也是一個(gè)長(zhǎng)期的過程,只有不斷的發(fā)現(xiàn)問題并解決問題,才能使ETL運(yùn)行效率更高,為BI項(xiàng)目后期開發(fā)提供準(zhǔn)確的數(shù)據(jù)。如果不能建立數(shù)據(jù)庫鏈接,可以有兩種方式完成,然后再將這些源系統(tǒng)文件導(dǎo)入到ODS中。   C、商務(wù)規(guī)則的計(jì)算,不同的企業(yè)有不同的業(yè)務(wù)規(guī)則,不同的數(shù)據(jù)指標(biāo),這些指標(biāo)有的時(shí)候不是簡(jiǎn)單的加加減減就能完成,這個(gè)時(shí)候需要在ETL中將這些數(shù)據(jù)指標(biāo)計(jì)算好了之后存儲(chǔ)在數(shù)據(jù)倉庫中,供分析使用?! TL中三個(gè)字母分別代表的是Extract、Transform、Load,即抽取、轉(zhuǎn)換、加載。如何捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵?! 。和ㄟ^分析數(shù)據(jù)庫自身的日志來判斷變化的數(shù)據(jù)。CDC分為同步模式和異步模式,同步模式實(shí)時(shí)的捕獲變化數(shù)據(jù)并存儲(chǔ)到變化表中,發(fā)布者與訂閱都位于同一數(shù)據(jù)庫中。對(duì)于SQL語句無法處理的可以交由ETL引擎處理?! ?、版本管理功能。數(shù)據(jù)流的起點(diǎn)通常是數(shù)據(jù)源(源表)。因此,在實(shí)際項(xiàng)目中,我們將綜合運(yùn)用星型架構(gòu)與雪花型架構(gòu)來設(shè)計(jì)數(shù)據(jù)倉庫??紤]到量度的聚合程度不同,我們將采用“最小粒度原則”,即將量度的粒度設(shè)置到最小。更重要的是,在聚合時(shí),數(shù)值型字段的匹配和比較,JOIN效率高,便于聚合。那么,我們將使用存儲(chǔ)過程或程序生成新的維度屬性,在后續(xù)的數(shù)據(jù)中將基于新的屬性進(jìn)行查看?! 『?jiǎn)而言之,通過ETL,我們可以基于源系統(tǒng)中的數(shù)據(jù)來生成數(shù)據(jù)倉庫。  調(diào)度是數(shù)據(jù)倉庫的關(guān)鍵環(huán)節(jié),要考慮縝密。比如希望按天進(jìn)行查看,那么我們最好按天進(jìn)行抽取,如果數(shù)據(jù)量不大,可以按照月或半年對(duì)數(shù)據(jù)進(jìn)行更新。(圖七:)  那么,在這一轉(zhuǎn)換過程中,我們就完成了對(duì)數(shù)據(jù)格式的更正、對(duì)數(shù)據(jù)字段的合并、以及新增指標(biāo)的計(jì)算三項(xiàng)操作?! 【徛兓S度第三種類型:  新增數(shù)據(jù)維度成員改變了屬性。(圖五:)   另外,值得一提的是,我們?cè)诮⒕S度表時(shí)要充分使用代理鍵?! ×慷仁且y(tǒng)計(jì)的指標(biāo),必須事先選擇恰當(dāng),基于不同的量度可以進(jìn)行復(fù)雜關(guān)鍵性能指標(biāo)(KPI)等的設(shè)計(jì)和計(jì)算。  從OLAP系統(tǒng)的分析需求和ETL的處理效率兩方面來考慮:星型結(jié)構(gòu)聚合快,分析效率高。數(shù)據(jù)流也稱為流水線,主要解決數(shù)據(jù)轉(zhuǎn)換的問題?! DI的主要功能特點(diǎn)有:  。 else REMARK end as CONTENT from TB_REMARK where ID 100。一個(gè)訂閱者可能不會(huì)對(duì)發(fā)布者發(fā)布的所有數(shù)據(jù)都感興趣。MD5方式的優(yōu)點(diǎn)是對(duì)源系統(tǒng)的傾入性較小(僅需要建立一個(gè)MD5臨時(shí)表),但缺點(diǎn)也是顯而易見的,與觸發(fā)器和時(shí)間戳方式中的主動(dòng)通知不同,MD5方式是被動(dòng)的進(jìn)行全表數(shù)據(jù)的比對(duì),性能較差。在ETL使用過程中。因此,如何對(duì)數(shù)據(jù)進(jìn)行有效的集成管理已成為增強(qiáng)企業(yè)商業(yè)競(jìng)爭(zhēng)力的必然選擇。   B、數(shù)據(jù)粒度的轉(zhuǎn)換,業(yè)務(wù)系統(tǒng)一般存儲(chǔ)非常明細(xì)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是用來分析的,不需要非常明細(xì)的數(shù)據(jù),一般情況下,會(huì)將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉庫粒度進(jìn)行聚合。需要將這一類數(shù)據(jù)過濾出來,按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交,要求在規(guī)定的時(shí)間內(nèi)補(bǔ)全?! ∨cDW數(shù)據(jù)庫系統(tǒng)不同的數(shù)據(jù)源的處理方法?! 【姘l(fā)送  如果ETL出錯(cuò)了,不僅要形成ETL出錯(cuò)日志,而且要向系統(tǒng)管理員發(fā)送警告。對(duì)于是否過濾,是否修正一般要求客戶確認(rèn),對(duì)于過濾掉的數(shù)據(jù),寫入Excel文件或者將過濾數(shù)據(jù)寫入數(shù)據(jù)表,在ETL開發(fā)的初期可以每天向業(yè)務(wù)單位發(fā)送過濾數(shù)據(jù)的郵件,促使他們盡快地修正錯(cuò)誤,同時(shí)也可以做為將來驗(yàn)證數(shù)據(jù)的依據(jù)。前兩種方法各有各的優(yōu)缺點(diǎn),借助工具可以快速的建立起ETL工程,屏蔽了復(fù)雜的編碼任務(wù),提高了速度,降低了難度,但是缺少靈活性。   一、數(shù)據(jù)的抽取  這一部分需要在調(diào)研階段做大量的工作,首先要搞清楚數(shù)據(jù)是從幾個(gè)業(yè)務(wù)系統(tǒng)中來,各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫服務(wù)器運(yùn)行什么DBMS,是否存在手工數(shù)據(jù),手工數(shù)據(jù)量有多大,是否存在非結(jié)構(gòu)化的數(shù)據(jù)等等,當(dāng)收集完這些信息之后才可以進(jìn)行數(shù)據(jù)抽取的設(shè)計(jì)?! ?1)不一致數(shù)據(jù)轉(zhuǎn)換:這個(gè)過程是一個(gè)整合的過程,將不同業(yè)務(wù)系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個(gè)供應(yīng)商在結(jié)算系統(tǒng)的編碼是XX0001,而在CRM中編碼是YY0001,這樣在抽取過來之后統(tǒng)一轉(zhuǎn)換成一個(gè)編碼。數(shù)據(jù)抽取、清洗與轉(zhuǎn)換 BI項(xiàng)目中ETL設(shè)計(jì)作者: 葉江,  出處:ITPub, 責(zé)任編輯: 葉江,  20070514 13:39  ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析的依據(jù)  ETL是BI項(xiàng)目最重要的一個(gè)環(huán)節(jié),通常情況下ETL會(huì)花掉整個(gè)項(xiàng)目的1/3的時(shí)間,ETL設(shè)計(jì)的好壞直接關(guān)接到BI項(xiàng)目的成敗。另外一種方法通過程序接口來完成。   B、錯(cuò)誤的數(shù)據(jù),產(chǎn)生原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)庫造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個(gè)回車、日期格式不正確、日期越界等?! TL日志與警告發(fā)送  ETL日志,記錄日志的目的是隨時(shí)可以知道ETL運(yùn)行情況,如果出錯(cuò)了,出錯(cuò)在那里。(1)數(shù)據(jù)抽?。簭脑磾?shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù)。對(duì)捕獲方法一般有兩點(diǎn)要求:準(zhǔn)確性,能夠?qū)I(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù)按一定的頻率準(zhǔn)確地捕獲到。Oracle的改變數(shù)據(jù)捕獲(CDC,Changed Data Capture)技術(shù)是這方面的代表。異步模式則是基于Oracle的流復(fù)制技術(shù)。    數(shù)據(jù)裝載  將轉(zhuǎn)換和加工后的數(shù)據(jù)裝載到目的庫中通常是ETL過程
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1