freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項(xiàng)目中etl設(shè)計(jì)與思考(更新版)

  

【正文】 留。更重要的是,在聚合時(shí),數(shù)值型字段的匹配和比較,JOIN效率高,便于聚合。基于不同的維度,我們可以看到各量度的匯總情況,也可以基于所有的維度進(jìn)行交叉分析??紤]到量度的聚合程度不同,我們將采用“最小粒度原則”,即將量度的粒度設(shè)置到最小。那么,“某年某月某一地區(qū)的啤酒銷(xiāo)售情況”這樣一個(gè)主題,就要求我們通過(guò)時(shí)間和地區(qū)兩個(gè)維度的組合,來(lái)考察銷(xiāo)售情況這個(gè)量度。因此,在實(shí)際項(xiàng)目中,我們將綜合運(yùn)用星型架構(gòu)與雪花型架構(gòu)來(lái)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)?! ?6)是否具有良好的集成性和開(kāi)放性。數(shù)據(jù)流的起點(diǎn)通常是數(shù)據(jù)源(源表)。SSIS提供了數(shù)據(jù)相關(guān)的控制流、數(shù)據(jù)流、日志、變量、event、連接管理等基礎(chǔ)設(shè)施?! ?、版本管理功能。    ETL工具從廠(chǎng)商來(lái)看分為兩種,一種是數(shù)據(jù)庫(kù)廠(chǎng)商自帶的ETL工具,如Oracle warehouse builder、Oracle Data Integrator。對(duì)于SQL語(yǔ)句無(wú)法處理的可以交由ETL引擎處理。這些組件如同一條流水線(xiàn)上的一道道工序,它們是可插拔的,且可以任意組裝,各組件之間通過(guò)數(shù)據(jù)總線(xiàn)共享數(shù)據(jù)。CDC分為同步模式和異步模式,同步模式實(shí)時(shí)的捕獲變化數(shù)據(jù)并存儲(chǔ)到變化表中,發(fā)布者與訂閱都位于同一數(shù)據(jù)庫(kù)中。訂閱者使用從發(fā)布者那里獲得的變化數(shù)據(jù)?! 。和ㄟ^(guò)分析數(shù)據(jù)庫(kù)自身的日志來(lái)判斷變化的數(shù)據(jù)。有的數(shù)據(jù)庫(kù)不支持時(shí)間戳的自動(dòng)更新,這就要求業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時(shí),手工更新時(shí)間戳字段。如何捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵?! ?數(shù)據(jù)抽取  數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過(guò)程。  ETL中三個(gè)字母分別代表的是Extract、Transform、Load,即抽取、轉(zhuǎn)換、加載。面向數(shù)據(jù)集成的ETL技術(shù)研究開(kāi)發(fā)者在線(xiàn) 更新時(shí)間:20080916作者: 來(lái)源:IT專(zhuān)家網(wǎng)本文關(guān)鍵詞: ETL IT技術(shù) 數(shù)據(jù)庫(kù)  隨著企業(yè)信息化建設(shè)的發(fā)展,巨大的投資為企業(yè)建立了眾多的信息系統(tǒng),以幫助企業(yè)進(jìn)行內(nèi)外部業(yè)務(wù)的處理和管理工作。   C、商務(wù)規(guī)則的計(jì)算,不同的企業(yè)有不同的業(yè)務(wù)規(guī)則,不同的數(shù)據(jù)指標(biāo),這些指標(biāo)有的時(shí)候不是簡(jiǎn)單的加加減減就能完成,這個(gè)時(shí)候需要在ETL中將這些數(shù)據(jù)指標(biāo)計(jì)算好了之后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供分析使用。對(duì)于過(guò)濾掉的數(shù)據(jù),寫(xiě)入Excel文件或者將過(guò)濾數(shù)據(jù)寫(xiě)入數(shù)據(jù)表,在ETL開(kāi)發(fā)的初期可以每天向業(yè)務(wù)單位發(fā)送過(guò)濾數(shù)據(jù)的郵件,促使他們盡快的修正錯(cuò)誤,同時(shí)也可以作為將來(lái)驗(yàn)證數(shù)據(jù)的依據(jù)。 共2頁(yè)。如果不能建立數(shù)據(jù)庫(kù)鏈接,可以有兩種方式完成,然后再將這些源系統(tǒng)文件導(dǎo)入到ODS中。  ETL的實(shí)現(xiàn)有多種方法,常用的有三種,第一種是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服務(wù)、informatic等實(shí)現(xiàn),第二種是SQL方式實(shí)現(xiàn),第三種是ETL工具和SQL相結(jié)合?! TL是BI項(xiàng)目的關(guān)鍵部分,也是一個(gè)長(zhǎng)期的過(guò)程,只有不斷的發(fā)現(xiàn)問(wèn)題并解決問(wèn)題,才能使ETL運(yùn)行效率更高,為BI項(xiàng)目后期開(kāi)發(fā)提供準(zhǔn)確的數(shù)據(jù)。 三、ETL日志、警告發(fā)送  ETL日志  ETL日志分為三類(lèi)?! ?shù)據(jù)轉(zhuǎn)換  數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換,以及一些商務(wù)規(guī)則的計(jì)算。補(bǔ)全后才寫(xiě)入數(shù)據(jù)倉(cāng)庫(kù)。通常的做法是從業(yè)務(wù)系統(tǒng)到ODS做清洗,將臟數(shù)據(jù)和不完整數(shù)據(jù)過(guò)濾掉,在從ODS到DW的過(guò)程中轉(zhuǎn)換,進(jìn)行一些業(yè)務(wù)規(guī)則的計(jì)算和聚合?;蛘哌€可以借助工具實(shí)現(xiàn),如SQLServer2005的SSIS服務(wù)的平面數(shù)據(jù)源和平面目標(biāo)等組件導(dǎo)入ODS中去。第三種是綜合了前面二種的優(yōu)點(diǎn),會(huì)極大地提高ETL的開(kāi)發(fā)速度和效率。在設(shè)計(jì)ETL的時(shí)候我們也是從這三部分出發(fā)。ETL即數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過(guò)程,它是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié)?! TL的設(shè)計(jì)分三部分:數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載。SQL的方法優(yōu)點(diǎn)是靈活,提高ETL運(yùn)行效率,但是編碼復(fù)雜,對(duì)技術(shù)要求比較高。  對(duì)于文件類(lèi)型數(shù)據(jù)源(.txt,.xls),可以培訓(xùn)業(yè)務(wù)人員利用數(shù)據(jù)庫(kù)工具將這些數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫(kù),然后從指定的數(shù)據(jù)庫(kù)中抽取。 二、數(shù)據(jù)的清洗轉(zhuǎn)換  一般情況下,數(shù)據(jù)倉(cāng)庫(kù)分為ODS、DW兩部分。對(duì)于這一類(lèi)數(shù)據(jù)過(guò)濾出來(lái),按缺失的內(nèi)容分別寫(xiě)入不同Excel文件向客戶(hù)提交,要求在規(guī)定的時(shí)間內(nèi)補(bǔ)全。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過(guò)濾掉,對(duì)于每個(gè)過(guò)濾規(guī)則認(rèn)真進(jìn)行驗(yàn)證,并要用戶(hù)確認(rèn)。發(fā)送警告的方式多種,一般常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯(cuò)的信息,方便管理員排查錯(cuò)誤。數(shù)據(jù)的加載一般在數(shù)據(jù)清洗完了之后直接寫(xiě)入DW中去?! ∵@一類(lèi)數(shù)據(jù)源一般情況下也可以通過(guò)ODBC的方式建立數(shù)據(jù)庫(kù)鏈接,如SQL Server和Oracle之間。  數(shù)據(jù)的清洗轉(zhuǎn)換  一般情況下,數(shù)據(jù)倉(cāng)庫(kù)分為ODS、DW兩部分,通常的做法是從業(yè)務(wù)系統(tǒng)到ODS做清洗,將臟數(shù)據(jù)和不完整數(shù)據(jù)過(guò)濾掉,再?gòu)腛DS到DW的過(guò)程中轉(zhuǎn)換,進(jìn)行一些業(yè)務(wù)規(guī)則的計(jì)算和聚合。補(bǔ)全后才寫(xiě)入數(shù)據(jù)倉(cāng)庫(kù)。對(duì)于是否過(guò)濾、是否修正一般要求客戶(hù)確認(rèn)。   警告發(fā)送  ETL出錯(cuò)了,不僅要寫(xiě)ETL出錯(cuò)日志而且要向系統(tǒng)管理員發(fā)送警告,發(fā)送警告的方式有多種,常用的就是給系統(tǒng)管理員發(fā)送郵件,并附上出錯(cuò)的信息,方便管理員排查錯(cuò)誤。ETL是實(shí)現(xiàn)數(shù)據(jù)集成的主要技術(shù)。為了實(shí)現(xiàn)這些功能,各個(gè)ETL工具一般會(huì)進(jìn)行一些功能上的擴(kuò)充,例如工作流、調(diào)度引擎、規(guī)則引擎、腳本支持、統(tǒng)計(jì)信息等。增量抽取較全量抽取應(yīng)用更廣。有的數(shù)據(jù)庫(kù)的時(shí)間戳支持自動(dòng)更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時(shí),自動(dòng)更新時(shí)間戳字段的值。當(dāng)表中沒(méi)有主鍵或唯一列且含有重復(fù)記錄時(shí),MD5方式的準(zhǔn)確性較差。發(fā)布者捕捉變化數(shù)據(jù)并提供給訂閱者。訂閱者需要?jiǎng)?chuàng)建一個(gè)訂閱者視圖來(lái)訪(fǎng)問(wèn)經(jīng)發(fā)布者授權(quán)可以訪(fǎng)問(wèn)的變化數(shù)據(jù)。常用的數(shù)據(jù)轉(zhuǎn)換組件有字段映射、數(shù)據(jù)過(guò)濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計(jì)算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等?! ∠啾仍贓TL引擎中進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加工,直接在SQL語(yǔ)句中進(jìn)行轉(zhuǎn)換和加工更加簡(jiǎn)單清晰,性能更高。使用哪種數(shù)據(jù)裝載方法取決于業(yè)務(wù)系統(tǒng)的需要?! ?。在SQL Server 2005中,對(duì)DTS進(jìn)行了重新設(shè)計(jì)和改進(jìn)形成了SSIS。數(shù)據(jù)流由一組預(yù)定義的轉(zhuǎn)換操作組成?! ?5)是否具有管理和調(diào)度功能。而雪花型結(jié)構(gòu)明確,便于與OLTP系統(tǒng)交互。我們將通過(guò)維度的組合,來(lái)考察量度。  (三)、確定事實(shí)數(shù)據(jù)粒度  在確定了量度之后,我們要考慮到該量度的匯總情況和不同維度下量度的聚合情況。例如我們希望按照時(shí)間,或者按照地區(qū),或者按照產(chǎn)品進(jìn)行分析,那么這里的時(shí)間、地區(qū)、產(chǎn)品就是相應(yīng)的維度。代理鍵是數(shù)值型的ID號(hào)碼(例如圖六中每張表的第一個(gè)字段),它唯一標(biāo)識(shí)了每一維度成員。例如:產(chǎn)品的ID號(hào)碼為123,后來(lái)發(fā)現(xiàn)ID號(hào)碼錯(cuò)了,需要改寫(xiě)成456,那么,我們就在ETL處理時(shí),直接修改維度表中原來(lái)的ID號(hào)碼為456。例如:某一維度成員新加入了一列,該列在歷史數(shù)據(jù)中不能基于它瀏覽,而在目前數(shù)據(jù)和將來(lái)數(shù)據(jù)中可以按照它瀏覽,那么此時(shí)我們需要改變維度表屬性,即加入新的字段列。事實(shí)數(shù)據(jù)表與維度表一起放于數(shù)據(jù)倉(cāng)庫(kù)中,如果前端需要連接數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行查詢(xún),我們還需要建立一些相關(guān)的中間匯總表或物化視圖,以方便查詢(xún)。類(lèi)似地,我們也可以根據(jù)其他需求,完善數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。在ETL中,時(shí)間戳有其特殊的作用,在上面提到的緩慢變化維度中,我們可以使用時(shí)間戳標(biāo)識(shí)維度成員。如果有緩慢變化維度情況,調(diào)度時(shí)需要考慮到維度表更新情況,在更新事實(shí)數(shù)據(jù)表之前要先更新維度表。在數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施中,它關(guān)系到整個(gè)項(xiàng)目的數(shù)據(jù)質(zhì)量,所以馬虎不得,必須將其擺到重要位置,將數(shù)據(jù)倉(cāng)庫(kù)這一大廈的根基筑牢。16
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1