freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項(xiàng)目中etl設(shè)計(jì)與思考-免費(fèi)閱讀

  

【正文】   五、總結(jié)  構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)需要簡(jiǎn)單的五步,掌握了這五步的方法,我們可以構(gòu)建一個(gè)強(qiáng)大的數(shù)據(jù)倉(cāng)庫(kù)。這樣,當(dāng)數(shù)據(jù)發(fā)生錯(cuò)誤時(shí),我們很容易發(fā)現(xiàn)問(wèn)題所在,然后對(duì)出錯(cuò)的數(shù)據(jù)進(jìn)行修正或重新處理。先將數(shù)據(jù)抽取到準(zhǔn)備區(qū)中,然后基于準(zhǔn)備區(qū)中的數(shù)據(jù)進(jìn)行處理,這樣處理的好處是防止了在原OLTP系統(tǒng)中頻繁訪問(wèn),進(jìn)行數(shù)據(jù)運(yùn)算或排序等操作。所以ETL在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目中起著十分關(guān)鍵的作用,必須擺到十分重要的位置?! ∥覀兊淖龇ㄊ菍⒃急砼c維度表進(jìn)行關(guān)聯(lián),生成事實(shí)表(圖六:)。那么在統(tǒng)計(jì)2005年的數(shù)據(jù)時(shí)就應(yīng)該將該員工定位到A部門(mén)。  比如我們?cè)黾恿诵碌漠a(chǎn)品,或者產(chǎn)品的ID號(hào)碼修改了,或者產(chǎn)品增加了一個(gè)新的屬性,此時(shí),維度表就會(huì)被修改或者增加新的記錄行。同理,當(dāng)我們建立產(chǎn)品維度時(shí),我們可以將“產(chǎn)品大類(lèi)產(chǎn)品子類(lèi)產(chǎn)品”劃為一個(gè)層次,其中包含“產(chǎn)品大類(lèi)”、“產(chǎn)品子類(lèi)”、“產(chǎn)品”三個(gè)級(jí)別。反過(guò)來(lái),如果我們不能確認(rèn)將來(lái)的分析需求在時(shí)間上是否需要精確到秒,那么,我們就需要遵循“最小粒度原則”,在數(shù)據(jù)倉(cāng)庫(kù)的事實(shí)表中保留每一秒的數(shù)據(jù),以便日后對(duì)“秒”進(jìn)行分析?! ?二)、確定量度  在確定了主題以后,我們將考慮要分析的技術(shù)指標(biāo),諸如年銷(xiāo)售額之類(lèi)。例如:我們希望分析某年某月某一地區(qū)的啤酒銷(xiāo)售情況,這就是一個(gè)主題?! ?shù)據(jù)倉(cāng)庫(kù)的架構(gòu)模型包括了星型架構(gòu)(圖二:)與雪花型架構(gòu)(圖三:)兩種模式?! ?SSIS體系結(jié)構(gòu)圖    在數(shù)據(jù)集成中該如何選擇ETL工具呢?一般來(lái)說(shuō)需要考慮以下幾個(gè)方面:  (1)對(duì)平臺(tái)的支持程度。在任務(wù)流中可能有分支?! ?Service。  (1)Oracle Data Integrator(ODI)  ODI前身是Sunopsis Active Integration Platform,在2006年底被Oracle收購(gòu),重新命名為Oracle Data Integrator,主要定位于在ETL和數(shù)據(jù)集成的場(chǎng)景里使用。當(dāng)目的庫(kù)是關(guān)系數(shù)據(jù)庫(kù)時(shí),一般來(lái)說(shuō)有兩種裝載方式:  (1)直接SQL語(yǔ)句進(jìn)行insert、update、delete操作。下面是一個(gè)SQL查詢(xún)的例子。對(duì)文件數(shù)據(jù)的抽取一般是進(jìn)行全量抽取,一次抽取前可保存文件的時(shí)間戳或計(jì)算文件的MD5校驗(yàn)碼,下次抽取時(shí)進(jìn)行比對(duì),如果相同則可忽略本次抽取。然后,它捕捉變化的數(shù)據(jù)并將其保存在特別創(chuàng)建的變化表中。CDC能夠幫助你識(shí)別從上次抽取之后發(fā)生變化的數(shù)據(jù)?! 。旱湫偷娜肀葘?duì)的方式是采用MD5校驗(yàn)碼。目前增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法有:?。涸谝槿〉谋砩辖⑿枰挠|發(fā)器,一般要建立插入、修改、刪除三個(gè)觸發(fā)器,每當(dāng)源表中的數(shù)據(jù)發(fā)生變化,就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫(xiě)入一個(gè)臨時(shí)表,抽取線程從臨時(shí)表中抽取數(shù)據(jù),臨時(shí)表中抽取過(guò)的數(shù)據(jù)被標(biāo)記或刪除?! ?1)全量抽取  全量抽取類(lèi)似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動(dòng)的從數(shù)據(jù)庫(kù)中抽取出來(lái),并轉(zhuǎn)換成自己的ETL工具可以識(shí)別的格式。(3)數(shù)據(jù)加載:將轉(zhuǎn)換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源。EAI通過(guò)建立底層數(shù)據(jù)交換平臺(tái)來(lái)聯(lián)系橫貫整個(gè)企業(yè)的異構(gòu)系統(tǒng)、應(yīng)用、數(shù)據(jù)源等,完成在企業(yè)內(nèi)部的ERP、CRM、SCM、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),以及其它重要的內(nèi)部系統(tǒng)之間無(wú)縫地共享和交換數(shù)據(jù)的需要。第一類(lèi)是執(zhí)行過(guò)程日志,是在ETL執(zhí)行過(guò)程中每執(zhí)行一步的記錄,記錄每次運(yùn)行每一步驟的起始時(shí)間,影響了多少行數(shù)據(jù),流水賬形式。日期格式不正確的或者是日期越界的這一類(lèi)錯(cuò)誤會(huì)導(dǎo)致ETL運(yùn)行失敗,這一類(lèi)錯(cuò)誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)用SQL的方式挑出來(lái),交給業(yè)務(wù)主管部門(mén)要求限期修正,修正之后再抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)三大類(lèi)。或者可以借助工具實(shí)現(xiàn),如SQL SERVER 2005 的SSIS服務(wù)的平面數(shù)據(jù)源和平面目標(biāo)等組件導(dǎo)入ODS中去。第三種是綜合了前面二種的優(yōu)點(diǎn),極大的提高ETL的開(kāi)發(fā)速度和效率?! TL的設(shè)計(jì)分三部分:數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載。第三類(lèi)日志是總體日志,只記錄ETL開(kāi)始時(shí)間、結(jié)束時(shí)間是否成功信息。一般情況下,會(huì)將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)粒度進(jìn)行聚合。日期格式不正確的或者是日期越界的這一類(lèi)錯(cuò)誤會(huì)導(dǎo)致ETL運(yùn)行失敗,這一類(lèi)錯(cuò)誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)用SQL的方式挑出來(lái),交給業(yè)務(wù)主管部門(mén)要求限期修正,修正之后再抽取。利用業(yè)務(wù)系統(tǒng)的時(shí)間戳,一般情況下,業(yè)務(wù)系統(tǒng)沒(méi)有或者部分有時(shí)間戳。一般情況下,DBMS(SQLServer、Oracle)都會(huì)提供數(shù)據(jù)庫(kù)鏈接功能,在DW數(shù)據(jù)庫(kù)服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫(xiě)Select語(yǔ)句直接訪問(wèn)。數(shù)據(jù)的加載一般在數(shù)據(jù)清洗完了之后直接寫(xiě)入DW(DataWarehousing,數(shù)據(jù)倉(cāng)庫(kù))中去。 ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)?! TL的實(shí)現(xiàn)有多種方法,常用的有三種?! ?duì)于與DW數(shù)據(jù)庫(kù)系統(tǒng)不同的數(shù)據(jù)源的處理方法  對(duì)于這一類(lèi)數(shù)據(jù)源,一般情況下也可以通過(guò)ODBC的方式建立數(shù)據(jù)庫(kù)鏈接——如SQLServer和Oracle之間。 數(shù)據(jù)清洗  數(shù)據(jù)清洗的任務(wù)是過(guò)濾那些不符合要求的數(shù)據(jù),將過(guò)濾的結(jié)果交給業(yè)務(wù)主管部門(mén),確認(rèn)是否過(guò)濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取?! ?3)重復(fù)的數(shù)據(jù):對(duì)于這一類(lèi)數(shù)據(jù)——特別是維表中會(huì)出現(xiàn)這種情況——將重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來(lái),讓客戶(hù)確認(rèn)并整理?! ?3)商務(wù)規(guī)則的計(jì)算:不同的企業(yè)有不同的業(yè)務(wù)規(guī)則、不同的數(shù)據(jù)指標(biāo),這些指標(biāo)有的時(shí)候不是簡(jiǎn)單的加加減減就能完成,這個(gè)時(shí)候需要在ETL中將這些數(shù)據(jù)指標(biāo)計(jì)算好了之后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,以供分析使用。如果使用ETL工具,ETL工具會(huì)自動(dòng)產(chǎn)生一些日志,這一類(lèi)日志也可以作為ETL日志的一部分。在設(shè)計(jì)ETL的時(shí)候也是從這三部分出發(fā)。  數(shù)據(jù)的抽取  數(shù)據(jù)的抽取需要在調(diào)研階段做大量工作,首先要搞清楚以下幾個(gè)問(wèn)題:數(shù)據(jù)是從幾個(gè)業(yè)務(wù)系統(tǒng)中來(lái)?各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)服務(wù)器運(yùn)行什么DBMS?是否存在手工數(shù)據(jù),手工數(shù)據(jù)量有多大?是否存在非結(jié)構(gòu)化的數(shù)據(jù)?等等類(lèi)似問(wèn)題,當(dāng)收集完這些信息之后才可以進(jìn)行數(shù)據(jù)抽取的設(shè)計(jì)?! ≡隽扛聠?wèn)題  對(duì)于數(shù)據(jù)量大的系統(tǒng),必須考慮增量抽取。   A、不一致數(shù)據(jù)轉(zhuǎn)換,這個(gè)過(guò)程是一個(gè)整合的過(guò)程,將不同業(yè)務(wù)系統(tǒng)的相同類(lèi)型的數(shù)據(jù)統(tǒng)一,比如同一個(gè)供應(yīng)商在結(jié)算系統(tǒng)的編碼是XX0001,而在CRM中編碼是YY0001,這樣在抽取過(guò)來(lái)之后統(tǒng)一轉(zhuǎn)換成一個(gè)編碼。第二類(lèi)是錯(cuò)誤日志,當(dāng)某個(gè)模塊出錯(cuò)的時(shí)候需要寫(xiě)錯(cuò)誤日志,記錄每次出錯(cuò)的時(shí)間,出錯(cuò)的模塊以及出錯(cuò)的信息等。數(shù)據(jù)集成是企業(yè)應(yīng)用集成的重要環(huán)節(jié),企業(yè)實(shí)現(xiàn)數(shù)據(jù)集成,可以使更多的人更充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用。  ETL原本是作為構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)環(huán)節(jié),負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。全量抽取比較簡(jiǎn)單。觸發(fā)器方式的優(yōu)點(diǎn)是數(shù)據(jù)抽取的性能較高,缺點(diǎn)是要求業(yè)務(wù)表建立觸發(fā)器,對(duì)業(yè)務(wù)系統(tǒng)有一定的影響。ETL工具事先為要抽取的表建立一個(gè)結(jié)構(gòu)類(lèi)似的MD5臨時(shí)表,該臨時(shí)表記錄源表主鍵以及根據(jù)所有字段的數(shù)據(jù)計(jì)算出來(lái)的MD5校驗(yàn)碼。利用CDC,在對(duì)源表進(jìn)行insert、update或 delete等操作的同時(shí)就可以提取數(shù)據(jù),并且變化的數(shù)據(jù)被保存在數(shù)據(jù)庫(kù)的變化表中。它還使訂閱者能夠控制對(duì)變化數(shù)據(jù)的訪問(wèn)?! ?數(shù)據(jù)轉(zhuǎn)換和加工  從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿(mǎn)足目的庫(kù)的要求,例如數(shù)據(jù)格式的不一致、數(shù)
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1