freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項(xiàng)目中etl設(shè)計(jì)與思考-全文預(yù)覽

  

【正文】 管理功能。ODI和Oracle原來(lái)的ETL工具OWB相比有一些顯著的特點(diǎn),比如和OWB一樣是ELT架構(gòu),但是比OWB支持更多的異構(gòu)的數(shù)據(jù)源,ODI提供了call web service的機(jī)制,并且ODI的接口也可以暴露為web service,從而可以和SOA環(huán)境進(jìn)行交互。    ETL工具從廠商來(lái)看分為兩種,一種是數(shù)據(jù)庫(kù)廠商自帶的ETL工具,如Oracle warehouse builder、Oracle Data Integrator?! ?2)采用批量裝載方法,如bcp、bulk、關(guān)系數(shù)據(jù)庫(kù)特有的批量裝載工具或api。對(duì)于SQL語(yǔ)句無(wú)法處理的可以交由ETL引擎處理。select ID as USERID, substr(TITLE, 1, 20) as TITLE, case when REMARK is null then 39。這些組件如同一條流水線上的一道道工序,它們是可插拔的,且可以任意組裝,各組件之間通過(guò)數(shù)據(jù)總線共享數(shù)據(jù)。   數(shù)據(jù)轉(zhuǎn)換和加工  從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足目的庫(kù)的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)不完整等等,因此有必要對(duì)抽取出的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加工。CDC分為同步模式和異步模式,同步模式實(shí)時(shí)的捕獲變化數(shù)據(jù)并存儲(chǔ)到變化表中,發(fā)布者與訂閱都位于同一數(shù)據(jù)庫(kù)中。它還使訂閱者能夠控制對(duì)變化數(shù)據(jù)的訪問(wèn)。訂閱者使用從發(fā)布者那里獲得的變化數(shù)據(jù)。利用CDC,在對(duì)源表進(jìn)行insert、update或 delete等操作的同時(shí)就可以提取數(shù)據(jù),并且變化的數(shù)據(jù)被保存在數(shù)據(jù)庫(kù)的變化表中?! 。和ㄟ^(guò)分析數(shù)據(jù)庫(kù)自身的日志來(lái)判斷變化的數(shù)據(jù)。ETL工具事先為要抽取的表建立一個(gè)結(jié)構(gòu)類(lèi)似的MD5臨時(shí)表,該臨時(shí)表記錄源表主鍵以及根據(jù)所有字段的數(shù)據(jù)計(jì)算出來(lái)的MD5校驗(yàn)碼。有的數(shù)據(jù)庫(kù)不支持時(shí)間戳的自動(dòng)更新,這就要求業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時(shí),手工更新時(shí)間戳字段。觸發(fā)器方式的優(yōu)點(diǎn)是數(shù)據(jù)抽取的性能較高,缺點(diǎn)是要求業(yè)務(wù)表建立觸發(fā)器,對(duì)業(yè)務(wù)系統(tǒng)有一定的影響。如何捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵。全量抽取比較簡(jiǎn)單?! ?數(shù)據(jù)抽取  數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過(guò)程?! TL原本是作為構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)環(huán)節(jié),負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)?! TL中三個(gè)字母分別代表的是Extract、Transform、Load,即抽取、轉(zhuǎn)換、加載。數(shù)據(jù)集成是企業(yè)應(yīng)用集成的重要環(huán)節(jié),企業(yè)實(shí)現(xiàn)數(shù)據(jù)集成,可以使更多的人更充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用。面向數(shù)據(jù)集成的ETL技術(shù)研究開(kāi)發(fā)者在線 更新時(shí)間:20080916作者: 來(lái)源:IT專(zhuān)家網(wǎng)本文關(guān)鍵詞: ETL IT技術(shù) 數(shù)據(jù)庫(kù)  隨著企業(yè)信息化建設(shè)的發(fā)展,巨大的投資為企業(yè)建立了眾多的信息系統(tǒng),以幫助企業(yè)進(jìn)行內(nèi)外部業(yè)務(wù)的處理和管理工作。第二類(lèi)是錯(cuò)誤日志,當(dāng)某個(gè)模塊出錯(cuò)的時(shí)候需要寫(xiě)錯(cuò)誤日志,記錄每次出錯(cuò)的時(shí)間,出錯(cuò)的模塊以及出錯(cuò)的信息等。   C、商務(wù)規(guī)則的計(jì)算,不同的企業(yè)有不同的業(yè)務(wù)規(guī)則,不同的數(shù)據(jù)指標(biāo),這些指標(biāo)有的時(shí)候不是簡(jiǎn)單的加加減減就能完成,這個(gè)時(shí)候需要在ETL中將這些數(shù)據(jù)指標(biāo)計(jì)算好了之后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供分析使用。   A、不一致數(shù)據(jù)轉(zhuǎn)換,這個(gè)過(guò)程是一個(gè)整合的過(guò)程,將不同業(yè)務(wù)系統(tǒng)的相同類(lèi)型的數(shù)據(jù)統(tǒng)一,比如同一個(gè)供應(yīng)商在結(jié)算系統(tǒng)的編碼是XX0001,而在CRM中編碼是YY0001,這樣在抽取過(guò)來(lái)之后統(tǒng)一轉(zhuǎn)換成一個(gè)編碼。對(duì)于過(guò)濾掉的數(shù)據(jù),寫(xiě)入Excel文件或者將過(guò)濾數(shù)據(jù)寫(xiě)入數(shù)據(jù)表,在ETL開(kāi)發(fā)的初期可以每天向業(yè)務(wù)單位發(fā)送過(guò)濾數(shù)據(jù)的郵件,促使他們盡快的修正錯(cuò)誤,同時(shí)也可以作為將來(lái)驗(yàn)證數(shù)據(jù)的依據(jù)。 共2頁(yè)?! ≡隽扛聠?wèn)題  對(duì)于數(shù)據(jù)量大的系統(tǒng),必須考慮增量抽取。如果不能建立數(shù)據(jù)庫(kù)鏈接,可以有兩種方式完成,然后再將這些源系統(tǒng)文件導(dǎo)入到ODS中?! ?shù)據(jù)的抽取  數(shù)據(jù)的抽取需要在調(diào)研階段做大量工作,首先要搞清楚以下幾個(gè)問(wèn)題:數(shù)據(jù)是從幾個(gè)業(yè)務(wù)系統(tǒng)中來(lái)?各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)服務(wù)器運(yùn)行什么DBMS?是否存在手工數(shù)據(jù),手工數(shù)據(jù)量有多大?是否存在非結(jié)構(gòu)化的數(shù)據(jù)?等等類(lèi)似問(wèn)題,當(dāng)收集完這些信息之后才可以進(jìn)行數(shù)據(jù)抽取的設(shè)計(jì)?! TL的實(shí)現(xiàn)有多種方法,常用的有三種,第一種是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服務(wù)、informatic等實(shí)現(xiàn),第二種是SQL方式實(shí)現(xiàn),第三種是ETL工具和SQL相結(jié)合。在設(shè)計(jì)ETL的時(shí)候也是從這三部分出發(fā)?! TL是BI項(xiàng)目的關(guān)鍵部分,也是一個(gè)長(zhǎng)期的過(guò)程,只有不斷的發(fā)現(xiàn)問(wèn)題并解決問(wèn)題,才能使ETL運(yùn)行效率更高,為BI項(xiàng)目后期開(kāi)發(fā)提供準(zhǔn)確的數(shù)據(jù)。如果使用ETL工具,ETL工具會(huì)自動(dòng)產(chǎn)生一些日志,這一類(lèi)日志也可以作為ETL日志的一部分。 三、ETL日志、警告發(fā)送  ETL日志  ETL日志分為三類(lèi)。  (3)商務(wù)規(guī)則的計(jì)算:不同的企業(yè)有不同的業(yè)務(wù)規(guī)則、不同的數(shù)據(jù)指標(biāo),這些指標(biāo)有的時(shí)候不是簡(jiǎn)單的加加減減就能完成,這個(gè)時(shí)候需要在ETL中將這些數(shù)據(jù)指標(biāo)計(jì)算好了之后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,以供分析使用。  數(shù)據(jù)轉(zhuǎn)換  數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換,以及一些商務(wù)規(guī)則的計(jì)算?! ?3)重復(fù)的數(shù)據(jù):對(duì)于這一類(lèi)數(shù)據(jù)——特別是維表中會(huì)出現(xiàn)這種情況——將重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來(lái),讓客戶確認(rèn)并整理。補(bǔ)全后才寫(xiě)入數(shù)據(jù)倉(cāng)庫(kù)。 數(shù)據(jù)清洗  數(shù)據(jù)清洗的任務(wù)是過(guò)濾那些不符合要求的數(shù)據(jù),將過(guò)濾的結(jié)果交給業(yè)務(wù)主管部門(mén),確認(rèn)是否過(guò)濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。通常的做法是從業(yè)務(wù)系統(tǒng)到ODS做清洗,將臟數(shù)據(jù)和不完整數(shù)據(jù)過(guò)濾掉,在從ODS到DW的過(guò)程中轉(zhuǎn)換,進(jìn)行一些業(yè)務(wù)規(guī)則的計(jì)算和聚合。或者還可以借助工具實(shí)現(xiàn),如SQLServer2005的SSIS服務(wù)的平面數(shù)據(jù)源和平面目標(biāo)等組件導(dǎo)入ODS中去?! ?duì)于與DW數(shù)據(jù)庫(kù)系統(tǒng)不同的數(shù)據(jù)源的處理方法  對(duì)于這一類(lèi)數(shù)據(jù)源,一般情況下也可以通過(guò)ODBC的方式建立數(shù)據(jù)庫(kù)鏈接——如SQLServer和Oracle之間。第三種是綜合了前面二種的優(yōu)點(diǎn),會(huì)極大地提高ETL的開(kāi)發(fā)速度和效率?! TL的實(shí)現(xiàn)有多種方法,常用的有三種。在設(shè)計(jì)ETL的時(shí)候我們也是從這三部分出發(fā)。 ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。ETL即數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過(guò)程,它是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié)?! TL的設(shè)計(jì)分三部分:數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載。數(shù)據(jù)的加載一般在數(shù)據(jù)清洗完了之后直接寫(xiě)入DW(DataWarehousing,數(shù)據(jù)倉(cāng)庫(kù))中去。SQL的方法優(yōu)點(diǎn)是靈活,提高ETL運(yùn)行效率,但是編碼復(fù)雜,對(duì)技術(shù)要求比較高。一般情況下,DBMS(SQLServer、Oracle)都會(huì)提供數(shù)據(jù)庫(kù)鏈接功能,在DW數(shù)據(jù)庫(kù)服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫(xiě)Select語(yǔ)句直接訪問(wèn)?! ?duì)于文件類(lèi)型數(shù)據(jù)源(.txt,.xls),可以培訓(xùn)業(yè)務(wù)人員利用數(shù)據(jù)庫(kù)工具將這些數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫(kù),然后從指定的數(shù)據(jù)庫(kù)中抽取。利用業(yè)務(wù)系統(tǒng)的時(shí)間戳,一般情況下,業(yè)務(wù)系統(tǒng)沒(méi)有或者部分有時(shí)間戳。 二、數(shù)據(jù)的清洗轉(zhuǎn)換  一般情況下,數(shù)據(jù)倉(cāng)庫(kù)分為ODS、DW兩部分。對(duì)于這一類(lèi)數(shù)據(jù)過(guò)濾出來(lái),按缺失的內(nèi)容分別寫(xiě)入不同Excel文件向客戶提交,要求在規(guī)定的時(shí)間內(nèi)補(bǔ)全。
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1