freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

bi項目中etl設(shè)計與思考-全文預(yù)覽

2024-07-22 19:01 上一頁面

下一頁面
  

【正文】 管理功能。ODI和Oracle原來的ETL工具OWB相比有一些顯著的特點,比如和OWB一樣是ELT架構(gòu),但是比OWB支持更多的異構(gòu)的數(shù)據(jù)源,ODI提供了call web service的機制,并且ODI的接口也可以暴露為web service,從而可以和SOA環(huán)境進行交互?!   TL工具從廠商來看分為兩種,一種是數(shù)據(jù)庫廠商自帶的ETL工具,如Oracle warehouse builder、Oracle Data Integrator?! ?2)采用批量裝載方法,如bcp、bulk、關(guān)系數(shù)據(jù)庫特有的批量裝載工具或api。對于SQL語句無法處理的可以交由ETL引擎處理。select ID as USERID, substr(TITLE, 1, 20) as TITLE, case when REMARK is null then 39。這些組件如同一條流水線上的一道道工序,它們是可插拔的,且可以任意組裝,各組件之間通過數(shù)據(jù)總線共享數(shù)據(jù)?! ?數(shù)據(jù)轉(zhuǎn)換和加工  從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足目的庫的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等等,因此有必要對抽取出的數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換和加工。CDC分為同步模式和異步模式,同步模式實時的捕獲變化數(shù)據(jù)并存儲到變化表中,發(fā)布者與訂閱都位于同一數(shù)據(jù)庫中。它還使訂閱者能夠控制對變化數(shù)據(jù)的訪問。訂閱者使用從發(fā)布者那里獲得的變化數(shù)據(jù)。利用CDC,在對源表進行insert、update或 delete等操作的同時就可以提取數(shù)據(jù),并且變化的數(shù)據(jù)被保存在數(shù)據(jù)庫的變化表中?! 。和ㄟ^分析數(shù)據(jù)庫自身的日志來判斷變化的數(shù)據(jù)。ETL工具事先為要抽取的表建立一個結(jié)構(gòu)類似的MD5臨時表,該臨時表記錄源表主鍵以及根據(jù)所有字段的數(shù)據(jù)計算出來的MD5校驗碼。有的數(shù)據(jù)庫不支持時間戳的自動更新,這就要求業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時,手工更新時間戳字段。觸發(fā)器方式的優(yōu)點是數(shù)據(jù)抽取的性能較高,缺點是要求業(yè)務(wù)表建立觸發(fā)器,對業(yè)務(wù)系統(tǒng)有一定的影響。如何捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵。全量抽取比較簡單?! ?數(shù)據(jù)抽取  數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過程?! TL原本是作為構(gòu)建數(shù)據(jù)倉庫的一個環(huán)節(jié),負責將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)?! TL中三個字母分別代表的是Extract、Transform、Load,即抽取、轉(zhuǎn)換、加載。數(shù)據(jù)集成是企業(yè)應(yīng)用集成的重要環(huán)節(jié),企業(yè)實現(xiàn)數(shù)據(jù)集成,可以使更多的人更充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動和相應(yīng)費用。面向數(shù)據(jù)集成的ETL技術(shù)研究開發(fā)者在線 更新時間:20080916作者: 來源:IT專家網(wǎng)本文關(guān)鍵詞: ETL IT技術(shù) 數(shù)據(jù)庫  隨著企業(yè)信息化建設(shè)的發(fā)展,巨大的投資為企業(yè)建立了眾多的信息系統(tǒng),以幫助企業(yè)進行內(nèi)外部業(yè)務(wù)的處理和管理工作。第二類是錯誤日志,當某個模塊出錯的時候需要寫錯誤日志,記錄每次出錯的時間,出錯的模塊以及出錯的信息等。   C、商務(wù)規(guī)則的計算,不同的企業(yè)有不同的業(yè)務(wù)規(guī)則,不同的數(shù)據(jù)指標,這些指標有的時候不是簡單的加加減減就能完成,這個時候需要在ETL中將這些數(shù)據(jù)指標計算好了之后存儲在數(shù)據(jù)倉庫中,供分析使用。   A、不一致數(shù)據(jù)轉(zhuǎn)換,這個過程是一個整合的過程,將不同業(yè)務(wù)系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個供應(yīng)商在結(jié)算系統(tǒng)的編碼是XX0001,而在CRM中編碼是YY0001,這樣在抽取過來之后統(tǒng)一轉(zhuǎn)換成一個編碼。對于過濾掉的數(shù)據(jù),寫入Excel文件或者將過濾數(shù)據(jù)寫入數(shù)據(jù)表,在ETL開發(fā)的初期可以每天向業(yè)務(wù)單位發(fā)送過濾數(shù)據(jù)的郵件,促使他們盡快的修正錯誤,同時也可以作為將來驗證數(shù)據(jù)的依據(jù)。 共2頁。  增量更新問題  對于數(shù)據(jù)量大的系統(tǒng),必須考慮增量抽取。如果不能建立數(shù)據(jù)庫鏈接,可以有兩種方式完成,然后再將這些源系統(tǒng)文件導(dǎo)入到ODS中?! ?shù)據(jù)的抽取  數(shù)據(jù)的抽取需要在調(diào)研階段做大量工作,首先要搞清楚以下幾個問題:數(shù)據(jù)是從幾個業(yè)務(wù)系統(tǒng)中來?各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫服務(wù)器運行什么DBMS?是否存在手工數(shù)據(jù),手工數(shù)據(jù)量有多大?是否存在非結(jié)構(gòu)化的數(shù)據(jù)?等等類似問題,當收集完這些信息之后才可以進行數(shù)據(jù)抽取的設(shè)計?! TL的實現(xiàn)有多種方法,常用的有三種,第一種是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服務(wù)、informatic等實現(xiàn),第二種是SQL方式實現(xiàn),第三種是ETL工具和SQL相結(jié)合。在設(shè)計ETL的時候也是從這三部分出發(fā)。  ETL是BI項目的關(guān)鍵部分,也是一個長期的過程,只有不斷的發(fā)現(xiàn)問題并解決問題,才能使ETL運行效率更高,為BI項目后期開發(fā)提供準確的數(shù)據(jù)。如果使用ETL工具,ETL工具會自動產(chǎn)生一些日志,這一類日志也可以作為ETL日志的一部分。 三、ETL日志、警告發(fā)送  ETL日志  ETL日志分為三類?! ?3)商務(wù)規(guī)則的計算:不同的企業(yè)有不同的業(yè)務(wù)規(guī)則、不同的數(shù)據(jù)指標,這些指標有的時候不是簡單的加加減減就能完成,這個時候需要在ETL中將這些數(shù)據(jù)指標計算好了之后存儲在數(shù)據(jù)倉庫中,以供分析使用?! ?shù)據(jù)轉(zhuǎn)換  數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要進行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換,以及一些商務(wù)規(guī)則的計算。  (3)重復(fù)的數(shù)據(jù):對于這一類數(shù)據(jù)——特別是維表中會出現(xiàn)這種情況——將重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來,讓客戶確認并整理。補全后才寫入數(shù)據(jù)倉庫。 數(shù)據(jù)清洗  數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認是否過濾掉還是由業(yè)務(wù)單位修正之后再進行抽取。通常的做法是從業(yè)務(wù)系統(tǒng)到ODS做清洗,將臟數(shù)據(jù)和不完整數(shù)據(jù)過濾掉,在從ODS到DW的過程中轉(zhuǎn)換,進行一些業(yè)務(wù)規(guī)則的計算和聚合?;蛘哌€可以借助工具實現(xiàn),如SQLServer2005的SSIS服務(wù)的平面數(shù)據(jù)源和平面目標等組件導(dǎo)入ODS中去。  對于與DW數(shù)據(jù)庫系統(tǒng)不同的數(shù)據(jù)源的處理方法  對于這一類數(shù)據(jù)源,一般情況下也可以通過ODBC的方式建立數(shù)據(jù)庫鏈接——如SQLServer和Oracle之間。第三種是綜合了前面二種的優(yōu)點,會極大地提高ETL的開發(fā)速度和效率?! TL的實現(xiàn)有多種方法,常用的有三種。在設(shè)計ETL的時候我們也是從這三部分出發(fā)。 ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。ETL即數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程,它是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié)?! TL的設(shè)計分三部分:數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載。數(shù)據(jù)的加載一般在數(shù)據(jù)清洗完了之后直接寫入DW(DataWarehousing,數(shù)據(jù)倉庫)中去。SQL的方法優(yōu)點是靈活,提高ETL運行效率,但是編碼復(fù)雜,對技術(shù)要求比較高。一般情況下,DBMS(SQLServer、Oracle)都會提供數(shù)據(jù)庫鏈接功能,在DW數(shù)據(jù)庫服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫Select語句直接訪問?! τ谖募愋蛿?shù)據(jù)源(.txt,.xls),可以培訓(xùn)業(yè)務(wù)人員利用數(shù)據(jù)庫工具將這些數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫,然后從指定的數(shù)據(jù)庫中抽取。利用業(yè)務(wù)系統(tǒng)的時間戳,一般情況下,業(yè)務(wù)系統(tǒng)沒有或者部分有時間戳。 二、數(shù)據(jù)的清洗轉(zhuǎn)換  一般情況下,數(shù)據(jù)倉庫分為ODS、DW兩部分。對于這一類數(shù)據(jù)過濾出來,按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交,要求在規(guī)定的時間內(nèi)補全。
點擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1