freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)抽取解決方案docx(編輯修改稿)

2025-09-06 19:35 本頁面
 

【文章內(nèi)容簡介】 技術(shù)。2. 數(shù)據(jù)導(dǎo)入導(dǎo)出數(shù)據(jù)導(dǎo)入導(dǎo)出是利用EXP/IMP等技術(shù)實(shí)現(xiàn)的一種初始抽取加載方法。它相比于物化視圖完全刷新唯一的好處就是可以一次性導(dǎo)出和加載整個(gè)庫。但是在我們的業(yè)務(wù)場景中,這個(gè)優(yōu)點(diǎn)不太能用到。因?yàn)椴徽撌菑纳a(chǎn)系統(tǒng)數(shù)據(jù)層到集結(jié)區(qū),還是從集結(jié)區(qū)到數(shù)據(jù)倉庫這兩個(gè)初始抽取加載過程,我們的目標(biāo)表相比于源表都會(huì)在數(shù)據(jù)結(jié)構(gòu)上有一定的變化,而數(shù)據(jù)導(dǎo)入導(dǎo)出很難處理這種變化。3. 批量數(shù)據(jù)加載批量數(shù)據(jù)加載適用于源系統(tǒng)和目標(biāo)系統(tǒng)不能互聯(lián),或者雖然能互聯(lián)但因?yàn)楦鞣N原因(比如網(wǎng)絡(luò)有問題,訪問源系統(tǒng)很慢),不適宜使用物化視圖進(jìn)行完全刷新,只能通過批量加載外部文件的方式來實(shí)現(xiàn)數(shù)據(jù)初始抽取加載。當(dāng)然,在源系統(tǒng)和目標(biāo)系統(tǒng)能互聯(lián)的情況下也可以使用批量數(shù)據(jù)加載。這時(shí)用一個(gè)簡單的CTAS或者INSERT /* +APPEND*/ SELECT就能實(shí)現(xiàn)數(shù)據(jù)的初始化。相比于物化視圖完全刷新,這種方式能減少數(shù)據(jù)庫中的對象。但是,這個(gè)優(yōu)點(diǎn)不是質(zhì)的,在源系統(tǒng)和目標(biāo)系統(tǒng)能互聯(lián)的情況下,在項(xiàng)目中選用上述兩個(gè)技術(shù)中的哪個(gè)技術(shù)可以根據(jù)實(shí)際情況權(quán)宜進(jìn)行。 實(shí)施步驟根據(jù)實(shí)現(xiàn)技術(shù)小節(jié)的描述,結(jié)合總體抽取思路,對于應(yīng)用架構(gòu)中的從生產(chǎn)系統(tǒng)數(shù)據(jù)層到集結(jié)區(qū)的初始抽取加載(數(shù)據(jù)流轉(zhuǎn)1)、從集結(jié)區(qū)到數(shù)據(jù)倉庫的初始抽取加載(數(shù)據(jù)流轉(zhuǎn)2)和從生產(chǎn)系統(tǒng)數(shù)據(jù)層到數(shù)據(jù)倉庫的初始抽取加載(數(shù)據(jù)流轉(zhuǎn)5)這三個(gè)初始抽取加載過程,可以確定如下的實(shí)施步驟。 從生產(chǎn)系統(tǒng)數(shù)據(jù)層到集結(jié)區(qū)的初始抽取加載首先,根據(jù)總體抽取思路的描述,這里采用分步初始化的方式,即先初始化項(xiàng)目當(dāng)前階段需要的表。其次,在技術(shù)選擇上,由于生產(chǎn)系統(tǒng)數(shù)據(jù)層中的數(shù)據(jù)存儲(chǔ)方式比較多樣,可能存儲(chǔ)在數(shù)據(jù)庫中,其數(shù)據(jù)庫管理系統(tǒng)可能是Oracle、SQL SERVER或者SYBASE,也有可能存儲(chǔ)在平面文件中。而集結(jié)區(qū)使用的數(shù)據(jù)庫管理系統(tǒng)肯定是Oracle。那么,這時(shí)就需要分成三種場景進(jìn)行處理。1. 生產(chǎn)系統(tǒng)的數(shù)據(jù)存儲(chǔ)在Oracle數(shù)據(jù)庫中這種場景最簡單,通過創(chuàng)建連接到生產(chǎn)系統(tǒng)數(shù)據(jù)庫的dblink,然后使用物化視圖完全刷新或者批量數(shù)據(jù)加載的CTAS和INSERT /* +APPEND*/ SELECT,就可以把數(shù)據(jù)初始化到集結(jié)區(qū)中。這里需要注意一個(gè)問題,由于創(chuàng)建了dblink,在很多項(xiàng)目中就沒有把生產(chǎn)系統(tǒng)中的表真正的抽取到集結(jié)區(qū)中,而是在需要時(shí),使用dblink直接連接到生產(chǎn)系統(tǒng)中進(jìn)行取數(shù)。這樣的方式違背了構(gòu)建集結(jié)區(qū)的本意,增加了生產(chǎn)系統(tǒng)的性能壓力,不可取。2. 生產(chǎn)系統(tǒng)的數(shù)據(jù)存儲(chǔ)在非Oracle數(shù)據(jù)庫中對于這種場景,需要先安裝連接到相應(yīng)數(shù)據(jù)庫管理系統(tǒng)的透明網(wǎng)關(guān),然后再按照第1點(diǎn)的描述進(jìn)行處理。3. 生產(chǎn)系統(tǒng)的數(shù)據(jù)存儲(chǔ)在文件中對于這種場景,如果是平面文件,可以使用批量數(shù)據(jù)加載外部文件的方式來執(zhí)行初始抽取加載操作(詳見平面文件數(shù)據(jù)加載)。如果是其它類型的文件,最簡單的方式只能是借助于各種數(shù)據(jù)抽取工具了,這里不再描述。 從集結(jié)區(qū)到數(shù)據(jù)倉庫的初始抽取加載由于集結(jié)區(qū)和數(shù)據(jù)倉庫都是我們可以控制的子系統(tǒng),可以明確這兩個(gè)子系統(tǒng)都使用Oracle數(shù)據(jù)庫管理系統(tǒng)。那么,從方便操作和管理的角度出發(fā),可以采用物化視圖完全刷新或者批量數(shù)據(jù)加載的CTAS和INSERT /* +APPEND*/ SELECT方式來實(shí)現(xiàn)這個(gè)過程。 從生產(chǎn)系統(tǒng)數(shù)據(jù)層到數(shù)據(jù)倉庫的數(shù)據(jù)初始抽取加載這個(gè)數(shù)據(jù)流轉(zhuǎn)過程實(shí)際上就是總體抽取思路里描述的針對數(shù)據(jù)結(jié)構(gòu)簡單的維度表的抽取,可以通過物化視圖完全刷新的方式來實(shí)現(xiàn)。6 增量抽取加載增量抽取加載包括增量捕獲和增量處理兩個(gè)步驟的工作。增量捕獲是利用一定的技術(shù)手段,通過對源表的跟蹤,捕獲源表的增加、刪除和修改等數(shù)據(jù)變化。增量處理則是根據(jù)一定處理規(guī)則,對捕獲到的增量數(shù)據(jù)進(jìn)行相應(yīng)的處理。通常情況下,這兩個(gè)步驟中間有一個(gè)涇渭分明的界線,具體就是在捕獲到增量信息后,必須由其它東西來觸發(fā)增量處理過程。但是,在有些時(shí)候,它們又是一個(gè)連續(xù)和自動(dòng)處理的過程。比如在同一個(gè)數(shù)據(jù)庫中使用物化視圖增量刷新或利用復(fù)制工具來處理增量抽取加載就屬于這種情況。 實(shí)現(xiàn)技術(shù)在實(shí)現(xiàn)增量抽取加載的技術(shù)手段(主要是指增量捕獲)上,可以通過全表比對、時(shí)間戳、觸發(fā)器、物化視圖增量刷新、分析數(shù)據(jù)庫日志和利用數(shù)據(jù)復(fù)制工具等方式來實(shí)現(xiàn)。1. 全表比對全表比對方式通過對源表中的每條記錄分別到目標(biāo)表中進(jìn)行比對,判斷兩者是否一致。對于像CTAIS中的申報(bào)信息表、征收信息表和增值稅申報(bào)附表1這些數(shù)據(jù)量動(dòng)輒千萬條以上的表來說根本就是不可行的。另一方面,在我們的數(shù)據(jù)抽取過程中,目標(biāo)表的表結(jié)構(gòu)往往與源表的表結(jié)構(gòu)不一致。并且目標(biāo)表某些字段的值需要由源表的一個(gè)或多個(gè)字段的值經(jīng)過運(yùn)算才能得到。那么這時(shí)候利用全表比對方式來實(shí)現(xiàn)增量更新也會(huì)非常復(fù)雜。2. 時(shí)間戳?xí)r間戳方式通過在源表中增加一個(gè)用于記錄數(shù)據(jù)上次變化時(shí)間的字段來實(shí)現(xiàn)增量捕獲功能。它一方面要求源表中含有時(shí)間字段,另一方面要求數(shù)據(jù)變化和增量抽取后去更新源表的這個(gè)字段。從數(shù)據(jù)庫管理(要求源表上有時(shí)間字段)、訪問權(quán)限及安全(更新源表)和對源系統(tǒng)的性能影響(更新源表會(huì)給源系統(tǒng)帶來壓力)等多種因素分析,在數(shù)據(jù)抽取中大范圍的用時(shí)間戳方式來實(shí)現(xiàn)增量捕獲也是不可行的。3. 觸發(fā)器觸發(fā)器方式要求在源表上創(chuàng)建增加、刪除和修改類型的觸發(fā)器,并在觸發(fā)器中編寫相應(yīng)的業(yè)務(wù)邏輯。與用時(shí)間戳方式實(shí)現(xiàn)增量抽取不可行一樣的理由,用觸發(fā)器來實(shí)現(xiàn)數(shù)據(jù)增量捕獲也是不可行的。4. 物化視圖增量刷新用物化視圖增量刷新方式實(shí)現(xiàn)增量抽取加載要求在源庫上創(chuàng)建基于源表的物化視圖日志,會(huì)對源系統(tǒng)也會(huì)有一定的性能影響。但是,由于現(xiàn)在包括CTAIS在內(nèi)的很多生產(chǎn)系統(tǒng)數(shù)據(jù)庫都是通過物化視圖增量刷新來實(shí)現(xiàn)增量抽取的,在這些數(shù)據(jù)庫上已經(jīng)創(chuàng)建了物化視圖日志。所以,采用物化視圖增量刷新還算是一個(gè)簡便、易用的方案。,還有另一層含義。就是利用物化視圖日志,根據(jù)業(yè)務(wù)規(guī)則,通過編寫存儲(chǔ)過程去應(yīng)用這些增量變化信息。也就是說,物化視圖增量刷新有下面兩層意思:(1). ;(2). ,而是利用物化視圖日志,通過存儲(chǔ)過程實(shí)現(xiàn)業(yè)務(wù)規(guī)則來應(yīng)用增量信息;5. 分析數(shù)據(jù)庫日志分析數(shù)據(jù)庫日志方式是通過分析源庫產(chǎn)生的數(shù)據(jù)庫日志,從而獲取增量信息,并通過編程把這些增量信息應(yīng)用到目標(biāo)庫中。相比于以上幾種方式,分析數(shù)據(jù)庫日志來實(shí)現(xiàn)增量抽取加載對源庫的影響是最小的,但這種方式對技術(shù)要求非常高。并且由于很多數(shù)據(jù)庫日志的規(guī)范是不公開的,直接分析這些數(shù)據(jù)庫的日志也存在一定的風(fēng)險(xiǎn)。6. 利用數(shù)據(jù)復(fù)制工具數(shù)據(jù)復(fù)制工具根據(jù)其底層技術(shù)實(shí)現(xiàn)原理可以分為兩類:一類實(shí)際上就是對觸發(fā)器的封裝;另一類實(shí)際上就是對數(shù)據(jù)庫日志分析的封裝。常見的數(shù)據(jù)復(fù)制工具包括DataGuard(容災(zāi)工具)、Streams、GoldenGate或RealSync等,大部分優(yōu)秀的數(shù)據(jù)復(fù)制工具需要付費(fèi)。關(guān)于數(shù)據(jù)復(fù)制的更多內(nèi)容詳見根據(jù)以上描述,結(jié)合我們的實(shí)際情況,可行的增量抽取加載技術(shù)主要就是物化視圖增量刷新和利用數(shù)據(jù)復(fù)制工具兩種。下面對它們的優(yōu)缺點(diǎn)進(jìn)行說明。用數(shù)據(jù)復(fù)制工具比用物化視圖增量刷新實(shí)現(xiàn)增量抽取加載有以下幾個(gè)優(yōu)點(diǎn):1. 對源庫的性能影響較小由于大部分?jǐn)?shù)據(jù)復(fù)制工具實(shí)際上就是通過分析數(shù)據(jù)庫日志來實(shí)現(xiàn)增量抽取加載功能,所以對源庫的性能影響是非常小的。2. 配置靈活數(shù)據(jù)復(fù)制工具可以實(shí)現(xiàn)模式、表空間和表等不同粒度的配置,而物化視圖增量刷新方式只支持表這個(gè)粒度。3. 減少管理負(fù)擔(dān)數(shù)據(jù)復(fù)制工具可以自動(dòng)捕獲源庫的變化,并把這些變化快速的應(yīng)用到目標(biāo)庫中,這個(gè)過程無需外部觸發(fā),完全自動(dòng)。而用物化視圖增量刷新方式在跨庫的情況下必須通過Job或者ETL工具來觸發(fā),那么就需要考慮增量刷新的觸發(fā)時(shí)機(jī)和配置相應(yīng)的增量刷新流程。用數(shù)據(jù)復(fù)制工具比用物化視圖增量刷新實(shí)現(xiàn)增量抽取加載有以下幾個(gè)缺點(diǎn)或者功能上的欠缺:1. 在對數(shù)據(jù)加工方面不夠靈活由于物化視圖實(shí)際上就是一段返回結(jié)果集的SQL,那么在物化視圖中可以通過一段SELECT代碼來實(shí)現(xiàn)多表關(guān)聯(lián)和條件過濾等數(shù)據(jù)加工過程。而用數(shù)據(jù)復(fù)制工具來做的話則需要比較復(fù)雜的配置,甚至不能配置出來。2. 缺乏對業(yè)務(wù)規(guī)則處理的支持在很多情況下,當(dāng)捕獲到源表的增量信息后,不一定是直接把數(shù)據(jù)增量刷新到目標(biāo)表中,而需要按照一定的業(yè)務(wù)規(guī)則來進(jìn)行相應(yīng)的處理。對于這些業(yè)務(wù)場景,如果使用物化視圖增量刷新的話,由于記錄了物化視圖日志。那么,我們可以通過編寫存儲(chǔ)過程,從物化視圖日志中獲取增量信息。然后根據(jù)業(yè)務(wù)規(guī)則進(jìn)行后續(xù)的操作。最后再通過Job或者特定的ETL工具來周期性的調(diào)用存儲(chǔ)過程。而利用數(shù)據(jù)復(fù)制工具則做不到這些。3. 配置問題利用數(shù)據(jù)復(fù)制工具需要在源庫上做一些配置,而像Streams這些工具的配置還比較復(fù)雜。對此,一些生產(chǎn)系統(tǒng)的管理員可能會(huì)拒絕使用數(shù)據(jù)復(fù)制工具。而由于現(xiàn)在很多生產(chǎn)系統(tǒng)的數(shù)據(jù)庫上已經(jīng)創(chuàng)建了物化視圖日志,所以用物化視圖增量刷新的方式,他們可能會(huì)比較樂于接受。綜上,用數(shù)據(jù)復(fù)制工具適合數(shù)據(jù)結(jié)構(gòu)不存在變化或變化很小的場合使用,對于數(shù)據(jù)結(jié)構(gòu)變化較大或者需要應(yīng)用業(yè)務(wù)規(guī)則的場合就不太適用。 實(shí)施步驟根據(jù)實(shí)現(xiàn)技術(shù)小節(jié)的描述,結(jié)合總體抽取思路,對于應(yīng)用架構(gòu)中的從生產(chǎn)系統(tǒng)數(shù)據(jù)層到集結(jié)區(qū)的增量抽取加載(數(shù)據(jù)流
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1