freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

提高數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量的研究畢業(yè)論文-文庫吧資料

2025-06-28 15:33本頁面
  

【正文】 任務(wù)實例調(diào)度在生成了任務(wù)組及任務(wù)運(yùn)行實例后,ETL統(tǒng)一框架系統(tǒng)后臺根據(jù)掃描得到的任務(wù)組實例,識別出任務(wù)組實例中各任務(wù)實例的執(zhí)行順序關(guān)系,按照串行或并行的方式調(diào)度相應(yīng)的任務(wù)實例。216。 任務(wù)實例狀態(tài)修改同時操作人員可以修改任務(wù)組實例中的任務(wù)實例運(yùn)行狀態(tài),以便操作人員可以重新運(yùn)行某些已經(jīng)運(yùn)行完的任務(wù)實例或者刪除某些運(yùn)行的任務(wù)實例或者整個任務(wù)組實例216。同時操作人員可以修改任務(wù)組實例中的任務(wù)實例運(yùn)行狀態(tài),以便操作人員可以重新運(yùn)行某些已經(jīng)運(yùn)行完的任務(wù)實例。在配置好以后,操作人員在前臺界面給指定的任務(wù)組的每個任務(wù)賦予參數(shù),設(shè)置好任務(wù)組相應(yīng)的運(yùn)行時間216。 任務(wù)/任務(wù)組配置操作人員在前臺界面要預(yù)先定義好數(shù)據(jù)抽取工作流所涉及的任務(wù)(ETL程序)及任務(wù)組。在前臺與后臺操作中,都是建立在數(shù)據(jù)庫基礎(chǔ)上的,各種參數(shù)的生成和修改以及查詢,都要數(shù)據(jù)庫來實現(xiàn)。在后臺,包含有任務(wù)調(diào)度模塊和任務(wù)或任務(wù)組實例生成模塊。在前臺,用戶可以直接對未運(yùn)行狀態(tài)的任務(wù)或任務(wù)組的相應(yīng)參數(shù)進(jìn)行配置,還可以了解ETL源數(shù)據(jù)處理狀態(tài)(比如進(jìn)度),還可以查詢?nèi)罩竞瓦M(jìn)行任務(wù)實例的狀態(tài)修改,這些操作都是在圖形界面下進(jìn)行的。 故障處理要求如果ETL調(diào)度系統(tǒng)因某些情況出現(xiàn)崩潰后,在其重新啟動后,能自動識別在崩潰前尚在運(yùn)行的任務(wù)實例,并結(jié)束運(yùn)行任務(wù)實例的運(yùn)行,然后自動重新運(yùn)行崩潰前需要運(yùn)行的任務(wù)實例。能夠靈活支持多主機(jī)調(diào)度,非常簡易的增加新調(diào)度主機(jī)。能夠靈活支持不同頻度的ETL任務(wù)。216。216。 非功能性需求描述216。216。后臺功能需求描述:216。216。216。216。 功能性需求描述(按功能模塊進(jìn)行說明)前臺功能性需求描述:216。 需求分析 需求設(shè)計描述EMC的ETL調(diào)度過程可分為前臺功能模塊和后臺功能模塊,前者是為最終用戶提供友好的可視化界面以支持對數(shù)據(jù)倉庫的數(shù)據(jù)準(zhǔn)備階段的實時監(jiān)控和參數(shù)配置等要求,后者則提供任務(wù)調(diào)度和實例生成工作。面對龐雜多變的ETL任務(wù),如何使這些任務(wù)能夠有序無差錯地執(zhí)行,如何識別各種任務(wù),將會是一個很大挑戰(zhàn)性的問題。: 總體處理流程圖 4. . EMC中數(shù)據(jù)調(diào)度校驗的應(yīng)用EMC(ETL Manage Center)是我公司構(gòu)建數(shù)據(jù)倉庫自動化處理的重要產(chǎn)品。、反饋過程整個處理流程由系統(tǒng)調(diào)度發(fā)起,在數(shù)據(jù)稽核環(huán)節(jié)暫停(后續(xù)可以設(shè)定自動稽核規(guī)則,滿足規(guī)則的,可以自動通過稽核,這樣只有異常的數(shù)據(jù)才需要人工干預(yù)),等待數(shù)據(jù)稽核崗確認(rèn)后才往下走。此步驟處理過程目前大多采用的是人工處理的方式,后續(xù)工作需要在自動化方面加強(qiáng)。(OLAP)層進(jìn)入標(biāo)準(zhǔn):集市表層的各原子節(jié)點(diǎn)對應(yīng)的任務(wù)無異常。通用集市表ETL處理程序也可以借鑒四川項目組目前的鎖定對象ETL過程模型的設(shè)計。要處理的集市表和處理邏輯保存在數(shù)據(jù)庫表中以生成處理過程的任務(wù)清單。(DM)層進(jìn)入標(biāo)準(zhǔn):事實表層的各原子節(jié)點(diǎn)對應(yīng)的任務(wù)無異常。通用事實表ETL處理程序可以借鑒四川項目組目前的鎖定對象ETL過程模型的設(shè)計。要處理的事實表和處理邏輯保存在數(shù)據(jù)庫表中以生成處理過程的任務(wù)清單。某原子節(jié)點(diǎn)是否必要,可在EDM模型層的域-實體關(guān)系保存的數(shù)據(jù)庫表中描述。這些業(yè)務(wù)規(guī)則以元數(shù)據(jù)的形式保存在一些表中。: EDM模型圖稽核表舉例:。EDM模型層稽核采用處理日志評估模式。EDM模型層按域-實體組織任務(wù),采用統(tǒng)一模式(可以是定制的ETL程序或編寫好的DataStage Jobs)從接口層處理數(shù)據(jù),形成處理日志?;藞蟊砼e例:。關(guān)于維度和代碼的稽核,需要統(tǒng)計代碼缺失、各代碼值的記錄分布、零記錄數(shù)的代碼。ETL程序根據(jù)配置的間隔時間取數(shù)據(jù)。 接口表數(shù)據(jù)源樹接口表數(shù)據(jù)源樹按配置的元數(shù)據(jù)生成,方便后續(xù)地域的變更和業(yè)務(wù)擴(kuò)展。在監(jiān)控界面可以查看各層狀態(tài)。: ETL過程總體邏輯圖經(jīng)營分析系統(tǒng)的數(shù)據(jù)來源于各源系統(tǒng),并按層次分組處理,而實際上源系統(tǒng)是千差萬別的,為了便于系統(tǒng)開發(fā),數(shù)據(jù)源和各后續(xù)處理過程,設(shè)立了接口表層,將源系統(tǒng)中不同數(shù)據(jù)源在接口表層進(jìn)行統(tǒng)一。由于經(jīng)營分析系統(tǒng)維護(hù)的主要工作量在ETL過程處理上,因此事先建立一個通用先進(jìn)的ETL處理過程,將會給系統(tǒng)維護(hù)工作帶來事半倍功的效果。動態(tài)報表就是利用數(shù)據(jù)倉庫技術(shù)中元數(shù)據(jù)的思想,將報表元素分解成基本構(gòu)件,實現(xiàn)對數(shù)據(jù)按用戶軸、時間軸、地域軸、通話類型軸等,對用戶的呼叫量,消費(fèi)量等進(jìn)行分析統(tǒng)計,形成各種各樣的報表即動態(tài)報表。網(wǎng)絡(luò)管理和優(yōu)化分析將在以下三個方面對現(xiàn)行系統(tǒng)進(jìn)行擴(kuò)展:擴(kuò)大并細(xì)化數(shù)據(jù)源;增加數(shù)據(jù)量;豐富統(tǒng)計分析類型。網(wǎng)絡(luò)管理和網(wǎng)絡(luò)優(yōu)化分析中國電信目前大都建成了省網(wǎng)管中心和各地的網(wǎng)管集中操作維護(hù)中心,對網(wǎng)絡(luò)進(jìn)行管理,它們包含的數(shù)據(jù)是調(diào)整、優(yōu)化固定網(wǎng)絡(luò)結(jié)構(gòu),提高全網(wǎng)通話質(zhì)量的根本依據(jù)。經(jīng)營成本與收入分析作為一個在市場經(jīng)濟(jì)中運(yùn)作的企業(yè),無疑以獲得最大的經(jīng)濟(jì)效益為企業(yè)運(yùn)作的核心目標(biāo)之一,當(dāng)然還應(yīng)兼顧社會效益、客戶服務(wù)等方面。但是電信的客戶群體非常龐大,而且客戶對服務(wù)的要求也越來越高,作好服務(wù)工作不再是漂亮的營業(yè)員會微笑就可以完成的事了,必需要利用先進(jìn)的數(shù)據(jù)倉庫技術(shù),對用戶進(jìn)行客戶關(guān)系管理分析,也就是CRM(Customer Relation Manage)??蛻絷P(guān)系管理(CRM)分析在電信行業(yè)內(nèi),贏得一個新客戶比保留一個老客戶所付出的代價要高得多。欠費(fèi)和動態(tài)防欺詐行為分析能及時預(yù)警各種騙費(fèi)、欠費(fèi),使企業(yè)損失盡量減少。欠費(fèi)和動態(tài)防欺詐行為分析就是在總結(jié)各種騙費(fèi)、欠費(fèi)行為的內(nèi)在規(guī)律后,在數(shù)據(jù)倉庫的基礎(chǔ)上建立一套欺騙行為和欠費(fèi)行為規(guī)則庫,當(dāng)用戶的話費(fèi)行為與該庫中規(guī)則吻合或相似就發(fā)出告警,同時該系統(tǒng)還可以在此規(guī)則庫的基礎(chǔ)上分析各種欺騙和欠費(fèi)行為,從而演繹出可能的欺騙和欠費(fèi)行為,加以論證后自動加入規(guī)則庫。欠費(fèi)和動態(tài)防欺詐行為分析欠費(fèi)問題一直是電信面臨的一個嚴(yán)重問題。優(yōu)惠策略預(yù)測仿真優(yōu)惠促銷固然可以開拓市場,但如果優(yōu)惠策略不恰當(dāng),結(jié)果可能適得其反。固定電話話費(fèi)行為分析舉個例子,固定電話的熱裝冷用一直是令各電信公司頭疼的事,如果能對用戶歷年來大量的長話、網(wǎng)話和信息臺的詳細(xì)清單數(shù)據(jù)和用戶的檔案資料等相關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,通過對用戶的分類,從消費(fèi)能力、消費(fèi)習(xí)慣、消費(fèi)周期等諸方面對用戶的話費(fèi)行為進(jìn)行分析和預(yù)測,一定會為企業(yè)的相關(guān)解決措施提供依據(jù)和幫助。如果我們針對電信業(yè)的特點(diǎn)和發(fā)展需求,對這些數(shù)據(jù)進(jìn)行結(jié)構(gòu)上的重組,按更有利于決策分析的角度去設(shè)計,就會使我們企業(yè)的寶貴資源——數(shù)據(jù),實現(xiàn)真正的信息價值。 3.. EMC項目中的ETL應(yīng)用.1 業(yè)務(wù)背景電信行業(yè)內(nèi)應(yīng)用數(shù)據(jù)倉庫技術(shù)意義非凡,由于電信業(yè)內(nèi)早有大量成熟的數(shù)據(jù)庫應(yīng)用系統(tǒng),如“電信業(yè)務(wù)計算機(jī)綜合管理系統(tǒng)”、“本地網(wǎng)管系統(tǒng)”、“財務(wù)管理系統(tǒng)”、“計費(fèi)賬務(wù)系統(tǒng)”、“112障礙管理系統(tǒng)”、“收費(fèi)銷賬系統(tǒng)”等,通過這些系統(tǒng)產(chǎn)生了大量的業(yè)務(wù)處理數(shù)據(jù)?!靶畔⒐聧u”曾經(jīng)是很多企業(yè)對其應(yīng)用現(xiàn)狀的一種抱怨和概括,而合理的元數(shù)據(jù)則會有效地描繪出信息的關(guān)聯(lián)性。元數(shù)據(jù)的典型表現(xiàn)為對象的描述,即對數(shù)據(jù)庫、表、列、列屬性(類型、格式、約束等)以及主鍵/外部鍵關(guān)聯(lián)等等的描述。元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)。規(guī)范流程是提高實施效率的關(guān)鍵工作。很多ETL數(shù)據(jù)質(zhì)量問題是由于人工處理導(dǎo)致的,其中最主要原因是流程不規(guī)范。這樣一個框架起到了規(guī)范化操作的作用,開發(fā)實施人員可以將主要精力放在驗證腳本的編寫上,而不必過多關(guān)注驗證如何融合到流程中,如何展現(xiàn)等工作。數(shù)據(jù)驗證不是一次性工作,而是每次ETL過程中都必須做的。以O(shè)LAP的方式提供界面,將測試統(tǒng)計出來的指標(biāo)結(jié)果反映給開發(fā)人員,使開發(fā)人員可以根據(jù)統(tǒng)計結(jié)果查找錯誤原因。下面是保證數(shù)據(jù)質(zhì)量的幾點(diǎn)建議:提供前端的統(tǒng)一界面。對于有誤差的數(shù)據(jù),必須找到原因。通常的席量方法是設(shè)定一個誤差范圍,例如指標(biāo)的誤差范圍不能高于5%等,對系統(tǒng)本身來說必須要有這樣的度量方法,但對于ETL過程中的數(shù)據(jù)質(zhì)量,其度量方法更為嚴(yán)格,理論上,要求輸入輸出的指標(biāo)應(yīng)該完全一致。這只是處理數(shù)據(jù)格式的錯誤,對于數(shù)據(jù)一致性和業(yè)務(wù)邏輯合理性問題仍有待進(jìn)一步研究。顯然這是一種不好的設(shè)計,對于調(diào)用者來說,需要依據(jù)這個錯誤碼進(jìn)行某些判斷,不同的錯誤都有相應(yīng)的處理邏輯。這是一種處理臟數(shù)據(jù)的方法,但這也是一種掩蓋事實的方法。下面探討一下對數(shù)據(jù)源質(zhì)量和ETL處理質(zhì)量的應(yīng)對方法。對于數(shù)據(jù)源的質(zhì)量問題,客戶對此更加關(guān)心,如果在源頭不能保證比較干凈的數(shù)據(jù),那么后面分析功能的可信度會大為降低。盡可能將ETL單元的工作簡單化、獨(dú)立化是定義ETL單元的基本標(biāo)準(zhǔn)。ETL單元究竟應(yīng)該細(xì)分到什么程度應(yīng)該依據(jù)具體應(yīng)用來看,目前還沒有很好的細(xì)分策略。具有可視化的流程編輯工具,提供流程定義和流程監(jiān)控功能。Datastag中有Hash文件技術(shù),Powermart也有類似的功能。對數(shù)據(jù)的快速索引。提供函數(shù)集,包括日期處理函數(shù)、字符串處理函數(shù)等。ETL元數(shù)據(jù)還包括形式參數(shù)的管理,形式參數(shù)是ETL單元定義的參數(shù),相對還有實參,它是運(yùn)行時指定的參數(shù),實參不在元數(shù)據(jù)管理范圍之內(nèi)。下面從ETL元數(shù)據(jù)等幾個方面探討ETL過程的特點(diǎn):ETL元數(shù)據(jù)。ETL的核心是T過程,也就是轉(zhuǎn)換,而抽取和裝載一般可以作為轉(zhuǎn)換的輸入和輸出,或者作為一個單獨(dú)的部件,其復(fù)雜程度沒有轉(zhuǎn)換部件高。 ETL過程特點(diǎn)ETL的過程就是數(shù)據(jù)流動的過程,數(shù)據(jù)從異構(gòu)數(shù)據(jù)源流向統(tǒng)一的目標(biāo)數(shù)據(jù)庫。而把數(shù)據(jù)的ETL過程當(dāng)成一個個進(jìn)程或job,對其進(jìn)行調(diào)度,就是ETL調(diào)度過程。數(shù)據(jù)倉庫要不斷地裝載這些存在“臟數(shù)據(jù)”的數(shù)據(jù),如果不能保證裝載數(shù)據(jù)的質(zhì)量,那么勢必會降低數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,對數(shù)據(jù)倉庫的后續(xù)操作造成影響,降低數(shù)據(jù)挖掘的質(zhì)量。 ETL(Extract, Transform, loading) ETL簡介在數(shù)據(jù)倉庫的構(gòu)建中,問題最多,工作量最大的是從各種數(shù)據(jù)源抽取(Extract),轉(zhuǎn)換(Transform)和裝載(Loading)數(shù)據(jù)的操作。前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其具體實現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。,: 數(shù)據(jù)倉庫基本體系結(jié)構(gòu)圖分析工具歸納工具…數(shù)據(jù)挖掘OLAP數(shù)據(jù)倉庫元數(shù)據(jù)數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)集市數(shù)據(jù)集市ETL… 數(shù)據(jù)倉庫基本體系結(jié)構(gòu)圖1. 數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。而把信息加以整理歸納和重組,并及時提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。 企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點(diǎn)方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,:首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1