正文內(nèi)容

并行etl工具可擴展技術(shù)的研究與開發(fā)-wenkub

2023-07-09 03:30:52 本頁面

　

【正文】理在ETL Automation中的作業(yè)和作業(yè)關(guān)系；另一種用來完成對任務(wù)執(zhí)行狀態(tài)的監(jiān)控。同時，數(shù)據(jù)的價值被越來越多的人認(rèn)識到，大量的數(shù)據(jù)被生成以發(fā)掘其中的價值，大數(shù)據(jù)時代的到來對數(shù)據(jù)處理技術(shù)提出了新的需求，一些傳統(tǒng)ETL工具要么必須通過大幅度提高軟硬件成本以實現(xiàn)對大數(shù)據(jù)的處理，要么根本無法滿足這些需求，并行ETL工具的出現(xiàn)使得對于大數(shù)據(jù)的處理成為現(xiàn)實。本文工作基于作者參與開發(fā)的一個并行數(shù)據(jù)挖掘平臺項目，旨在提高并行ETL工具的可擴展性，使得并行ETL工具能夠應(yīng)用于更多的場景，能夠以統(tǒng)一的拖拽組件構(gòu)建ETL流程的方式集成開源并行ETL產(chǎn)品Hive和Pig，并設(shè)計實現(xiàn)了優(yōu)化規(guī)則的表示和實現(xiàn)機制，使得實際應(yīng)用中發(fā)現(xiàn)的優(yōu)化規(guī)則或者從其他產(chǎn)品中借鑒的優(yōu)化規(guī)則可以方便地添加到系統(tǒng)中以實現(xiàn)比較好的可擴展性。大數(shù)據(jù)時代的ETL和云計算技術(shù)緊密結(jié)合，工業(yè)界和學(xué)術(shù)界在并行ETL技術(shù)的研究和開發(fā)方面都取得了豐碩的成果。關(guān)鍵字：ETL 可擴展 MapReduce Hive優(yōu)化規(guī)則參考RESEARCH AND IMPLEMENTATION OF PARALLEL ETL TOOLS’ EXTENSIBLE TECHNOLOGYABSTRACTETL tools, which are the foundation of data mining and online analytical processing, are used to extract data from distributed heterogeneous data source and load the result into data mart or warehouse after cleaning and transformation. ETL tools usually provide some basic operations, such as correlation, summary, and so on, but due to the diversity of ETL application scenario, the plexity of operation logic, these mon operations often cannot satisfy the needs of users, which requires the ETL tools must have certain extensibility, to meet the special needs of various. At the same time, in the era of big data, ETL tools handle huge amounts of data by integrating cloud puting technology. Traditional ETL tools make up for the large data processing by integrating parallel ETL tools such as Hive and Pig, but the existence of the high price of mercial tools and the problem that the open source tools’ integration is not enough. Therefore, how to integrate Hive and Pig better in order to realize the expansion of the function is very important. ETL workflow, on the other hand, as a logical plan, needs to be optimized according to a series of optimization rules in the process of being parsed into a physical plan. As the optimization rules are not set in stone and new optimization rules would be concluded in the process of using ETL tool, we need to make the optimization rules have high scalability.In this paper, based on Hadoop and B/S mode, we put forward a parallel ETL system and study how to extend the parallel ETL system. The main work in this paper includes:Through analyzing the implementation details of the MapReduce parallel puting framework, design and realize two kinds of solutions to plete the function extension of dealing with the plex requirements by embedding custom MapReduce code in the existing tool.Based on the analysis and summary the language grammar characteristics of Hive and Pig script, bined with the actual application requirements, select a set of basic operations and design functional ponents according to them. Then through analyzing the dependency between these operations, design and implement the workflow parsing module, which parses a workflow into a script with the same logic as the manually written script. This integration way extends the functionality of the parallel ETL tool and ensures that the system can provide a unified graphical user interface at the same time. Through analyzing how Hive and Pig implement their optimization mechanism, design and implement our own mechanism. A rule is designed to be a set of matching pattern and the corresponding operation, the mechanism of matching the rules and walking in the plan is isolated and abstracted. Based on this kind of design, optimization rules can be extended easily.KEY WORDS:ETL,extensibility,MapReduce,Hive,optimization rule 參考目錄第一章緒論 1 論文研究背景及意義 1 相關(guān)研究現(xiàn)狀 1 研究內(nèi)容及成果 3 論文結(jié)構(gòu) 4第二章相關(guān)概念及技術(shù)介紹 5 ETL 5 Hadoop 5 HDFS 6 MapReduce 7 并行ETL 8 Hive 8 Pig 9 優(yōu)化規(guī)則 9 表達式引擎 10 元數(shù)據(jù) 10 小結(jié) 10第三章并行ETL工具可擴展技術(shù)的研究 12 可擴展組件技術(shù) 12 集成技術(shù) 14 Hive的集成 15 Pig的集成 15 優(yōu)化規(guī)則的可擴展技術(shù) 16 Hive常用優(yōu)化規(guī)則 17 Hive優(yōu)化規(guī)則實現(xiàn)過程 18 Pig常用優(yōu)化規(guī)則 18 Pig優(yōu)化規(guī)則實現(xiàn)過程 19 小結(jié) 20第四章并行ETL工具可擴展技術(shù)的實現(xiàn) 22 系統(tǒng)架構(gòu)設(shè)計 22 部署架構(gòu) 23 自定義MapReduce組件的實現(xiàn) 23 自定義MR Java代碼組件 23 自定義MR Jar組件 25 并行ETL工具的集成 26 功能組件的實現(xiàn) 26 元數(shù)據(jù)處理的遷移和管理 35 工作流的解析 36 優(yōu)化規(guī)則的實現(xiàn) 41 操作的實現(xiàn) 41 規(guī)則的實現(xiàn) 41第五章實驗及結(jié)果分析 44 自定義MapReduce組件 44 自定義MR Java組件 44 自定義MR Jar組件 45 集成并行ETL工具 45 Hive流程 46 Pig流程 47 優(yōu)化規(guī)則的可擴展 48 實驗環(huán)境 48 實驗數(shù)據(jù) 48 實驗過程及結(jié)果分析 49 小結(jié) 50第六章總結(jié)與展望 51 總結(jié) 51 下一步工作 51參考文獻 53致謝 54攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文 55 參考. . . .第一章緒論論文研究背景及意義隨著云計算技術(shù)的逐漸成熟，大數(shù)據(jù)正在引發(fā)越來越多的關(guān)注。這種集成方式擴展了并行ETL的功能，同時保證了系統(tǒng)能夠提供一個統(tǒng)一的圖形用戶界面。傳統(tǒng)ETL工具通過集成并行ETL工具Hive和Pig的方式來彌補大數(shù)據(jù)處理方面的不足，但是存在商用工具價格高昂而開源工具集成度不夠的問題，因此，較好地集成Hive和Pig以實現(xiàn)功能的擴展非常重要。. . . .并行ETL工具可擴展技術(shù)的研究和開發(fā)摘要ETL工具負(fù)責(zé)從分布的、異構(gòu)數(shù)據(jù)源中抽取數(shù)據(jù)并對其進行清洗和轉(zhuǎn)換，最后裝載到數(shù)據(jù)集市或數(shù)據(jù)倉庫中，是數(shù)據(jù)挖掘和聯(lián)機分析處理的基礎(chǔ)。另一方面，ETL流程作為一個邏輯計劃，在解析成物理計劃的過程中需要根據(jù)優(yōu)化規(guī)則進行一系列的優(yōu)化，而優(yōu)化規(guī)則并不是一成不變的，在ETL工具的使用過程中，新的優(yōu)化規(guī)則會被總結(jié)出來，因此，還需要使優(yōu)化規(guī)則具有較高的可擴展性。通過分析開源ETL工具Hive和Pig的優(yōu)化規(guī)則實現(xiàn)機制，設(shè)計實現(xiàn)了自己的優(yōu)化規(guī)則實現(xiàn)機制。大數(shù)據(jù)可以被直觀的理解為規(guī)模巨大的異構(gòu)數(shù)據(jù)，但是從更深一層來講，大數(shù)據(jù)還包括從海量數(shù)據(jù)中獲取價值的方法。一般的ETL工具都會提供豐富的抽取、轉(zhuǎn)換和加載功能，以滿足實際應(yīng)用的需求，然而，由于應(yīng)用場景的多樣性和特定邏輯的復(fù)雜性，這些ETL工具提供的通用組件往往并不能滿足用戶的需求，這就要求ETL工具必須具有一定的可擴展性，以滿足用戶多樣化、復(fù)雜化的需求。相關(guān)研究現(xiàn)狀在用戶從越來越多、越來越復(fù)雜的數(shù)據(jù)中獲取有價值的信息的過程中，ETL扮演著非常重要的角色，ETL是后續(xù)數(shù)據(jù)挖掘的基石，一個好用且高效的ETL工具將幫助用戶更好地完成ETL工作以及更方便地搭建自己的數(shù)據(jù)處理平臺。傳統(tǒng)的ETL工具分商用和開源兩種，主流的商用ETL工具主要有如下三種：IBM公司的Datastage、Informatica公司的PowerCenter和NCR Teradata公司的ETL Automation。主流的開源ETL主要有如下兩種：Kettle和Talend，都提供GUI [5] [6]。Kettle和Talend也都提供可擴展組件以方便用戶運行腳本，其中Talend還支持用戶自己輸入Java代碼。Pig同樣是一個基于Hadoop的大規(guī)模數(shù)據(jù)處理工具，它提供流程式語言Pig Latin，支持用戶以編寫腳本的形式完成ETL操作。這種方式在集成Hive的同時還保留了圖形用戶界面的便捷性。在進行大數(shù)據(jù)的并行處理過程中，基于規(guī)則的優(yōu)化器被用來優(yōu)化執(zhí)行計劃[9]?；趦?yōu)化規(guī)則來進行并行ETL流程的優(yōu)化仍舊占據(jù)主導(dǎo)地位，優(yōu)化規(guī)則實現(xiàn)機制具有好的擴展性非常必要。同時，Hive和Pig均是基于Hadoop的腳本ETL工具，但是均沒有提供圖形用戶界面的使用方式，而傳統(tǒng)ETL工具基本上都提供友好的圖形界面，商用ETL的領(lǐng)軍產(chǎn)品PowerCenter在這方面的成就尤為突出。本論文希望開發(fā)出一種規(guī)則定義和實現(xiàn)機制，使得開發(fā)人員可以方便地對規(guī)則進行擴展。第二章是相關(guān)概念及技術(shù)介紹：主要介紹ETL的相關(guān)概念和為了實現(xiàn)可擴展將要應(yīng)用的一些技術(shù)，包括：Hadoop、MapReduce、Hive、Pig、優(yōu)化規(guī)則等。第六章是總結(jié)與展望：主要是總結(jié)論文所取得的成果，并就下一步的工作進行展望?？赡艿膯栴}包括：數(shù)據(jù)類型不匹配、字段缺失、二義性、違反業(yè)務(wù)規(guī)則等。數(shù)據(jù)的抽取和裝載主要涉及多樣的數(shù)據(jù)存儲方式和傳輸方式，數(shù)據(jù)可能被存儲在關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫或者文件中，而傳輸方式則包括串行和并行，并且涉及到同步和異步的問題。 Hadoop2003年，谷歌公布了GFS和MapReduce兩種高性能、高可擴展的分布式海量數(shù)據(jù)處理框架，并驗證了該處理框架在海量網(wǎng)頁數(shù)據(jù)處理方面的優(yōu)越性。因為上述的優(yōu)點，Hadoop自出現(xiàn)之初就獲得了普遍的關(guān)注和認(rèn)可，隨著Hadoop版本的越來越穩(wěn)定，越來越多的應(yīng)用被移植到Hadoop上面來，Hadoop生態(tài)圈獲得了良性的發(fā)展。

點擊復(fù)制文檔內(nèi)容

數(shù)學(xué)相關(guān)推薦

cad專業(yè)軟件無縫對接grx擴展工具開發(fā)項目可行性研究報告-資料下載頁

【總結(jié)】CAD專業(yè)軟件無縫對接GRX擴展工具開發(fā)項目可行性研究報告CAD專業(yè)軟件無縫對接GRX擴展工具開發(fā)項目可行性研究報告目錄1總論 1項目名稱及承辦單位 1項目名稱、承辦單位、負(fù)責(zé)人 1企業(yè)概況 1項目的編制依據(jù)與研究范圍 1編制依據(jù) 1研究范圍

2025-05-03 02:38

果品加工技術(shù)研究與產(chǎn)品開發(fā)-資料下載頁

【總結(jié)】附件一□攻攻關(guān)關(guān)項項目目□√重重大大專專項項□重重點點項項目目自治區(qū)科技攻關(guān)（含重大專項）和重點項目計劃項目（課題）申請書項目名稱：環(huán)塔里木盆地特色林果業(yè)關(guān)鍵技術(shù)開發(fā)與示范課題名稱：果品加工技術(shù)研究與產(chǎn)品開發(fā)申請單位：新疆農(nóng)業(yè)大學(xué)

2025-10-15 09:37

可轉(zhuǎn)位球頭立銑刀的建模與基于實例推理的cad系統(tǒng)開發(fā)與研究-資料下載頁

【總結(jié)】可轉(zhuǎn)位球頭立銑刀的建模與基于實例推理的CAD系統(tǒng)開發(fā)與研究提要：建立了平裝可轉(zhuǎn)位球頭立銑刀的幾何數(shù)學(xué)模型。并在該模型的基礎(chǔ)上，以面向?qū)ο笳Z言VisualC++，以SQLServer2000為數(shù)據(jù)庫平臺，以SolidWorks2001為三維實體建模軟件，綜合運用計算機圖形學(xué)技術(shù)、特征建模方法、動態(tài)鏈接庫（DLL）技術(shù)、組件對象模型技術(shù)、實例推理（CBR）技術(shù)、ODBC數(shù)據(jù)庫互

2025-06-28 17:09

如何推動企業(yè)的可持續(xù)成長工具與方法-資料下載頁

【總結(jié)】-1-RolandBerger&Partners–InternationalManagementConsultantsBarcelona–Beijing–Berlin–Brussels–Bucharest–Budapest–BuenosAires–Detroit–Düsseldorf–Frankfurt–

2025-05-22 17:30

mpi分布內(nèi)存并行程序開發(fā)-資料下載頁

【總結(jié)】MPI分布內(nèi)存并行程序開發(fā)2第一章并行計算概述3為什麼要采用并行計算??串行程序速度提升緩慢?可以加快速度——更短的時間內(nèi)解決相同的問題；相同的時間內(nèi)解決更多更復(fù)雜的問題?可以加大規(guī)?！嬎愀笠?guī)模的問題4并行計算設(shè)計的分類

2025-07-17 15:46

并行工程過程管理的研究和應(yīng)用報告-資料下載頁

【總結(jié)】11/12并行工程過程管理的研究和應(yīng)用王昕熊光楞王計斌??(作者向PRDM供稿)?1引言：并行工程與過程管理“過程”本身是一個抽象的、普遍的概念。物質(zhì)之間相互作用，產(chǎn)生變化，在某一時間段上的投影，就形成“過程”。任何過程都可以抽象成一種或幾種物質(zhì)狀態(tài)變化的序列，人們介入到某一過程中，是希望通過自身的行為來影響物質(zhì)狀態(tài)變化的進

2025-06-19 17:30

技術(shù)創(chuàng)新與研究開發(fā)技術(shù)經(jīng)濟分析-資料下載頁

【總結(jié)】第十章技術(shù)創(chuàng)新與研究開發(fā)技術(shù)經(jīng)濟分析第一節(jié)技術(shù)創(chuàng)新?（一）技術(shù)創(chuàng)新的含義?是指創(chuàng)新者（企業(yè)家）抓住潛在的盈利機會，重新組合生產(chǎn)要素以獲取商業(yè)利潤的過程。?技術(shù)創(chuàng)新與技術(shù)進步的關(guān)系?技術(shù)進步的含義比技術(shù)創(chuàng)新廣；技術(shù)創(chuàng)新是技術(shù)進步的根源和手段，技術(shù)進步是各種創(chuàng)新積淀性的經(jīng)濟表現(xiàn)

2025-05-14 08:50

科學(xué)研究與技術(shù)開發(fā)項目委托開發(fā)合同樣本-資料下載頁

【總結(jié)】科學(xué)研究與技術(shù)開發(fā)項目委托開發(fā)合同樣本科學(xué)研究與技術(shù)開發(fā)項目委托開發(fā)合同樣本項目名稱：課(專)題名稱：委托單位：承擔(dān)單位：課(專)題負(fù)責(zé)人：起止日期：年月日合同編制說明 ...

2024-12-16 22:24

科學(xué)研究與技術(shù)開發(fā)項目委托開發(fā)合同范本-資料下載頁

【總結(jié)】科學(xué)研究與技術(shù)開發(fā)項目委托開發(fā)合同　　項目名稱：　　課（專）題名稱：　　委托單位：　　承擔(dān)單位：　　課（專）題負(fù)責(zé)人：　　起止日期：　　年月日　　　　合同編制說明　?。▽＃╊}，應(yīng)由項目牽頭單位（委托單位，即甲方）與課（專）題承擔(dān)單位（受委托單位，即乙方）簽訂委托開發(fā)合同?！　。⒆鳛轫椖拷?jīng)費管理的依據(jù)。　　，上報主持部門2份備案。　　一、委托研

2025-05-14 12:45

科學(xué)研究與技術(shù)開發(fā)項目委托開發(fā)合同-資料下載頁

【總結(jié)】科學(xué)研究與技術(shù)開發(fā)項目委托開發(fā)合同在制定合同的時候，我們一定要認(rèn)真參考相關(guān)的合同范本?！犊茖W(xué)研究與技術(shù)開發(fā)項目委托開發(fā)合同》是為大家準(zhǔn)備的，希望對大家有幫助！項目名稱：課（...

2024-12-16 22:24

基于android日程管理工具的設(shè)計與開發(fā)-資料下載頁

【總結(jié)】i基于android日程管理工具的設(shè)計與開發(fā)摘要隨著移動平臺的崛起，越來越多的傳統(tǒng)PC軟件被移植到移動平臺，比如ipad，iphone，Android等智能終端設(shè)備，在這些平臺中，Android占領(lǐng)著最大的市場份額，所以為Android用戶開發(fā)滿足日常使用的軟件成為了現(xiàn)在的一大熱門。本次設(shè)計選用了時下比較熱門的Android

2025-08-30 16:32

科學(xué)研究與技術(shù)開發(fā)項目委托的合同-資料下載頁

【總結(jié)】科學(xué)研究與技術(shù)開發(fā)項目委托的合同無論是工作還是生活，合同總是伴隨在我們的身邊。在參考了下面《科學(xué)研究與技術(shù)開發(fā)項目委托的合同》這篇文章之后，你還有什么想看的嗎？在中還收集了許多相關(guān)文章，在此期...

2024-12-16 22:24

[精選]并行工程技術(shù)-資料下載頁

【總結(jié)】第一節(jié)并行工程技術(shù)第六章先進制造生產(chǎn)模式一、并行工程的產(chǎn)生傳統(tǒng)的產(chǎn)品開發(fā)模式是串行的：產(chǎn)品設(shè)計→工藝設(shè)計→計劃調(diào)度→生產(chǎn)制造。設(shè)計工程師與制造工程師之間互相不了解，互相不交往，中間有如隔了一堵墻。概念設(shè)計設(shè)計和繪圖原型論證制造準(zhǔn)備和加工傳統(tǒng)產(chǎn)品開發(fā)模式存在的缺點

2025-03-08 01:54

規(guī)劃的工具與技術(shù)ppt課件-資料下載頁

【總結(jié)】　　規(guī)劃的工具　　　與技術(shù)9-1管理學(xué)?第九章　規(guī)劃的工具與技術(shù)　　學(xué)習(xí)目標(biāo)?閱讀本章後，您應(yīng)該能：?°描述三種評估環(huán)境的技術(shù)°描述四種分配資源的技術(shù)°說明為何預(yù)算編列是很普遍的規(guī)劃工具°比較甘特圖與負(fù)荷圖的差異°指出發(fā)展PERT網(wǎng)路的步驟2管理學(xué)

2025-02-22 00:02

咨詢產(chǎn)品研究開發(fā)院流程優(yōu)化工具-資料下載頁

【總結(jié)】2023年2月咨詢產(chǎn)品研究開發(fā)院流程優(yōu)化工具產(chǎn)品研究開發(fā)院任愛民流程優(yōu)化工具第2頁內(nèi)部文件，注意保密目錄一．流程優(yōu)化工作的意義二．流程的定義和分類三．流程繪制方法和原則四．流程優(yōu)化步驟和方法五．流程優(yōu)化的案例介紹六．流程手冊的編制方法202

2025-01-27 00:26