freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

并行etl工具可擴展技術(shù)的研究與開發(fā)-wenkub

2023-07-09 03:30:52 本頁面
 

【正文】 理在ETL Automation中的作業(yè)和作業(yè)關(guān)系;另一種用來完成對任務(wù)執(zhí)行狀態(tài)的監(jiān)控。同時,數(shù)據(jù)的價值被越來越多的人認(rèn)識到,大量的數(shù)據(jù)被生成以發(fā)掘其中的價值,大數(shù)據(jù)時代的到來對數(shù)據(jù)處理技術(shù)提出了新的需求,一些傳統(tǒng)ETL工具要么必須通過大幅度提高軟硬件成本以實現(xiàn)對大數(shù)據(jù)的處理,要么根本無法滿足這些需求,并行ETL工具的出現(xiàn)使得對于大數(shù)據(jù)的處理成為現(xiàn)實。本文工作基于作者參與開發(fā)的一個并行數(shù)據(jù)挖掘平臺項目,旨在提高并行ETL工具的可擴展性,使得并行ETL工具能夠應(yīng)用于更多的場景,能夠以統(tǒng)一的拖拽組件構(gòu)建ETL流程的方式集成開源并行ETL產(chǎn)品Hive和Pig,并設(shè)計實現(xiàn)了優(yōu)化規(guī)則的表示和實現(xiàn)機制,使得實際應(yīng)用中發(fā)現(xiàn)的優(yōu)化規(guī)則或者從其他產(chǎn)品中借鑒的優(yōu)化規(guī)則可以方便地添加到系統(tǒng)中以實現(xiàn)比較好的可擴展性。大數(shù)據(jù)時代的ETL和云計算技術(shù)緊密結(jié)合,工業(yè)界和學(xué)術(shù)界在并行ETL技術(shù)的研究和開發(fā)方面都取得了豐碩的成果。關(guān)鍵字:ETL 可擴展 MapReduce Hive優(yōu)化規(guī)則 參考RESEARCH AND IMPLEMENTATION OF PARALLEL ETL TOOLS’ EXTENSIBLE TECHNOLOGYABSTRACTETL tools, which are the foundation of data mining and online analytical processing, are used to extract data from distributed heterogeneous data source and load the result into data mart or warehouse after cleaning and transformation. ETL tools usually provide some basic operations, such as correlation, summary, and so on, but due to the diversity of ETL application scenario, the plexity of operation logic, these mon operations often cannot satisfy the needs of users, which requires the ETL tools must have certain extensibility, to meet the special needs of various. At the same time, in the era of big data, ETL tools handle huge amounts of data by integrating cloud puting technology. Traditional ETL tools make up for the large data processing by integrating parallel ETL tools such as Hive and Pig, but the existence of the high price of mercial tools and the problem that the open source tools’ integration is not enough. Therefore, how to integrate Hive and Pig better in order to realize the expansion of the function is very important. ETL workflow, on the other hand, as a logical plan, needs to be optimized according to a series of optimization rules in the process of being parsed into a physical plan. As the optimization rules are not set in stone and new optimization rules would be concluded in the process of using ETL tool, we need to make the optimization rules have high scalability.In this paper, based on Hadoop and B/S mode, we put forward a parallel ETL system and study how to extend the parallel ETL system. The main work in this paper includes:Through analyzing the implementation details of the MapReduce parallel puting framework, design and realize two kinds of solutions to plete the function extension of dealing with the plex requirements by embedding custom MapReduce code in the existing tool.Based on the analysis and summary the language grammar characteristics of Hive and Pig script, bined with the actual application requirements, select a set of basic operations and design functional ponents according to them. Then through analyzing the dependency between these operations, design and implement the workflow parsing module, which parses a workflow into a script with the same logic as the manually written script. This integration way extends the functionality of the parallel ETL tool and ensures that the system can provide a unified graphical user interface at the same time. Through analyzing how Hive and Pig implement their optimization mechanism, design and implement our own mechanism. A rule is designed to be a set of matching pattern and the corresponding operation, the mechanism of matching the rules and walking in the plan is isolated and abstracted. Based on this kind of design, optimization rules can be extended easily.KEY WORDS:ETL,extensibility,MapReduce,Hive,optimization rule 參考目錄第一章 緒論 1 論文研究背景及意義 1 相關(guān)研究現(xiàn)狀 1 研究內(nèi)容及成果 3 論文結(jié)構(gòu) 4第二章 相關(guān)概念及技術(shù)介紹 5 ETL 5 Hadoop 5 HDFS 6 MapReduce 7 并行ETL 8 Hive 8 Pig 9 優(yōu)化規(guī)則 9 表達式引擎 10 元數(shù)據(jù) 10 小結(jié) 10第三章 并行ETL工具可擴展技術(shù)的研究 12 可擴展組件技術(shù) 12 集成技術(shù) 14 Hive的集成 15 Pig的集成 15 優(yōu)化規(guī)則的可擴展技術(shù) 16 Hive常用優(yōu)化規(guī)則 17 Hive優(yōu)化規(guī)則實現(xiàn)過程 18 Pig常用優(yōu)化規(guī)則 18 Pig優(yōu)化規(guī)則實現(xiàn)過程 19 小結(jié) 20第四章 并行ETL工具可擴展技術(shù)的實現(xiàn) 22 系統(tǒng)架構(gòu)設(shè)計 22 部署架構(gòu) 23 自定義MapReduce組件的實現(xiàn) 23 自定義MR Java代碼組件 23 自定義MR Jar組件 25 并行ETL工具的集成 26 功能組件的實現(xiàn) 26 元數(shù)據(jù)處理的遷移和管理 35 工作流的解析 36 優(yōu)化規(guī)則的實現(xiàn) 41 操作的實現(xiàn) 41 規(guī)則的實現(xiàn) 41第五章 實驗及結(jié)果分析 44 自定義MapReduce組件 44 自定義MR Java組件 44 自定義MR Jar組件 45 集成并行ETL工具 45 Hive流程 46 Pig流程 47 優(yōu)化規(guī)則的可擴展 48 實驗環(huán)境 48 實驗數(shù)據(jù) 48 實驗過程及結(jié)果分析 49 小結(jié) 50第六章 總結(jié)與展望 51 總結(jié) 51 下一步工作 51參考文獻 53致謝 54攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文 55 參考. . . .第一章 緒論 論文研究背景及意義隨著云計算技術(shù)的逐漸成熟,大數(shù)據(jù)正在引發(fā)越來越多的關(guān)注。這種集成方式擴展了并行ETL的功能,同時保證了系統(tǒng)能夠提供一個統(tǒng)一的圖形用戶界面。傳統(tǒng)ETL工具通過集成并行ETL工具Hive和Pig的方式來彌補大數(shù)據(jù)處理方面的不足,但是存在商用工具價格高昂而開源工具集成度不夠的問題,因此,較好地集成Hive和Pig以實現(xiàn)功能的擴展非常重要。. . . .并行ETL工具可擴展技術(shù)的研究和開發(fā)摘 要ETL工具負(fù)責(zé)從分布的、異構(gòu)數(shù)據(jù)源中抽取數(shù)據(jù)并對其進行清洗和轉(zhuǎn)換,最后裝載到數(shù)據(jù)集市或數(shù)據(jù)倉庫中,是數(shù)據(jù)挖掘和聯(lián)機分析處理的基礎(chǔ)。另一方面,ETL流程作為一個邏輯計劃,在解析成物理計劃的過程中需要根據(jù)優(yōu)化規(guī)則進行一系列的優(yōu)化,而優(yōu)化規(guī)則并不是一成不變的,在ETL工具的使用過程中,新的優(yōu)化規(guī)則會被總結(jié)出來,因此,還需要使優(yōu)化規(guī)則具有較高的可擴展性。通過分析開源ETL工具Hive和Pig的優(yōu)化規(guī)則實現(xiàn)機制,設(shè)計實現(xiàn)了自己的優(yōu)化規(guī)則實現(xiàn)機制。大數(shù)據(jù)可以被直觀的理解為規(guī)模巨大的異構(gòu)數(shù)據(jù),但是從更深一層來講,大數(shù)據(jù)還包括從海量數(shù)據(jù)中獲取價值的方法。一般的ETL工具都會提供豐富的抽取、轉(zhuǎn)換和加載功能,以滿足實際應(yīng)用的需求,然而,由于應(yīng)用場景的多樣性和特定邏輯的復(fù)雜性,這些ETL工具提供的通用組件往往并不能滿足用戶的需求,這就要求ETL工具必須具有一定的可擴展性,以滿足用戶多樣化、復(fù)雜化的需求。 相關(guān)研究現(xiàn)狀在用戶從越來越多、越來越復(fù)雜的數(shù)據(jù)中獲取有價值的信息的過程中,ETL扮演著非常重要的角色,ETL是后續(xù)數(shù)據(jù)挖掘的基石,一個好用且高效的ETL工具將幫助用戶更好地完成ETL工作以及更方便地搭建自己的數(shù)據(jù)處理平臺。傳統(tǒng)的ETL工具分商用和開源兩種,主流的商用ETL工具主要有如下三種:IBM公司的Datastage、Informatica公司的PowerCenter和NCR Teradata公司的ETL Automation。主流的開源ETL主要有如下兩種:Kettle和Talend,都提供GUI [5] [6]。Kettle和Talend也都提供可擴展組件以方便用戶運行腳本,其中Talend還支持用戶自己輸入Java代碼。Pig同樣是一個基于Hadoop的大規(guī)模數(shù)據(jù)處理工具,它提供流程式語言Pig Latin,支持用戶以編寫腳本的形式完成ETL操作。這種方式在集成Hive的同時還保留了圖形用戶界面的便捷性。在進行大數(shù)據(jù)的并行處理過程中,基于規(guī)則的優(yōu)化器被用來優(yōu)化執(zhí)行計劃[9]?;趦?yōu)化規(guī)則來進行并行ETL流程的優(yōu)化仍舊占據(jù)主導(dǎo)地位,優(yōu)化規(guī)則實現(xiàn)機制具有好的擴展性非常必要。同時,Hive和Pig均是基于Hadoop的腳本ETL工具,但是均沒有提供圖形用戶界面的使用方式,而傳統(tǒng)ETL工具基本上都提供友好的圖形界面,商用ETL的領(lǐng)軍產(chǎn)品PowerCenter在這方面的成就尤為突出。本論文希望開發(fā)出一種規(guī)則定義和實現(xiàn)機制,使得開發(fā)人員可以方便地對規(guī)則進行擴展。第二章是相關(guān)概念及技術(shù)介紹:主要介紹ETL的相關(guān)概念和為了實現(xiàn)可擴展將要應(yīng)用的一些技術(shù),包括:Hadoop、MapReduce、Hive、Pig、優(yōu)化規(guī)則等。第六章是總結(jié)與展望:主要是總結(jié)論文所取得的成果,并就下一步的工作進行展望??赡艿膯栴}包括:數(shù)據(jù)類型不匹配、字段缺失、二義性、違反業(yè)務(wù)規(guī)則等。數(shù)據(jù)的抽取和裝載主要涉及多樣的數(shù)據(jù)存儲方式和傳輸方式,數(shù)據(jù)可能被存儲在關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫或者文件中,而傳輸方式則包括串行和并行,并且涉及到同步和異步的問題。 Hadoop2003年,谷歌公布了GFS和MapReduce兩種高性能、高可擴展的分布式海量數(shù)據(jù)處理框架,并驗證了該處理框架在海量網(wǎng)頁數(shù)據(jù)處理方面的優(yōu)越性。因為上述的優(yōu)點,Hadoop自出現(xiàn)之初就獲得了普遍的關(guān)注和認(rèn)可,隨著Hadoop版本的越來越穩(wěn)定,越來越多的應(yīng)用被移植到Hadoop上面來,Hadoop生態(tài)圈獲得了良性的發(fā)展。
點擊復(fù)制文檔內(nèi)容
數(shù)學(xué)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1