当前位置: 代码网 > it编程>前端脚本>Python > 一篇文章搞懂数据仓库:常用ETL工具、方法,总结到位

一篇文章搞懂数据仓库:常用ETL工具、方法,总结到位

2024年07月31日 Python 我要评论
① 2000多本Python电子书(主流和经典的书籍应该都有了)② Python标准库资料(最全中文版)③ 项目源码(四五十个有趣且经典的练手项目及源码)④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)⑤ Python学习路线图(告别不入流的学习)① 2000多本Python电子书(主流和经典的书籍应该都有了)② Python标准库资料(最全中文版)③ 项目源码(四五十个有趣且经典的练手项目及源码)

三、常用的etl工具


下面小编将介绍几类etl工具(sqoop,datax,kettle,canal,streamsets)。

3.1 sqoop

  • 是apache开源的一款在hadoop和关系数据库服务器之间传输数据的工具。

  • 可以将一个关系型数据库(mysql ,oracle等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导出到关系型数据库中。

  • sqoop命令的本质是转化为mapreduce程序。

  • sqoop分为导入(import)和导出(export),

  • 策略分为table和query

  • 模式分为增量和全量。

image.png

image.png

3.2 datax

  • datax 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台

  • 实现包括 mysql、oracle、sqlserver、postgre、hdfs、hive、ads、hbase、tablestore(ots)、maxcompute(odps)、drds 等各种异构数据源之间高效的数据同步功能。

image.png

image.png

3.3 kettle

  • 一款国外免费开源的、可视化的、功能强大的etl工具,纯java编写,可以在windows、linux、unix上运行,数据抽取高效稳定。

3.4 canal

  • canal是阿里巴巴旗下的一款开源项目,纯java开发。基于数据库增量日志解析,提供增量数据实时订阅和消费,目前主要支持了mysql,也支持mariadb。

image.png

3.5 streamsets

  • 是大数据实时采集etl工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(pipelines)的设计和定时任务调度。

  • 创建一个pipelines管道需要配置数据源(origins)、操作(processors)、目的地(destinations)三部分。

四、etl加载策略


4.1 增量

  • 有些表巨大,我们需要选择增量策略,新增delta数据需要和存量数据merge合并。

  • 两种方法:

  • merge(一)

image.png

  • merge(二)

  • 只有新增(full join。能拿更新表就拿更新表)

image.png

  • 新增+删除

  • history-table left join delet-table where delect-table.value is null == 表a

  • 表a full join update-table (能拿update就拿update)

image.png

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、oppo等大厂,18年进入阿里一直到现在。

深知大多数python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加v:vip1024c 备注python获取(资料价值较高,非无偿)
img

在这里插入图片描述

感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:

① 2000多本python电子书(主流和经典的书籍应该都有了)

② python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ python学习路线图(告别不入流的学习)

① 2000多本python电子书(主流和经典的书籍应该都有了)

② python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ python学习路线图(告别不入流的学习)

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com