当前位置: 代码网 > it编程>前端脚本>Python > 2024年大数据领域的主流分布式计算框架有哪些

2024年大数据领域的主流分布式计算框架有哪些

2024年07月31日 Python 我要评论
2024年大数据领域的主流分布式计算框架介绍

apache spark

适用场景

以批处理闻名,有专门用于机器学习的相关类库进行复杂的计算,有sparksql可以进行简单的交互式查询,也可以使用dataset,rdd,dataframe进行复杂的etl操作。

关键词

  • 处理数据量大
  • 批计算
  • 微批计算(可以理解成支持流计算)
  • 机器学习(丰富的类库)
  • sql查询(操作简单)
  • 内存计算(计算效率高,相对mapreduce而言)
  • 内存开销大(通过sparkconf配置driver/executor参数,详见spark内存管理模型,主要依赖于jvm进行内存回收)
  • 抽象出了rdd进行操作,开发相对简单,又可以写比sql复杂的etl操作

社区活跃程度:非常活跃

近一年,2023.6至2024.6,大约每周70个commit左右
在这里插入图片描述

apache flink

适用场景

具有高吞吐量、低延迟、容错性强等特点。比如实时告警系统,日志实时分析,金融交易异常检测。

关键词

  • 流计算(天生设计是为了进行流计算,不像spark通过微批来实现流计算)
  • 事件驱动,响应快
  • 流批一体,通过统一的编程模型,可以实现开发一套代码,同时进行流处理、批处理
  • 数据集成,flink支持多种数据源,如kafka,hdfs,cassandra,elasticsearch

社区活跃程度:活跃

近一年,2023.6至2024.6,大约每周30个commit左右
在这里插入图片描述

apache storm

适用场景

具有高吞吐量、低延迟、容错性强等特点。比如实时告警系统,日志实时分析,金融交易异常检测。

关键词

  • 流计算,实时处理
  • 可靠性和容错性,节点故障自动重启和恢复任务
  • 水平扩展
  • 数据集成,支持多种数据源,如kafka,hdfs,cassandra

社区活跃程度:不活跃

近一年,2023.6至2024.6,大约每周不到10个commit
在这里插入图片描述

apache beam

适用场景

beam侧重点是一种编程模型,编写一次,可以运行在不同的流批引擎,有点像flink提供的流批一体能力。减轻了开发人员学习各个引擎的特点,调优方法,让开发人员聚焦于业务逻辑。如果更侧重于性能,那毫不犹豫地应该选择具体的引擎比如spark,flink。但如果是为了更加通用的实现业务逻辑,可以使用beam,避免将大量时间花费对各个引擎的学习。

关键词

  • 统一的编程模型:用于定义和执行大规模的数据处理任务。它旨在提供一种通用的编程接口,可以在不同的执行引擎上运行
  • 批处理和流处理:提供统一的编程模型来处理有界和无界的数据集。
  • 跨平台执行:beam 的跨平台执行能力使得用户可以选择最适合其需求的执行引擎,并在不同执行引擎之间轻松迁移。
  • 窗口化和触发器:beam 的窗口化和触发器机制使得处理无界数据流更加灵活和高效,适用于实时数据处理和分析。

社区活跃程度:活跃

近一年,2023.6至2024.6,大约每周50个commit
在这里插入图片描述

总结

就以上介绍的4个框架来说。
如果要进行机器学习,毫不犹豫地选择spark。
如果不需要流计算,或者流计算要求不高,可以使用spark,比flink发展更成熟。
如果业务场景明确需要流计算(实时,低延迟,高吞吐量),毫不犹豫地选择flink。
如果想聚焦业务逻辑,对性能要求不高,可以使用beam。
storm几乎可以说完全被flink超越了,社区活跃程度flink远超过storm。从性能上来看,可以见美团技术写的这篇博客(https://tech.meituan.com/2017/11/17/flink-benchmark.html)该篇文章对flink和storm进行了性能测试,从不同场景,数据量进行了测试。如果没有历史包袱,从头选择流处理框架,可以毫不犹豫地选择flink。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com