当前位置: 代码网 > it编程>数据库>Nosql > GaussDB(DWS)基于Flink的实时数仓构建

GaussDB(DWS)基于Flink的实时数仓构建

2024年05月12日 Nosql 我要评论
深度解析GaussDB(DWS)+Flink如何增强湖仓增量数据在不同数据模型层之间的实时流动能力,如何为消息数据流提供高性能通用入库能力,又如何构建极致的端到端实时数仓解决方案。 ...

本文分享自华为云社区《gaussdb(dws)基于flink的实时数仓构建》,作者:胡辣汤。

大数据时代,厂商对实时数据分析的诉求越来越强烈,数据分析时效从t+1时效趋向于t+0时效,为了给客户提供极速分析查询能力,华为云数仓gaussdb(dws)基于流处理框架flink实现了实时数仓构建。在本期《gaussdb(dws)基于flink的实时数仓构建》的主题直播中,华为云数仓gaussdb(dws)解决方案专家eric老师,为您深度解析gaussdb(dws)+flink如何增强湖仓增量数据在不同数据模型层之间的实时流动能力,如何为消息数据流提供高性能通用入库能力,又如何构建极致的端到端实时数仓解决方案。

1、增量计算的背景

随着数智化时代的到来,数据量不断增长,为了充分挖掘数据价值,实时获取数据动态,gaussdb(dws)通过与流引擎flink结合,优化etl pipeline,从而数据分析时效实现t+0。

flink是一款开源的流处理框架,它能够实时处理大规模数据流,并具有高可靠性和高性能的特点。flink支持流式数据处理、批处理和图形处理等多种计算模式,并提供了丰富的api和工具,可以方便地进行数据处理和分析。gaussdb(dws)与flink结合构建下一代stream warehouse,实现增量计算,可以为用户提供更加全面、高效的数据处理和分析能力。

为什么需要增量计算能力?增量计算能力解决了哪些场景的痛点问题?

  • 高性能场景

一些需要高性能的典型场景如下:

(1)增量数据的实时etl并更新物化视图,秒级更新;

(2)数据在仓湖之间实时流动能力;

(3)实时流数据不落盘,直达实时大屏。

  • 数据入库场景

kafka的数据直接入湖

2、gaussdb(dws)+flink实现增量计算的架构设计

gaussdb(dws)与流引擎结合,实现企业数仓模型的分层、增量化加工,统一批流处理逻辑,一站式支持批、流、交互式、点查等多种场景,简化数据生产线架构复杂度,构建新一代实时增量数仓,满足企业日趋便捷化的数据生产线场景。

三大实时能力

gaussdb(dws)

flink

实时入出仓

提升入库性能,支持binlog表cdc功能,实现 “流表一体”

gaussdb(dws)对接flink元数据,gaussdb(dws)可以作为flink的源表、结果表

实时增量加工

支持基于数据流表达的增量加工

复杂sql下推gaussdb(dws),流表关联,多流关联等

实时查询

支持数据高效点查

gaussdb(dws)对接flink元数据,gaussdb(dws)可以作为flink的维表,支持维表点查

如下图,增量数据可以被流引擎实时地感知捕获到,并运行预置的增量计算任务,然后再写回到数仓的下一层模型里面。通过几次流引擎的迭代,使得贴源层的增量数据能迅速的反映到明细层以及最终的集市层,来支撑实时的bi报表分析、交互式分析等业务场景。

3、 gaussdb(dws)+flink增量计算能力图介绍

gaussdb(dws)结合flink的能力构建,涵盖以下四大功能:

catalog

打通flink元数据与湖仓元数据。

source

仓内表通过binlog将增量数据暴露出来让flink及时感知,从而驱动实时增量数据运算任务的开始。

source connector算子,可以将一些条件下推至仓中完成点查任务。

sink

sink connector算子可以将job中的数据写回数仓中。

流维

流维算子提供了流数据关联维表的能力。

gaussdb(dws)结合flink的非功能性构建:

  • ckpt建设

每个算子implements flink的指定接口,将计算中间结果持久化下去,并做到功能幂等,即可接入flink灾难恢复处理能力,做到job的端到端数据exactly once。

4、 生态工具streamer介绍

为了便于用户一键操作数据入库,gaussdb(dws)研发了streamer生态工具,用户不再需要自己写sql,只需要在ide中进行操作。

操作步骤如下:

第一步:配置kafka及数仓表。

第二步:创建pojo类分别对应kafka消息体及数仓表行数据。

第三步:编写自定义算子,实现自定义mapping功能。系统提供默认1对1 mapping算子,可直接使用。

本期分享到此结束,更多关于gaussdb(dws)产品技术解析、数仓产品新特性的介绍,请关注gaussdb(dws)开发者平台,gaussdb(dws)开发者平台为开发者们提供最新、最全的信息咨询,包括精品技术文章、最佳实践、直播集锦、热门活动、海量案例、智能机器人。让您学+练+玩一站式体验gaussdb(dws)。

gaussdb(dws)开发者平台链接:https://bbs.huaweicloud.com/contents/dws/learning.html

点击关注,第一时间了解华为云新鲜技术~

 

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com