当前位置: 代码网 > 科技>人工智能>数据分析 > 数仓建模—增量数据处理

数仓建模—增量数据处理

2024年08月04日 数据分析 我要评论
数据同步方案可以参考以前的文章永远从业务的角度出发去理解问题,尤其是遇到不合理的,不用着急从技术上去寻找解决方案。

增量数据处理

这一节我们不讲技术,讲一个故事,关于数据同步这一块的落地方案可以参考我们之前的文章

数仓建模—美团db数据同步到数据仓库的架构与实践

因为我们的数据同步本质上也是为了解决业务需求,或者说是解决业务需求的第一步,如果这一步都有问题,那后面就是负重前行了

问题背景

这是我们一位技术人员在做商业智能bi项目的时候问到的一个的问题,我们在内部也做了下复盘,觉得有些价值和启发,跟大家也分享一下。

比如像历史订单数据量比较大,所以按道理应该每天做增量抽取,按时间日期戳抽取最新一天的数据。但问题就在于这个订单信息业务部门昨天提交了,数据也被加载到数据仓库了,但这个订单隔了几天之后业务部门可能重新修改了,这样就造成已经进入到商业智能bi数据仓库的历史订单数据就不准确了

那我就问,你在这个商业智能bi项目上是如何处理的。技术人员回答说我们是全删全查,每天etl抽取的时候将数据仓库的数据先删除掉,然后再重新查询进来。但是历史订单数据量很大,可能还存了好几年的,每次全删全查,这种效率就很低。

那我就问,为什么不换种方式呢?比如在这个商业智能bi项目数据仓库中删除最近30天的历

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com