增量数据处理
这一节我们不讲技术,讲一个故事,关于数据同步这一块的落地方案可以参考我们之前的文章
因为我们的数据同步本质上也是为了解决业务需求,或者说是解决业务需求的第一步,如果这一步都有问题,那后面就是负重前行了
问题背景
这是我们一位技术人员在做商业智能bi项目的时候问到的一个的问题,我们在内部也做了下复盘,觉得有些价值和启发,跟大家也分享一下。
比如像历史订单数据量比较大,所以按道理应该每天做增量抽取,按时间日期戳抽取最新一天的数据。但问题就在于这个订单信息业务部门昨天提交了,数据也被加载到数据仓库了,但这个订单隔了几天之后业务部门可能重新修改了,这样就造成已经进入到商业智能bi数据仓库的历史订单数据就不准确了
那我就问,你在这个商业智能bi项目上是如何处理的。技术人员回答说我们是全删全查,每天etl抽取的时候将数据仓库的数据先删除掉,然后再重新查询进来。但是历史订单数据量很大,可能还存了好几年的,每次全删全查,这种效率就很低。
那我就问,为什么不换种方式呢?比如在这个商业智能bi项目数据仓库中删除最近30天的历
发表评论