Apache Iceberg 底层数据查询原理解析_Mysql

apache iceberg 概述-链接

apache iceberg 底层数据存储

iceberg 数据组织图（hdfs）: 5个snapshot对应5个manifest list清单列表。

1.查询最新快照数据

获取最新元数据
获取 iceberg 表的最新元数据文件，eg：00000-ec504.metadata.json。

解析元数据
从元数据文件中提取以下信息：

当前表的快照 id：949358624197301886
所有快照信息：在 json 中的 snapshots 数组。

获取快照文件信息
根据快照 id，找到对应的 avro 文件信息，eg：snap--32800.avro。

在该快照文件中，提取 manifest file清单文件信息：

*32800-m0.avro
*2abba-m0.avro
*d33de-m0.avro
*748bf-m0.avro
*b946e-m0.avro

读取最新数据
读取以上 manifest file清单文件中描述的 parquet 数据文件（data files）。

分析 snap 文件
在 snap--32800.avro 文件中，可以找到以下属性：

deleted data files count
added data files count
existing data files count

判断数据文件状态
iceberg 根据 deleted data files count 判断是否存在被删除的数据：

如果该值大于 0，表示对应的 manifest 文件中有已删除的数据。读取数据时，无需读取这些被删除的文件。

manifest 清单文件分析
根据 manifest 清单文件，找到对应的 parquet 文件存储位置。
每个 manifest 文件中有 status 属性：

1：代表对应的 parquet 文件为新增文件，需要读取。

2：代表 parquet 文件被删除。

2.查询指定快照（历史快照）数据

apache iceberg 支持查询历史上任何时刻的快照。

要查询特定快照，需要指定 snapshot-id 属性，可以通过 spark 或 flink 实现。

在 spark 中查询指定快照的数据：

spark.read
  .option("snapshot-id", 6155488348798912701l)
  .format("iceberg")
  .load("path")

查询某个快照数据的原理：

指定快照 id
在读取数据时，通过 snapshot-id 指定要查询的快照。

查找快照信息
iceberg 会根据指定的快照 id 检索相关的元数据（如下metadata里面的snapshots数组），包括快照中包含的数据文件和 manifest 文件。

3.根据时间戳查询某个快照数据

apache iceberg 支持通过 as-of-timestamp 参数读取特定时间戳的快照数据，通常也是通过 spark 或 flink 实现。

在 spark 中根据时间戳查询数据：

spark.read
  .option("as-of-timestamp", "时间戳")
  .format("iceberg")
  .load("path")

指定时间戳
使用 as-of-timestamp 指定要查询的时间点。

查找快照信息
iceberg 将查找与时间戳对应的快照，利用 *.metadata.json 文件中的信息。

属性解析
在元数据文件中，除了 current-snapshot-id 和 snapshots 属性外，还有一个 snapshot-log 属性，该属性记录了快照的历史信息。

到此这篇关于apache iceberg - 底层数据查询原理的文章就介绍到这了,更多相关apache iceberg原理内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

Linux系统重启后MySQL数据丢失问题的解决步骤

1 问题描述想象一下这样一个场景:你的linux服务器因为某些原因需要重启。重启完成后,你突然发现mysql服务无法启动了。更糟糕的是,你发现原来挂载的磁盘不见了,重要的数据也随之…

2024年09月26日 • 数据库

Mysql主从同步如何重置

背景服务器强制重启，导致mysql主从数据库出现数据不一致问题，主从数据库数据相差较大，无法完成数据同步，出现报错。因此，需要进行主从同步重置操作。1. 首先对... [阅读全文]

Mysql主从GTID与binlog的区别及说明

mysql主从gtid与binlog的区别最近在公司看到之前数据库的同步是同步gtid进行搭建主从的，我也是第一次遇到，下面来一起学习一下他们跟我们常使用的bi... [阅读全文]

Mysql主从GTID与binlog如何使用

mysql主从gtid与binloggtid与binlogmysql gtid（global transaction identifier）和binlog（二进... [阅读全文]

MySQL主从复制基于binlog与GTID详解

一、基于binlog的主从复制搭建1、准备环境提前准备三台搭建了mysql以及关闭防火墙的linux,并保证三台mysql起始数据一致实战中最好是新的mysql，方便操作如果无法新…

2024年10月04日 • 数据库

Flume如何自定义Sink数据至MySQL

flume自定义sink数据至mysql一、介绍sink不断地轮询channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一... [阅读全文]


验证码：

验证码：

Apache Iceberg 底层数据查询原理解析

2024年09月28日 • Mysql •我要评论

1.查询最新快照数据

3.根据时间戳查询某个快照数据

相关文章:

Linux系统重启后MySQL数据丢失问题的解决步骤

MySQL主从复制基于binlog与GTID详解

发表评论