在使用 mysql 做主从复制、高可用架构以及数据恢复时,你一定会遇到一个关键问题:
- binlog 到底应该选择哪种格式?
- statement、row、mixed 有什么区别?
- 是否会影响主从一致性、性能、日志大小?
网上资料大多只讲概念,不讲“为什么这样设计、实际工程里应该怎么选”。
这篇文章蒜皮会从 原理机制 → 真实案例 → 实战选择 三条线讲透,让你彻底理解这三种格式的本质差异。
一、binlog 是什么?为什么格式如此重要?(应用视角理解)
binlog(binary log)是 mysql 最重要的日志之一,用途包括:
- 主从复制
- 主库崩溃后的数据恢复
- 回滚误删数据(闪回)
- 追溯历史变更
- cdc 变更流服务(debezium、canal)
而 binlog 的格式决定:
- 记录内容的粒度(sql 级 vs 行级)
- 从库能否完整重放主库行为
- 是否会产生主从不一致
- 日志大小、复制性能、系统吞吐
这就是 binlog 格式如此关键的原因。
mysql 提供三种格式:
- statement:记录 sql
- row:记录每行变更
- mixed:混合模式,由 mysql 自行判断
接下来我把每一种讲透,让你真正理解区别。
二、statement 格式:记录的是 sql(轻量但风险最大)
statement binlog 记录的内容是 “你执行的 sql 文本”。
例如:
update user set score = score + 1 where id = 1;
binlog 内容类似:
statement: update user set score = score + 1 where id = 1;
优点(非常明显)
- binlog 最小
- 写入速度最快
- 主从同步压力最低
- 非常节省 io
这在 数据量巨大、有大量写入 的系统中很有吸引力。
缺点(致命且不可忽视)
很多 sql 是“不确定的”,比如:
now()uuid()rand()load_file()limitcurrent_timestamp- 非唯一条件 where(可能锁不同的行)
例如:
update user set last_login = now() where id = 100;
主库时间与从库时间不一致,会造成:
主从数据不一致(fatal)。
这也是为什么 statement 已经 不推荐在生产环境使用。
三、row 格式:记录的是行级变化(最安全)
row binlog 记录每一行的变动,而不是 sql。
同样一条 sql:
update user set score = score + 1 where id = 1;
row 格式 binlog 会生成:
before image: {id:1, score:99}
after image: {id:1, score:100}
注意:并非一个 sql 一条日志,而是每行变化一条日志。
这意味着:
- sql 有没有随机函数都没关系
- sql 有没有副作用都没关系
- sql 有没有 where 条件都没关系
从库只需要:
拿着 row 日志按顺序重放即可,100% 重现主库行为。
优点(强一致系统首选)
- 主从几乎不可能不一致
- 任何 sql 都能正确重放
- 支持闪回、审计、cdc 等上层应用
- 对数据恢复非常友好
这就是支付、订单、核心交易系统统一使用 row 模式的原因。
缺点(唯一明显的缺点)
- 日志可能非常巨大
- 批量操作日志量数十倍增加
- io 变高
- 复制压力变大
例如:
update user set status=1 where level in (1,2,3)
如果影响 50 万行 → row event 就会产生 50 万条。
对磁盘、网络、从库重放压力巨大。
四、mixed 格式:两种模式的折中(让 mysql 自动判断)
mixed 模式是:
- sql 确定性 → 记录为 statement
- sql 不安全/不确定性 → 记录为 row
例如:
update user set score = score + 1 where id = 1; → statement update user set last_login = now(); → row
mixed 本质上是一个“自动策略引擎”。
优点
- 大部分查询走 statement(轻量)
- 存在风险时自动降级为 row(安全)
- 兼顾性能和安全
- 是很多互联网业务的默认选择
缺点
- 日志格式不可控
- 运维审计不稳定(同一业务可能输出两种格式)
- 不能用于某些严格一致场景(ftx、交易)
五、怎么选择 binlog 格式
选择策略非常简单:
① 金融、支付、订单、交易系统 → 必须 row
原因:
- 不能丢数据
- 不能出现主从不一致
- 必须完全可重放
这是行业硬规则。
② 大部分互联网业务 → mixed 最合适
理由:
- 性能与一致性平衡
- 主从延迟不至于太大
- 运维成本可控
- 写操作规模不算巨大时,row 的劣势可以接受
③ 写很少的系统 或 离线数据仓库 → statement
如:
- 报表
- 数据同步平台
- olap 系统
原因:
- 写少 → 不一致风险小
- 读多 → 记录 sql 最轻量
六、总结:理解 binlog 格式,就是理解 mysql 复制的底层逻辑
一句话总结全文:
statement 更轻但不安全,row 最安全但最大,mixed 是折中策略。强一致用 row,一般业务用 mixed,读多写少可考虑 statement。
binlog 格式不是一个简单参数,而是以下的关键设计点:
- 主从复制是否可靠
- 数据恢复是否完整
- 业务安全性是否有保障
到此这篇关于mysql binlog三种格式(statement / row / mixed)的深度解析的文章就介绍到这了,更多相关mysql binlog内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论