前言
线上日志里突然出现大量这个错误:
deadlock found when trying to get lock; try restarting transaction
死锁是mysql高并发场景下的常见问题。偶尔一两次可以通过业务重试解决,但如果频繁出现,就需要从根本上排查和优化。
这篇整理mysql死锁的排查方法和预防策略。
一、查看死锁信息
mysql有个命令能看到最近一次死锁的详情:
show engine innodb status\g
输出很长,找latest detected deadlock这部分:
*** (1) transaction: update orders set status = 'paid' where id = 1001 *** (1) holds the lock(s): -- 持有orders表的锁 *** (1) waiting for this lock: -- 等inventory表的锁 *** (2) transaction: update inventory set quantity = quantity - 1 where product_id = 2001 *** (2) holds the lock(s): -- 持有inventory表的锁 *** (2) waiting for this lock: -- 等orders表的锁 *** we roll back transaction (2)
经典的死锁场景:事务a锁了orders等inventory,事务b锁了inventory等orders,互相等。
二、分析死锁原因
知道是哪两个sql了,回去翻代码。
原来下单逻辑里有两种调用顺序:
// 路径a:先改订单再扣库存 updateorderstatus(orderid, "paid"); decreaseinventory(productid, 1); // 路径b:先扣库存再改订单(另一个接口) decreaseinventory(productid, 1); updateorderstatus(orderid, "paid");
两个接口都在事务里,刚好并发了就死锁。
三、解决方案
最直接的办法:统一加锁顺序。
不管哪个接口,都先操作orders再操作inventory(或者反过来,总之要一致)。
// 统一顺序:先orders后inventory
@transactional
public void processorder(long orderid, long productid) {
updateorderstatus(orderid, "paid"); // 永远先锁orders
decreaseinventory(productid, 1); // 再锁inventory
}
如果涉及多条记录,按id排序:
list<long> ids = arrays.aslist(id1, id2, id3);
collections.sort(ids);
for (long id : ids) {
lockandprocess(id);
}
四、间隙锁导致的死锁
还有一种更诡异的死锁,两个事务操作的都不是同一行数据。
这通常是间隙锁的问题。rr隔离级别下,select ... for update如果没命中数据,会锁一个"间隙"。
比如user_id有1、5、10三条记录:
-- 事务a select * from orders where user_id = 3 for update; -- 没有user_id=3的数据,但会锁住(1,5)这个间隙 -- 事务b select * from orders where user_id = 7 for update; -- 锁住(5,10)这个间隙 -- 然后两边各自insert -- 事务a想插入user_id=6,要等(5,10)的间隙锁 -- 事务b想插入user_id=4,要等(1,5)的间隙锁 -- 死锁
解决办法:
- 改用rc隔离级别(间隙锁少很多,但要注意幻读)
- 用唯一索引精确查询,避免范围锁
set session transaction isolation level read committed;
五、缩小事务范围
还有个常见问题是事务太长。事务越长,持有锁的时间越久,死锁概率越高。
// 这种写法不好
@transactional
public void process() {
querydata(); // 查数据
callexternalapi(); // 调外部接口,可能很慢
updatedatabase(); // 更新数据库
}
// 改成这样
public void process() {
querydata();
callexternalapi(); // 外部调用放事务外面
updateintransaction();
}
@transactional
public void updateintransaction() {
updatedatabase(); // 只有真正需要事务的操作
}
六、监控与告警
建议加上监控:
# 简单脚本,每分钟检查死锁次数
deadlocks=$(mysql -e "show global status like 'innodb_deadlocks'" | awk 'nr==2{print $2}')
echo "$(date) deadlocks: $deadlocks" >> /var/log/deadlock.log
配合prometheus的话:
- alert: mysqldeadlock expr: increase(mysql_global_status_innodb_deadlocks[5m]) > 0 for: 1m
死锁次数涨了就告警,别等业务反馈才知道。
七、业务层重试
有些场景死锁确实很难完全避免,那就在业务层做重试:
int retry = 3;
while (retry-- > 0) {
try {
dotransaction();
break;
} catch (deadlockexception e) {
if (retry == 0) throw e;
thread.sleep(100); // 等一下再试
}
}
mysql检测到死锁会立即回滚一个事务,不会一直卡着,所以重试通常能成功。
总结
死锁本质是资源竞争问题,预防比解决更重要:
| 方法 | 效果 |
|---|---|
| 统一加锁顺序 | 最有效,从根本上避免死锁 |
| 缩小事务范围 | 减少锁持有时间 |
| 合理使用索引 | 减少锁的范围 |
| 降低隔离级别 | 减少间隙锁(rc级别) |
| 业务层重试 | 兜底方案 |
记住两点:统一加锁顺序、缩小事务范围,能解决大部分死锁问题。
到此这篇关于mysql死锁排查与预防实战的文章就介绍到这了,更多相关mysql死锁排查内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论