文档名称
mysql高可用架构:主从复制原理与读写分离实践
mysql 主从复制的核心是基于二进制日志 的数据同步机制。简而言之,主库将变更写入 binlog,从库通过 io 线程拉取并写入 relay log,再由 sql 线程回放。
三大核心线程
- 主库 dump 线程:主库为每个从库启动一个线程,负责读取 binlog 事件并发送给从库。需要注意的是,读取操作会在 binlog 上加锁,读取完成后释放,以保证日志的完整性。
- 从库 io 线程:连接主库并请求 binlog,将接收到的数据写入本地的 relay log(中继日志)。
- 从库 sql 线程:读取 relay log 中的事件,在从库本地重放(replay),从而更新数据。
一、核心概念体系
1.1 主从复制基础架构
-- 架构示意图
master (主库) → binary log → relay log → slave (从库)
↓
write operations read operations
1.2 复制类型对比
| 复制类型 | 数据一致性 | 性能影响 | 适用场景 |
|---|---|---|---|
| 异步复制 | 最终一致 | 低延迟 | 读写分离 |
| 半同步复制 | 较强一致 | 中等延迟 | 金融交易 |
| 全同步复制 | 强一致 | 高延迟 | 数据强一致 |
二、主从复制工作原理
2.1 二进制日志(binlog)格式
-- 查看当前binlog格式 show variables like 'binlog_format'; -- 三种格式对比 -- 1. statement: 记录sql语句 -- 2. row: 记录行数据变更(推荐) -- 3. mixed: 混合模式
2.2 复制工作流程
-- master端配置示例 -- my.cnf配置 [mysqld] server-id = 1 log-bin = mysql-bin binlog_format = row expire_logs_days = 7 max_binlog_size = 100m sync_binlog = 1 -- 创建复制用户 create user 'repl'@'%' identified by 'repl123456'; grant replication slave on *.* to 'repl'@'%'; -- 查看master状态 show master status; /* +------------------+----------+--------------+------------------+ | file | position | binlog_do_db | binlog_ignore_db | +------------------+----------+--------------+------------------+ | mysql-bin.000001 | 107 | | | +------------------+----------+--------------+------------------+ */
2.3 slave端配置
-- my.cnf配置
[mysqld]
server-id = 2
relay-log = mysql-relay-bin
read_only = 1
log_slave_updates = 1
-- 配置复制链路
change master to
master_host = 'master_host',
master_user = 'repl',
master_password = 'repl123456',
master_port = 3306,
master_log_file = 'mysql-bin.000001',
master_log_pos = 107,
master_connect_retry = 60,
master_heartbeat_period = 10;
-- 启动复制
start slave;
-- 查看复制状态
show slave status\g
/*
slave_io_running: yes # i/o线程状态
slave_sql_running: yes # sql线程状态
seconds_behind_master: 0 # 复制延迟秒数
last_io_error: # 最后io错误
last_sql_error: # 最后sql错误
*/
三、主从延迟分析与优化
3.1 延迟原因深度分析
3.1.1 硬件资源瓶颈
-- 监控指标查询 -- 磁盘io性能 show global status like 'innodb_data_%'; -- 网络延迟检测 -- master执行 select now(); -- slave执行对比时间差 -- cpu负载 show processlist;
3.1.2 配置参数影响
-- 关键参数检查 show variables like '%sync_binlog%'; -- 建议=1 show variables like '%innodb_flush_log_at_trx_commit%'; -- 建议=1 show variables like '%slave_parallel_workers%'; -- 并行复制 show variables like '%slave_parallel_type%'; -- logical_clock
3.2 延迟监控方案
-- 创建延迟监控表
create table replication_monitor (
id bigint auto_increment primary key,
check_time datetime default current_timestamp,
slave_host varchar(50),
seconds_behind_master int,
slave_io_running varchar(3),
slave_sql_running varchar(3),
last_io_error text,
last_sql_error text,
key idx_check_time (check_time)
);
-- 监控存储过程
delimiter $$
create procedure monitor_replication_lag()
begin
declare v_seconds_behind_master int;
declare v_slave_io_running varchar(3);
declare v_slave_sql_running varchar(3);
declare v_last_io_error text;
declare v_last_sql_error text;
select
seconds_behind_master,
slave_io_running,
slave_sql_running,
last_io_error,
last_sql_error
into
v_seconds_behind_master,
v_slave_io_running,
v_slave_sql_running,
v_last_io_error,
v_last_sql_error
from performance_schema.replication_applier_status_by_worker
where channel_name = '';
insert into replication_monitor
(slave_host, seconds_behind_master, slave_io_running,
slave_sql_running, last_io_error, last_sql_error)
values
(@@hostname, v_seconds_behind_master, v_slave_io_running,
v_slave_sql_running, v_last_io_error, v_last_sql_error);
end$$
delimiter ;
-- 创建定时事件
create event if not exists monitor_replication_event
on schedule every 30 second
do call monitor_replication_lag();
3.3 优化策略实践
3.3.1 并行复制配置
-- mysql 5.7+ 并行复制配置 stop slave; set global slave_parallel_type = 'logical_clock'; set global slave_parallel_workers = 8; -- 根据cpu核心数调整 start slave; -- 查看并行复制状态 show variables like 'slave_parallel%'; select * from performance_schema.replication_applier_status_by_worker;
3.3.2 大事务优化
-- 1. 拆分大事务 -- 不推荐 start transaction; insert into large_table select * from huge_source; -- 百万行 commit; -- 推荐:分批提交 set autocommit = 0; insert into large_table select * from huge_source limit 10000; commit; -- 循环处理... -- 2. 使用pt-online-schema-change避免ddl锁表 -- 示例命令 pt-online-schema-change \ --alter="add index idx_name (name)" \ d=test,t=large_table \ --execute
3.3.3 网络优化配置
-- 增大复制缓冲区 set global slave_net_timeout = 60; -- 默认60秒 set global slave_compressed_protocol = on; -- 开启压缩 -- master端增大binlog缓存 set global binlog_cache_size = 4m; set global max_binlog_size = 512m;
四、读写分离实现方案
4.1 应用层分离方案
// spring boot + mybatis 多数据源配置示例
@configuration
public class datasourceconfig {
@primary
@bean(name = "masterdatasource")
@configurationproperties(prefix = "spring.datasource.master")
public datasource masterdatasource() {
return datasourcebuilder.create().build();
}
@bean(name = "slavedatasource")
@configurationproperties(prefix = "spring.datasource.slave")
public datasource slavedatasource() {
return datasourcebuilder.create().build();
}
@bean(name = "dynamicdatasource")
public datasource dynamicdatasource() {
map<object, object> targetdatasources = new hashmap<>();
targetdatasources.put("master", masterdatasource());
targetdatasources.put("slave", slavedatasource());
dynamicdatasource dynamicdatasource = new dynamicdatasource();
dynamicdatasource.settargetdatasources(targetdatasources);
dynamicdatasource.setdefaulttargetdatasource(masterdatasource());
return dynamicdatasource;
}
}
// 自定义路由数据源
public class dynamicdatasource extends abstractroutingdatasource {
@override
protected object determinecurrentlookupkey() {
// 根据注解选择数据源
return dynamicdatasourcecontextholder.getdatasourcetype();
}
}
// 自定义注解
@target({elementtype.method, elementtype.type})
@retention(retentionpolicy.runtime)
@documented
public @interface datasource {
string value() default "master";
}
// 使用示例
@service
public class userservice {
@datasource("master")
public void createuser(user user) {
// 写操作,使用主库
usermapper.insert(user);
}
@datasource("slave")
public user getuserbyid(long id) {
// 读操作,使用从库
return usermapper.selectbyid(id);
}
}
4.2 中间件方案(proxysql示例)
-- 1. 安装后配置后端服务器
insert into mysql_servers(hostgroup_id, hostname, port)
values
(10, 'master_host', 3306), -- 写组
(20, 'slave1_host', 3306), -- 读组
(20, 'slave2_host', 3306);
-- 2. 配置监控用户
update global_variables
set variable_value='monitor'
where variable_name='mysql-monitor_username';
update global_variables
set variable_value='monitor_password'
where variable_name='mysql-monitor_password';
-- 3. 配置路由规则
-- 写操作路由到hostgroup 10
insert into mysql_query_rules (rule_id, active, match_digest, destination_hostgroup, apply)
values
(1, 1, '^insert', 10, 1),
(2, 1, '^update', 10, 1),
(3, 1, '^delete', 10, 1),
(4, 1, '^select.*for update', 10, 1);
-- 读操作路由到hostgroup 20
insert into mysql_query_rules (rule_id, active, match_digest, destination_hostgroup, apply)
values
(5, 1, '^select', 20, 1);
-- 4. 加载配置
load mysql servers to runtime;
save mysql servers to disk;
load mysql query rules to runtime;
save mysql query rules to disk;
-- 5. 配置读写分离用户
insert into mysql_users(username, password, default_hostgroup)
values ('app_user', 'password', 10);
4.3 延迟感知路由
// 延迟感知的负载均衡策略
public class lagawareloadbalance {
private list<slaveinfo> slaves = new arraylist<>();
private static final int max_lag_threshold = 5; // 最大允许延迟5秒
public datasource selectslave() {
list<slaveinfo> availableslaves = slaves.stream()
.filter(s -> s.getlagseconds() <= max_lag_threshold)
.collect(collectors.tolist());
if (availableslaves.isempty()) {
// 所有从库延迟过高,降级到主库
return masterdatasource;
}
// 加权随机选择(延迟越低权重越高)
return selectbyweight(availableslaves);
}
private datasource selectbyweight(list<slaveinfo> slaves) {
int totalweight = slaves.stream()
.maptoint(s -> calculateweight(s.getlagseconds()))
.sum();
int random = new random().nextint(totalweight);
int current = 0;
for (slaveinfo slave : slaves) {
current += calculateweight(slave.getlagseconds());
if (random < current) {
return slave.getdatasource();
}
}
return slaves.get(0).getdatasource();
}
private int calculateweight(int lagseconds) {
// 延迟越低,权重越高
return math.max(10 - lagseconds, 1);
}
}
五、故障处理与恢复
5.1 常见故障处理
-- 1. 主从复制中断 -- 查看错误信息 show slave status\g -- 常见错误1:主键冲突 -- 解决方案:跳过错误 stop slave; set global sql_slave_skip_counter = 1; start slave; -- 或指定gtid跳过 stop slave; set gtid_next='aaa-bbb-ccc-ddd:n'; begin; commit; set gtid_next='automatic'; start slave; -- 2. 数据不一致修复 -- 使用pt-table-checksum检查 pt-table-checksum \ --replicate=test.checksums \ --databases=your_db \ h=master_host,u=user,p=password -- 使用pt-table-sync修复 pt-table-sync \ --execute \ --replicate test.checksums \ h=master_host,u=user,p=password \ h=slave_host,u=user,p=password -- 3. 重新同步数据 -- 方法1:使用mysqldump -- master端 mysqldump --master-data=2 --single-transaction -uroot -p dbname > dbname.sql -- slave端 stop slave; source dbname.sql; start slave; -- 方法2:使用xtrabackup # master备份 xtrabackup --backup --target-dir=/backup/master/ # slave恢复 xtrabackup --prepare --target-dir=/backup/master/ xtrabackup --copy-back --target-dir=/backup/master/
5.2 高可用架构
-- mha (master high availability) 配置示例 -- 1. 配置ssh免密登录 -- 2. 编辑配置文件 /etc/mha/app1.cnf [server default] manager_workdir=/var/log/mha/app1 manager_log=/var/log/mha/app1/manager.log ssh_user=mysql user=repl password=repl123456 repl_user=repl repl_password=repl123456 [server1] hostname=master_host candidate_master=1 [server2] hostname=slave1_host candidate_master=1 [server3] hostname=slave2_host no_master=1 -- 3. 启动mha监控 masterha_manager --conf=/etc/mha/app1.cnf
六、监控与告警体系
6.1 prometheus监控配置
# prometheus.yml 配置
scrape_configs:
- job_name: 'mysql'
static_configs:
- targets: ['master_host:9104', 'slave1_host:9104']
params:
collect[]:
- global_status
- slave_status
- info_schema.innodb_metrics
# mysqld_exporter启动
./mysqld_exporter \
--collect.slave_status \
--collect.info_schema.innodb_metrics \
--collect.global_status \
--web.listen-address=":9104"
6.2 grafana监控面板
// 关键监控指标
{
"panels": [
{
"title": "复制延迟",
"targets": [{
"expr": "mysql_slave_status_seconds_behind_master",
"legendformat": "{{instance}}"
}],
"thresholds": [
{"color": "green", "value": 0},
{"color": "yellow", "value": 5},
{"color": "red", "value": 30}
]
},
{
"title": "复制线程状态",
"targets": [{
"expr": "mysql_slave_status_slave_io_running",
"legendformat": "io线程 {{instance}}"
}]
}
]
}
6.3 告警规则
# alertmanager配置
groups:
- name: mysql_alerts
rules:
- alert: highreplicationlag
expr: mysql_slave_status_seconds_behind_master > 30
for: 2m
labels:
severity: warning
annotations:
summary: "mysql复制延迟过高"
description: "实例 {{ $labels.instance }} 复制延迟已达 {{ $value }} 秒"
- alert: slavenotrunning
expr: mysql_slave_status_slave_io_running == 0 or mysql_slave_status_slave_sql_running == 0
for: 1m
labels:
severity: critical
annotations:
summary: "mysql从库复制停止"
七、最佳实践总结
7.1 配置清单
-- 主库配置要点 [mysqld] server-id = 1 log-bin = mysql-bin binlog_format = row expire_logs_days = 7 sync_binlog = 1 innodb_flush_log_at_trx_commit = 1 -- 从库配置要点 [mysqld] server-id = 2 relay-log = mysql-relay-bin read_only = 1 log_slave_updates = 1 slave_parallel_type = logical_clock slave_parallel_workers = 4
7.2 维护脚本
#!/bin/bash
# 复制状态检查脚本
check_replication() {
local host=$1
local user=$2
local password=$3
result=$(mysql -h$host -u$user -p$password -e "show slave status\g")
io_running=$(echo "$result" | grep "slave_io_running" | awk '{print $2}')
sql_running=$(echo "$result" | grep "slave_sql_running" | awk '{print $2}')
lag=$(echo "$result" | grep "seconds_behind_master" | awk '{print $2}')
if [ "$io_running" = "yes" ] && [ "$sql_running" = "yes" ]; then
echo "replication is running. lag: ${lag} seconds"
if [ $lag -gt 30 ]; then
echo "warning: high replication lag detected!"
return 2
fi
return 0
else
echo "error: replication is broken!"
return 1
fi
}
# 定期检查
while true; do
check_replication "slave_host" "monitor" "password"
sleep 60
done
7.3 性能优化检查表
- 使用row格式的binlog
- 开启并行复制
- 合理设置innodb_buffer_pool_size
- 监控和优化慢查询
- 定期清理无用binlog
- 配置适当的网络超时时间
- 实现延迟感知的路由策略
- 建立完善的监控告警体系
结论
mysql主从架构是企业级应用的基础架构,合理配置和优化主从复制、有效管理主从延迟、智能实现读写分离是保障系统稳定性和扩展性的关键。本文提供了从基础配置到高级优化的完整解决方案,结合实际案例代码,可以帮助开发者构建高性能、高可用的数据库架构。
建议根据实际业务场景选择合适的复制策略和读写分离方案,并建立完善的监控体系,确保数据库服务的稳定可靠。
到此这篇关于mysql主从架构原理、优化与实践指南全解析的文章就介绍到这了,更多相关mysql主从架构原理内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论