0

0

SQL数据库运维进阶_主从复制原理与延迟问题排查

冷炫風刃

冷炫風刃

发布时间:2026-01-09 08:21:08

|

348人浏览过

|

来源于php中文网

原创

MySQL主从复制依赖日志流转与线程协作实现准实时同步,延迟是链路中某环节拖慢的必然结果;排查需沿“主库写→网络传→从库存→从库执行”主线逐段验证,重点检查Slave_IO_Running、Slave_SQL_Running是否均为Yes,Seconds_Behind_Master是否持续≤30秒,以及Last_SQL_Error中的具体错误类型。

sql数据库运维进阶_主从复制原理与延迟问题排查

MySQL主从复制不是简单的“拷贝数据”,而是靠日志流转+线程协作实现的准实时同步。延迟不是偶然现象,是整个链路中某个环节被拖慢后的必然结果。排查的关键,是顺着“主库写→网络传→从库存→从库执行”这条主线,逐段验证状态和性能。

怎么看复制是否真的在跑

别只看show slave status\G里有没有报错,重点盯三个字段:

  • Slave_IO_RunningSlave_SQL_Running:必须都是 Yes。如果 IO 是 Yes、SQL 是 No,说明日志已拉到本地,但执行卡住了;反过来,IO 是 No,大概率是连不上主库或权限不对。
  • Seconds_Behind_Master:数值为 0 或个位数才算健康。持续大于 30 秒就要干预;超过 3600 秒(1 小时),基本属于严重延迟,需立即定位。
  • Last_SQL_Error:只要 SQL 线程停过,这里就留有痕迹。常见如“Duplicate entry”“Deadlock found”“Table doesn’t exist”,直接对应修复动作——清重、调重试逻辑、补表结构。

为什么从库总是追不上主库

延迟本质是“从库执行速度

  • 单线程回放扛不住并发:MySQL 5.6 以前默认 SQL 线程只能串行执行 relay log。主库 10 个线程写的事务,从库得一个一个重放,自然积压。升级到 5.7+ 并开启 slave_parallel_type = LOGICAL_CLOCK 可启用基于组提交的并行复制。
  • 大事务/大 DDL 拖垮节奏:主库一个 ALTER TABLE 耗时 20 分钟,从库 SQL 线程就得空转 20 分钟,期间所有后续事务全排队。拆分 DDL(如先建新表、逐步迁移、最后切换)、避免单事务操作超 5 万行,是硬约束。
  • 从库资源被其他查询抢占:报表、导出、未加索引的慢查会吃光 CPU 或磁盘 I/O,让 SQL 线程抢不到资源。建议把分析类查询路由到专用只读实例,或限制从库上非复制相关查询的并发度。
  • 硬件或配置不匹配:从库用机械盘而主库用 NVMe,或从库内存只有主库一半,都会导致 relay log 写入慢、SQL 执行慢。监控 iostat -x 1top,重点关注 %util、await、%CPU us/sy。

怎么快速定位卡在哪一步

按顺序查,别跳步:

PodLM
PodLM

PodLM是一款强大的AI播客生成工具

下载
  • 先确认主库 binlog 是否正常生成:show master status,看 File 和 Position 是否在动;再查 show binary logs,确认日志没被意外 purge。
  • 再到从库查 show slave status\G,对比 Master_Log_File / Read_Master_Log_Pos(IO 线程读到哪)和 Relay_Master_Log_File / Exec_Master_Log_Pos(SQL 线程执行到哪)。如果前者远超后者,说明日志已拉过来但没执行完;如果两者接近但 Seconds_Behind_Master 很大,问题大概率在 SQL 线程执行层。
  • 进一步查 show processlist,找 State 为 Reading event from the relay logexecuting 的线程,结合 information_schema.innodb_trx 看它是否卡在某个大事务里。
  • 最后解析 relay log:mysqlbinlog --base64-output=decode-rows -v host-relay-bin.000001 | grep -A 2 -B 2 "INSERT\|UPDATE\|DELETE",确认当前积压的操作类型和影响行数。

日常该做哪些预防动作

延迟不是等出了问题才处理,而是靠习惯防出来:

  • 主从服务器硬件配置尽量对齐,尤其磁盘类型和内存容量;
  • 从库关闭 query cache(已废弃)、禁用 autocommit 外的长事务、定期 optimize table(谨慎);
  • 所有 DDL 操作走变更评审流程,禁止在业务高峰期执行;
  • 监控项必须覆盖:Seconds_Behind_MasterRelay_Log_SpaceThreads_connected、磁盘使用率;
  • 测试环境模拟主库高并发写入(如 sysbench oltp_write_only),提前验证从库吞吐能力。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

676

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

320

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

346

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1094

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

357

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

675

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

571

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

412

2024.04.29

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

3

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 1.7万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 785人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号