mysql如何排查mysqld服务异常

P粉602998670

发布时间：2025-09-21 08:09:01

751人浏览过

来源于php中文网

原创

排查MySQL服务异常需先确认服务状态，检查是否停止或响应异常；接着查看错误日志定位OOM、表损坏、连接数超限等问题；分析资源占用情况，排查CPU、内存、磁盘I/O瓶颈；启用慢查询日志优化SQL性能；检查max_connections限制及配置参数合理性；审查代码是否存在死循环或高频操作；确保磁盘空间充足；通过systemd配置自动重启机制；使用SHOW ENGINE INNODB STATUS或开启innodb_print_all_deadlocks诊断死锁；利用Performance Schema、PMM、Prometheus+Grafana等工具监控QPS、TPS、连接数、锁等待等关键指标。

mysql如何排查mysqld服务异常

MySQL服务异常，排查方向主要集中在资源占用、错误日志、配置问题以及代码层面。简单来说，就是看它有没有“吃饱喝足”，有没有“生病”，以及“干活的工具”和“干活的方式”对不对。

解决方案

确认服务状态： 首先，最基础的，确认MySQL服务是否真的停止了。使用
```
systemctl status mysqld
```
或者
```
service mysqld status
```
查看服务状态。如果服务是inactive (dead)，那基本可以确定服务确实异常停止了。如果服务还在运行，但表现异常（例如连接超时），则需要进一步排查。
查看错误日志： MySQL的错误日志是诊断问题的关键。默认情况下，错误日志文件名为
```
error.log
```
，通常位于
```
/var/log/mysql/
```
或
```
/var/log/
```
目录下。检查最近的错误信息，例如：
```
tail -n 100 /var/log/mysql/error.log
```
。常见的错误包括：
- Out of memory (OOM): 内存不足导致MySQL进程被操作系统杀死。
- Table is marked as crashed and should be repai red: 表损坏。
- Duplicate entry: 唯一键冲突。
- Too many connections: 连接数超过限制。
资源占用情况： 使用
```
top
```
、
```
htop
```
或
```
vmstat
```
等工具查看CPU、内存、磁盘I/O的使用情况。MySQL服务异常停止很可能是因为服务器资源耗尽。如果CPU使用率持续过高，可能是存在慢查询或者死锁。如果内存使用率过高，可能是
```
innodb_buffer_pool_size
```
设置过大，或者存在内存泄漏。磁盘I/O过高，可能是数据量太大，或者存在大量的磁盘操作。
慢查询日志： 如果服务未停止，但性能下降，检查慢查询日志。启用慢查询日志：
```
SET GLOBAL slow_query_log = 'ON';
SET GLOBAL long_query_time = 2; -- 设置慢查询时间阈值为2秒
SET GLOBAL slow_query_log_file = '/var/log/mysql/mysql-slow.log';
```
分析慢查询日志，找出执行时间长的SQL语句，优化索引或SQL语句本身。
连接数限制： 默认情况下，MySQL的最大连接数是有限制的。如果连接数超过限制，新的连接请求会被拒绝。可以通过
```
SHOW VARIABLES LIKE 'max_connections';
```
查看当前的最大连接数。如果需要增加最大连接数，可以在MySQL配置文件（通常是
```
/etc/my.cnf
```
或
```
/etc/mysql/mysql.conf.d/mysqld.cnf
```
）中修改
```
max_connections
```
参数，并重启MySQL服务。
配置问题： 检查MySQL配置文件中的参数设置，例如
```
innodb_buffer_pool_size
```
、
```
key_buffer_size
```
、
```
sort_buffer_size
```
等。不合理的参数设置可能导致性能问题或服务异常。
代码层面： 检查应用程序代码，是否存在SQL注入漏洞、死循环、或者频繁的数据库操作。代码层面的问题可能导致MySQL服务压力过大，最终导致服务异常。例如，可以使用GDB调试mysqld进程，查看线程堆栈信息，定位问题代码。
磁盘空间： 检查磁盘空间是否已满。MySQL需要足够的磁盘空间来存储数据和日志。如果磁盘空间已满，MySQL可能无法正常工作。

MySQL崩溃后如何自动重启？

可以使用systemd的

Restart=on-failure

配置。编辑MySQL的systemd配置文件（例如

/etc/systemd/system/mysqld.service

），在

[Service]

部分添加：

Restart=on-failure
RestartSec=5s

Restart=on-failure

表示服务在失败时自动重启。

RestartSec=5s

表示重启前等待5秒。然后重新加载systemd配置：

systemctl daemon-reload

，并重启MySQL服务：

systemctl restart mysqld

。这样，当MySQL服务崩溃时，systemd会自动尝试重启它。

万彩商图

专为电商打造的AI商拍工具，快速生成多样化的高质量商品图和模特图，助力商家节省成本，解决素材生产难、产图速度慢、场地设备拍摄等问题。

下载

如何诊断InnoDB死锁？

InnoDB死锁会导致事务阻塞，甚至可能导致MySQL服务性能下降。可以通过以下方法诊断InnoDB死锁：

查看InnoDB状态信息： 使用
```
SHOW ENGINE INNODB STATUS\G
```
命令查看InnoDB的状态信息。在输出结果中，查找
```
LATEST DETECTED DEADLOCK
```
部分，可以找到最近发生的死锁信息，包括涉及的事务、锁、SQL语句等。
启用
```
innodb_print_all_deadlocks
```
参数： 在MySQL配置文件中设置
```
innodb_print_all_deadlocks=ON
```
，并将错误日志级别设置为
```
log_error_verbosity=3
```
。这样，每次发生死锁时，详细的死锁信息都会被记录到错误日志中。
分析死锁信息： 根据死锁信息，找出涉及的事务和SQL语句，分析导致死锁的原因。常见的死锁原因是：
- 交叉更新： 多个事务以不同的顺序更新同一批数据。
- 锁升级： InnoDB的锁升级机制可能导致死锁。
- 外键约束： 外键约束可能导致死锁。
解决死锁： 解决死锁的方法包括：
- 调整事务隔离级别： 降低事务隔离级别可以减少死锁的发生。
- 优化SQL语句： 避免长事务和大事务，尽量减少锁的持有时间。
- 调整锁的顺序： 确保多个事务以相同的顺序获取锁。
- 避免交叉更新： 尽量避免多个事务以不同的顺序更新同一批数据。

如何监控MySQL的性能指标？

监控MySQL的性能指标对于及时发现和解决问题至关重要。常用的监控工具包括：

MySQL Enterprise Monitor： MySQL官方提供的监控工具，可以监控MySQL的各种性能指标，并提供报警功能。
Percona Monitoring and Management (PMM)： 一款免费开源的监控工具，可以监控MySQL、MongoDB、PostgreSQL等数据库的性能指标。
Prometheus + Grafana： 一种流行的监控方案，Prometheus负责收集监控数据，Grafana负责展示监控数据。可以使用
```
mysqld_exporter
```
收集MySQL的性能指标。

自带的性能监控工具： MySQL 5.7及以上版本自带了

Performance Schema

，可以收集各种性能指标。启用

Performance Schema

：

UPDATE performance_schema.setup_instruments SET enabled = 'YES', timed = 'YES';
UPDATE performance_schema.setup_consumers SET enabled = 'YES';

然后可以使用SQL语句查询

Performance Schema

中的数据，例如：

SELECT EVENT_NAME, COUNT_STAR, SUM_TIMER_WAIT FROM performance_schema.events_statements_summary_global_by_event_name ORDER BY SUM_TIMER_WAIT DESC LIMIT 10;

监控的性能指标包括：