运维工程师必备：Linux系统监控与故障排查的命令大全_Linux

在日常运维工作中，快速获取系统状态信息至关重要。以下整理了常用的linux监控命令，按功能分类并附使用示例：

一、系统概览信息

命令	功能	示例输出
`hostname`	查看主机名	`web-server-01`
`uname -a`	系统内核信息	`linux db01 5.4.0-131-generic #148-ubuntu smp`
`cat /etc/os-release`	操作系统版本	`pretty_name="ubuntu 20.04.4 lts"`
`uptime`	运行时间与负载	`18:05:01 up 45 days, 3:21, 1 user, load average: 0.08, 0.03, 0.05`
`date`	系统时间	`thu aug 18 18:05:24 cst 2023`

二、cpu监控

命令	功能	关键指标
`lscpu`	cpu架构信息	核心数/线程数/型号
`top -bn1`	实时cpu使用率	`%cpu(s): 12.3 us, 6.2 sy`
`mpstat -p all`	多核cpu详细统计	各核心的user/sys/idle占比
`sar -u 2 5`	周期性cpu采样	平均使用率趋势
`vmstat 1`	综合性能监控	r(运行队列)/b(阻塞进程)

高级技巧：

# 按cpu使用率排序进程
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head -n 10

三、内存监控

命令	功能	关键指标
`free -m`	内存总量与使用	`mem: 32042 29582 2460`
`vmstat -s`	详细内存统计	active/inactive memory
`cat /proc/meminfo`	内存详细信息	memtotal/cached/swap
`slabtop`	内核slab缓存	内核对象缓存使用

内存泄漏排查：

# 监控进程内存变化
watch -n 1 "ps -eo pid,cmd,rss --sort=-rss | head -n 5"

四、磁盘监控

命令	功能	关键指标
`df -h`	磁盘空间使用	`/dev/sda1 98g 45g 48g 49% /`
`iostat -dx 2`	磁盘io性能	await(ms)/util(%)
`iotop`	实时io进程	进程级读写速率
`du -sh /*	sort -hr`	目录大小排序
`lsblk`	块设备信息	磁盘分区/挂载点

io瓶颈诊断：

# 定位高io进程
pidstat -d 1

五、网络监控

命令	功能	关键指标
`ifconfig`/`ip addr`	网络接口信息	ip地址/rx/tx包量
`netstat -tulnp`	端口监听状态	服务端口/pid
`ss -s`	连接统计	`total: 987 (kernel 0)`
`tcpdump -i eth0`	网络包捕获	实时流量分析
`iftop -p`	带宽使用排名	主机级流量统计

连接分析：

# 查看established连接数
netstat -an | grep established | wc -l

六、进程与服务监控

命令	功能	关键指标
`ps aux`	进程列表	cpu/mem使用率
`pidstat 1`	进程资源统计	%cpu/%mem
`systemctl status`	服务状态	active(running)
`journalctl -u nginx`	服务日志	服务运行日志
`lsof -p <pid>`	进程打开文件	文件描述符

进程树查看：

# 显示进程树关系
pstree -ap

七、高级监控工具

实时监控面板

htop：增强版top（支持鼠标操作）
glances：全能监控面板（需安装）
nmon：专业性能监控工具

日志分析

# 查看包含error的最新日志
tail -f /var/log/syslog | grep -i error

# 统计404错误次数
awk '$9==404 {print $7}' access.log | sort | uniq -c | sort -nr

性能分析

perf top：cpu热点函数分析
strace -p <pid>：系统调用跟踪
dstat：综合性能统计工具

八、最佳实践建议

命令组合使用

# 单行获取关键指标
echo "load:$(uptime | awk -f'load average: ' '{print $2}') | mem:$(free -m | awk '/mem/{print $3"/"$2"mb"}')"

监控自动化

使用cron定期收集指标
通过tee同时输出到屏幕和文件
编写脚本格式化输出（如本文示例）

安全注意事项

避免在生产环境直接修改配置
使用nohup执行长时间任务
敏感命令添加-i交互确认

运维箴言：掌握这些命令如同获得系统"听诊器"，但真正的价值在于理解数据背后的意义。建议建立自己的命令手册，定期练习形成肌肉记忆。

通过熟练使用这些命令，运维工程师可以快速诊断系统瓶颈，有效处理故障，保障业务稳定运行。记住：好的运维不是救火队员，而是通过监控提前发现隐患的守护者。

以上就是运维工程师必备：linux系统监控与故障排查的命令大全的详细内容，更多关于linux系统监控与故障排查的资料请关注代码网其它相关文章！

Linux中的内核态&用户态使用

核心本质：为什么要区分内核态 / 用户态？1. 核心目标：安全与隔离早期操作系统（如 dos）无态的区分，用户程序可直接操作硬件 / 修改内核内存，一个程序的错... [阅读全文]

Nginx配置文件完全指南(非常详细!)

前言nginx 的强大之处已无需多言，正由于它过于强大，配置文件里一个参数的不同就会有完全不同的行为，容易让人摸不着头脑，今天我们就来完整分析它的配置文件里面到... [阅读全文]

Linux进程通信之System V 共享内存详解

system v 共享内存（shared memory）system v 共享内存是内核在物理内存中划出的一块连续内存区域，允许多个进程将该区域映射到自身的虚拟... [阅读全文]

Nginx主动健康检查的实战指南

在微服务与高并发架构的江湖里，nginx不仅是流量的守门人，更是系统的“免疫系统”。然而，许多开发者对nginx健康检查的认知仍停留在&... [阅读全文]

nginx实时请求监测的项目实践

一、ngxtop1、ngxtop介绍ngxtop是一个实时命令行工具，可以分析nginx访问日志，以表格形式将http请求的主要指标直观展示。ngxtop将nginx的访问请求数据…

2025年12月29日 • 服务器

Linux使用pkill清理各种服务进程的方法大全

通过 pkill 清理不同类型的服务进程需要根据进程特征进行精确匹配。本文介绍各种服务的清理方法：1. java -jar 启动的服务精确匹配特定的jar包：#... [阅读全文]


验证码：

验证码：

运维工程师必备：Linux系统监控与故障排查的命令大全

2025年12月31日 • Linux •我要评论