java 进程异常是生产环境中常见的问题,可能表现为 cpu / 内存飙升、响应缓慢、进程崩溃等。
以下是系统化的排查思路和实用工具:
一、故障发现与初步判断
1. 监控系统告警
- 基础指标:cpu 使用率、内存使用率、gc 频率 / 耗时、线程数。
- 应用指标:请求响应时间、吞吐量、错误率。
2. 日志初步分析
- 应用日志:检查业务日志中是否有异常堆栈(如 oom、nullpointerexception)。
- gc 日志:查看频繁 full gc 或长时间 stw(stop the world)。
# 开启gc日志 java -xx:+printgcdetails -xx:+printgctimestamps -xloggc:gc.log yourapp
二、核心排查工具与步骤
1. 进程状态检查
# 查看java进程id ps -ef | grep java # 查看进程资源使用情况 top -hp <pid> # 按cpu排序 pmap -x <pid> | sort -k3 -nr # 按内存占用排序
2. cpu 飙升问题
# 1. 找到cpu占用最高的java线程 top -hp <pid> # 2. 将线程id转换为16进制 printf "%x\n" <tid> # 3. 导出线程堆栈 jstack <pid> | grep -a 30 <hex_tid> # 查找对应线程的堆栈 # 4. 生成线程dump文件(用于后续分析) jstack -l <pid> > thread_dump.txt
3. 内存泄漏排查
# 1. 查看堆内存使用情况 jstat -gc <pid> 1000 # 每秒输出一次gc统计 # 2. 生成堆转储文件(heap dump) jmap -dump:format=b,file=heapdump.hprof <pid> # 3. 使用mat(memory analyzer tool)分析堆转储 java -jar mat.jar heapdump.hprof
4. 死锁检测
# 直接检测死锁 jstack <pid> | grep -i deadlock
5. 类加载问题
# 查看类加载统计 jstat -class <pid> # 导出类加载详细信息 jcmd <pid> vm.class_hierarchy > class_hierarchy.txt
三、常见异常场景与解决方案
场景 1:频繁 full gc
可能原因:老年代空间不足、内存泄漏、大对象频繁分配。
排查步骤:
- 分析 gc 日志,确认 full gc 频率和原因。
- 使用
jstat
观察堆内存各区域变化。 - 生成堆转储文件,使用 mat 分析对象占用情况。
解决方案:
# 增加堆内存或调整新生代比例 java -xms4g -xmx4g -xx:newratio=2 yourapp
场景 2:outofmemoryerror
错误类型:
- java heap space:堆内存不足。
- gc overhead limit exceeded:gc 耗时过长且回收内存极少。
- permgen space/metaspace:方法区 / 元空间溢出。
排查步骤:
# 配置oom时自动生成堆转储 java -xx:+heapdumponoutofmemoryerror -xx:heapdumppath=/var/log/heapdump.hprof yourapp
解决方案:
# 增大堆内存或元空间 java -xmx8g -xx:metaspacesize=256m -xx:maxmetaspacesize=512m yourapp
场景 3:线程阻塞 / 死锁
排查步骤:
- 生成线程 dump(
jstack <pid>
)。 - 分析线程状态(waiting、blocked)。
- 查找持有锁的线程和等待锁的线程。
示例线程 dump 分析:
"thread-1" #12 prio=5 os_prio=0 tid=0x00007f9a000a4000 nid=0x2a6e waiting for monitor entry [0x00007f99f77fd000] java.lang.thread.state: blocked (on object monitor) at com.example.myclass.methodb(myclass.java:40) - waiting to lock <0x000000076b4a0b30> (a java.lang.object) at com.example.myclass$2.run(myclass.java:20)
四、高级工具与技术
1. java mission control (jmc)
功能:实时监控、性能分析、飞行记录器(flight recorder)。
启动命令:
jmc &
2. byteman
- 功能:动态注入字节码,用于调试和性能分析。
- 示例:在方法入口 / 出口添加日志。
3. arthas
功能: alibaba 开源的 java 诊断工具,支持实时监控、热更新等。
使用示例:
# 安装并连接到java进程 curl -o https://arthas.aliyun.com/arthas-boot.jar java -jar arthas-boot.jar
五、预防措施
合理配置 jvm 参数:
# 生产环境推荐配置 java -xms4g -xmx4g -xss256k \ -xx:+useg1gc -xx:maxgcpausemillis=200 \ -xx:+heapdumponoutofmemoryerror \ -jar your-app.jar
编写健壮代码:
- 避免内存泄漏(如静态集合持有对象引用)。
- 合理使用线程池,避免创建过多线程。
- 正确处理异常,避免资源未释放。
完善监控系统:
- 集成 prometheus + grafana 监控 java 进程。
- 设置合理的告警阈值(如 gc 时间超过 500ms 告警)。
六、故障排查流程总结
- 发现异常:通过监控系统或用户反馈发现问题。
- 初步定位:确认异常类型(cpu 高、内存溢出、响应慢等)。
- 数据收集:生成线程 dump、堆转储、gc 日志等。
- 分析根因:使用工具分析收集的数据,找出问题根源。
- 解决方案:调整代码、优化配置或修复 bug。
- 验证与预防:验证修复效果,完善监控和告警机制。
通过系统化的排查方法和工具,大多数 java 进程异常都能快速定位并解决。关键在于建立完善的监控体系和标准化的排查流程。
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持代码网。
发表评论