oracle的trace,alert,incident,cdump,hm使用及说明_Java

oracle的trace,alert,incident,cdump,hm

这些都是 oracle adr（自动诊断仓库）架构下的核心诊断组件，是排查数据库故障的核心依据

按 “常用程度 + 故障优先级” 拆解，用通俗比喻 + 实战场景讲清：

组件	通俗定位	核心作用	存储内容 / 特征	核心使用场景
alert（告警日志）	数据库的 “系统日记”	记录数据库全生命周期的关键系统事件，是排查所有系统级故障的第一抓手	- 文本文件：alert_<sid>.log（adr home/alert）；- 记录：实例启停、参数修改、表空间操作、系统级错误（ora-00600/07445）、备份恢复、后台进程异常等	1. 实例启动失败（查最后 100 行）；2. 定位系统级错误（如 ora-00600）；3. 确认数据库关键操作（如表空间扩容）
trace（跟踪文件）	数据库的 “调试日志”	记录进程执行的详细轨迹，分 “后台进程 trace” 和 “用户进程 trace”，定位具体执行异常	- 后台 trace：lgwr/dbwr/pmon 等进程异常时的调试文件（如orcl_lgwr_12345.trc）；- 用户 trace：用户 sql 执行错误 / 慢 sql 追踪文件（如orcl_ora_67890.trc）	1. 排查后台进程崩溃（如 lgwr 挂死）；2. 分析慢 sql（通过 sql_trace 生成 trace）；3. 定位用户 sql 执行错误（如 ora-01403）
incident（故障事件）	严重错误的 “专属档案”	针对 oracle 致命错误生成的标准化诊断包，每个错误对应唯一 incident id	- 触发条件：ora-00600（内部内核错误）、ora-07445（系统级崩溃）、ora-01578（数据块损坏）；- 存储：每个 id 对应独立目录（incdir_<id>），含 trace、内存转储、调用栈	1. 定位致命错误根因；2. 打包（incpkg）发给 oracle 原厂分析；3. 关联错误上下文（如崩溃前执行的 sql）
cdump（核心转储）	实例崩溃的 “黑匣子”	操作系统级的进程崩溃数据，存储进程崩溃时的内存镜像	- 触发条件：实例 / 进程崩溃（如 ora-07445 导致进程终止）；- 内容：进程内存镜像、寄存器状态、操作系统调用栈（二进制文件）	仅 oracle 原厂支持分析 “实例彻底崩溃” 的底层原因（普通 dba 无工具解析）
hm（health monitor）	数据库的 “健康体检报告”	自动 / 手动检测数据库物理 / 逻辑损坏，发现隐性故障	- 检查类型：数据块完整性、控制文件校验、索引损坏、重做日志检查；- 存储：检查报告（文本 / xml），记录损坏块 id、修复建议	1. 排查 “隐性故障”（无明显报错但性能异常）；2. 确认数据块是否损坏；3. 验证数据库恢复后的完整性

关键补充（实战必知）

1. 优先级：先看 alert，再查 trace，严重错误找 incident

日常故障（如实例启动失败、普通 ora 错误）：先看 alert 日志定位大致方向，再查对应 trace 文件找细节；
致命错误（如 ora-00600、实例崩溃）：先找 alert 里记录的 incident id，再到 incident 目录拿全量诊断数据，必要时提供 cdump 给原厂；
隐性故障（如性能慢但无报错）：执行 hm 健康检查（dbms_hm.run_check），查看报告找损坏 / 异常。

2. 如何快速找到这些文件？

无需记路径，通过v$diag_info视图一站式查询：

-- 查alert、trace、incident的存储路径
select name, value 
from v$diag_info 
where name in ('diag alert', 'diag trace', 'incident directory');

3. 核心工具：adrci（统一管理这些诊断数据）

adrci  # 启动adrci工具
show alert;  # 直接查看alert日志（无需找路径）
show trace -incident 12345;  # 查看指定incident的trace文件
run hm_check db_block_corruption;  # 执行hm数据块损坏检查
purge -age 720 -type trace;  # 清理30天前的trace文件（释放磁盘）