统计报告指南
本指南涵盖灵王 OPS 中完整的报告和分析能力——从概览仪表板到自定义 SLA 合规报告。
1. 报告概览仪表板
主仪表板提供运营健康的实时摘要。
显示的核心指标:
| 指标 | 描述 |
|---|---|
| MTTA | 平均确认时间——从告警触发到第一个响应者确认的平均时间 |
| MTTR | 平均解决时间——从告警触发到事件解决的平均时间 |
| 总告警数 | 所选时间窗口内触发的所有告警计数 |
| 活跃事件 | 当前打开的未解决事件数量 |
访问: 从侧边栏进入报告 → 概览。仪表板默认每 5 分钟刷新一次(可配置为实时)。
示例仪表板布局:
┌─────────────────────────────────────────────────────────────┐
│ 概览 告警趋势 主要告警 团队指标 │
├─────────────────────────────────────────────────────────────┤
│ [日期范围选择器] [导出 ▼] │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌─────────────┐ │
│ │ MTTA │ │ MTTR │ │ 总计 │ │ 活跃 │ │
│ │ 4m 32s │ │ 38m 15s │ │ 1,284 │ │ 事件 │ │
│ │ ▼ 12% │ │ ▼ 8% │ │ ▲ 5% │ │ 3 │ │
│ └──────────┘ └──────────┘ └──────────┘ └─────────────┘ │
│ │
│ [每个指标的趋势迷你图] │
└─────────────────────────────────────────────────────────────┘
趋势指示器: 每个指标显示与上一个等效周期的百分比变化(例如周环比)。绿色 ▼ 表示改善;红色 ▲ 表示下降。
2. 告警频率图表
跟踪告警量随时间的变化,以识别模式和峰值。
访问: 报告 → 告警趋势
时间粒度选项:
| 模式 | 使用场景 |
|---|---|
| 小时 | 实时监控、事件调查 |
| 每天 | 标准运营审查 |
| 每周 | 团队层面报告 |
| 每月 | 高管/董事会层面摘要 |
图表功能:
- 堆叠面积图 — 按严重级别(SEV1–SEV5)细分告警,便于看出高严重级别告警是否驱动了峰值
- 基线比较 — 叠加一条虚线显示同一天的一周历史平均值
- 异常标记 — 红色菱形突出显示统计显著峰值(可配置阈值,默认:均值以上 2σ)
API 查询参数:
GET /api/v1/reports/alert-frequency
?start=2026-03-01T00:00:00Z
&end=2026-03-31T23:59:59Z
&granularity=daily
&group_by=severity
3. 按计数的主要告警
识别触发最频繁的告警规则——这些通常是调优、抑制或自动化的候选。
访问: 报告 → 主要告警
默认视图: 告警名称排名列表,按所选周期内的总触发计数排序。
┌──────────────────────────────────────────────────────────────┐
│ 主要告警(过去 30 天) [筛选] │
├─────┬────────────────────────────────┬────────┬─────────────┤
│ # │ 告警名称 │ 计数 │ 平均 MTTA │
├─────┼────────────────────────────────┼────────┼─────────────┤
│ 1 │ prod-api-07 上的 HighCPU │ 312 │ 2m 14s │
│ 2 │ db-04 上的 DiskSpaceWarning │ 287 │ 5m 03s │
│ 3 │ cache-02 上的 MemoryPressure │ 201 │ 3m 41s │
│ 4 │ SSL 证书即将过期 │ 156 │ 12m 08s │
│ 5 │ API 错误率 > 1% │ 98 │ 1m 47s │
└─────┴────────────────────────────────┴────────┴─────────────┘
筛选选项:
- 按严重级别筛选(例如,仅显示 SEV1 和 SEV2)
- 按服务/团队所有者筛选
- 按告警来源筛选(Zabbix、Prometheus 等)
- 按状态筛选(触发中、已确认、已解决)
操作: 点击任意行直接跳转到该规则的告警详情页。
4. 按严重级别的 MTTA/MTTR
响应时间目标因严重级别而异。本报告细分每个严重级别的 MTTA 和 MTTR 表现。
访问: 报告 → 响应时间
严重级别目标参考:
| 严重级别 | 描述 | MTTA 目标 | MTTR 目标 |
|---|---|---|---|
| SEV1 | 完整服务中断、收入影响 | 5 分钟 | 1 小时 |
| SEV2 | 重大降级、重大用户影响 | 15 分钟 | 4 小时 |
| SEV3 | 轻微降级、有可用解决方法 | 30 分钟 | 24 小时 |
| SEV4 | 低影响问题、无即时用户影响 | 2 小时 | 72 小时 |
| SEV5 | 信息性、装饰性 | 24 小时 | 1 周 |
报告表:
┌──────────┬────────────────────────────┬────────────────────────────┐
│ 严重级别 │ MTTA(平均) │ MTTA 目标 │ MTTR(平均) │ MTTR 目标 │
├──────────┼─────────────┼──────────────┼─────────────┼─────────────┤
│ SEV1 │ 3m 42s ✓ │ 5m │ 47m 12s ✓ │ 1h │
│ SEV2 │ 11m 08s ✓ │ 15m │ 2h 31m ✓ │ 4h │
│ SEV3 │ 28m 55s ✓ │ 30m │ 18h 44m ✓ │ 24h │
│ SEV4 │ 1h 34m ✗ │ 2h │ 61h 12m ✗ │ 72h │
│ SEV5 │ 8h 21m ✓ │ 24h │ 3d 04h ✓ │ 1 week │
└──────────┴─────────────┴──────────────┴─────────────┴─────────────┘
✓ = 在目标内 ✗ = 超出目标
SEV1 基准: 表现最佳的团队 SEV1 事件的 MTTA 在 3 分钟以下,MTTR 在 45 分钟以下。灵王 Ops 同时跟踪第 95 百分位和平均值,以确保表现一致。
5. 团队响应指标
衡量您的团队处理告警的效率——与事件层面指标分开。
访问: 报告 → 团队指标
跟踪的指标:
| 指标 | 公式 | 目标 |
|---|---|---|
| 响应率 | (在目标 MTTA 内确认的告警)/(总告警) | > 90% |
| 确认率 | (被确认的告警)/(触发的总告警) | > 95% |
| 升级率 | (按升级策略升级的事件)/(总事件) | < 10% |
| 平均指派时间 | 告警被指派给值班响应者的平均时间 | < 2 分钟 |
各团队明细:
┌─────────────────────────────────────────────────────────────────┐
│ 团队指标(过去 30 天) │
├─────────────┬───────────┬───────────┬────────────┬──────────────┤
│ 团队 │ 响应率 │ 确认 │ 升级率 │ 平均指派 │
│ │ │ 率 │ │ 时间 │
├─────────────┼───────────┼───────────┼────────────┼──────────────┤
│ 平台 │ 94.2% ✓ │ 98.1% ✓ │ 6.3% ✓ │ 1m 12s ✓ │
│ 数据 │ 87.5% ✗ │ 91.4% ✓ │ 14.2% ✗ │ 3m 44s ✗ │
│ 基础设施 │ 91.8% ✓ │ 96.7% ✓ │ 8.1% ✓ │ 1m 58s ✓ │
└─────────────┴───────────┴───────────┴────────────┴──────────────┘
确认率详情: 确认率特别重要,因为在 MTTA 目标 2 倍时间后未确认的告警会自动升级。使用此指标识别可能需要额外培训或支持的响应者。
6. 值班覆盖率
确保您的值班排班提供持续覆盖,无缺口。
访问: 报告 → 值班覆盖
覆盖率计算:
覆盖率 = (实际覆盖分钟数)/(周期内总分钟数)× 100%
"缺口"是任何没有活跃且可到达的值班响应者(不在免打扰或离线状态)的分钟。
报告视图:
┌─────────────────────────────────────────────────────────────────┐
│ 值班覆盖(2026 年 4 月) │
├─────────────┬─────────────────────────────┬─────────────────────┤
│ 排班 │ 主要覆盖 │ 备用 │ 发现缺口 │
├─────────────┼──────────────────┼──────────┼─────────────────────┤
│ 工作日 │ 98.7% ✓ │ 100% ✓ │ 2 个缺口(合计 23 分钟)│
│ 周末 │ 94.2% ✗ │ 99.1% ✓ │ 4 个缺口(合计 1 小时 12 分钟)│
│ 节假日 │ 88.1% ✗ │ 97.3% ✓ │ 1 个缺口(45 分钟) │
└─────────────┴──────────────────┴──────────┴─────────────────────┘
缺口详情: 点击任意排班行查看每个缺口的确切时间和持续时间。缺口可以导出到您的工单系统以进行追溯性排班更正。
目标: 始终争取 > 99% 的主要覆盖率和 100% 的备用覆盖率。
7. 计划报告 Email
按每周或每月周期自动向利益相关者交付报告。
访问: 报告 → 计划报告 → 新建计划
配置字段:
| 字段 | 描述 | 示例 |
|---|---|---|
| 报告类型 | 发送哪个报告模板 | 概览、告警趋势、SLA 合规 |
| 频率 | 发送频率 | 每周(每周一上午 9:00)或每月(每月 1 日) |
| 收件人 | Email 地址或分发列表 | [email protected]、[email protected] |
| 格式 | Email 正文格式 | HTML 摘要、PDF 附件、CSV 附件 |
| 日期范围 | 报告覆盖的周期 | 过去 7 天、过去 30 天、过去一个月 |
| 筛选 | 应用与手动报告相同的筛选 | 特定团队、严重级别、服务 |
计划选项:
频率选项:
• 每天 — 00:00、06:00、12:00、18:00(选择其一)
• 每周 — 周一至周日(选择日期 + 时间)
• 每月 — 1 日至 28 日(选择日期 + 时间)
• 自定义 cron 表达式(高级)
交付格式:
• HTML email(内联图表和表格)
• PDF(完整报告,分页)
• CSV(仅原始数据)
Email 预览: 启用前,使用"发送测试 Email"验证布局和收件人投递。
8. 自定义日期范围筛选
所有报告都支持超出默认预设的灵活日期范围选择。
访问: 点击任意报告页面顶部的日期范围选择器。
预设范围:
| 预设 | 描述 |
|---|---|
| 今天 | 当天(午夜到当前) |
| 昨天 | 前一完整天 |
| 过去 7 天 | 滚动 7 天 |
| 过去 30 天 | 滚动 30 天 |
| 本周 | 本周一到今天 |
| 本月 | 月初到今天 |
| 上周 | 上周一到上周日 |
| 上月 | 上一完整日历月 |
| 上季度 | 滚动季度 |
自定义范围: 点击"自定义"输入特定的开始和结束日期及时间。
日期范围选择器 UI:
预设 ▼ [ 2026年3月1日 14:00 ] 到 [ 2026年3月31日 14:00 ] [应用]
快速比较: [ ] 与上一周期比较
[ ] 与上月同期比较
[ ] 与去年同期比较
比较模式: 启用"与上一周期比较"将上一周期的数据叠加为图表上的虚线,便于发现趋势。
URL 参数: 自定义日期范围编码在 URL 中以便共享。示例:
https://ops.company.com/reports/overview?from=2026-03-01T00:00:00Z&to=2026-03-31T23:59:59Z
9. 导出为 CSV / PDF
下载报告数据用于离线分析、演示或与外部 BI 工具集成。
访问: 点击任意报告页面右上角的导出按钮。
CSV 导出
- 数据: 当前筛选表格视图中所有可见行
- 编码: UTF-8 with BOM,兼容 Excel
- 命名:
{report-name}_{date-from}_{date-to}.csv
示例——主要告警 CSV:
alert_name,severity,count,mtt_avg,last_fired
HighCPU on prod-api-07,SEV3,312,2m 14s,2026-03-31T08:45:12Z
DiskSpaceWarning on db-04,SEV2,287,5m 03s,2026-03-31T07:12:44Z
MemoryPressure on cache-02,SEV4,201,3m 41s,2026-03-30T22:03:17Z
PDF 导出
- 布局: 完整报告,图表渲染为图像,表格为打印格式化
- 页眉: 报告标题、日期范围、生成时间戳、公司标志(如果已配置)
- 页脚: 页码、"由灵王 Ops 生成"标语
- 命名:
{report-name}_{date-from}_{date-to}.pdf
PDF 目录(多节报告):
灵王 Ops — 运营报告
周期:2026 年 3 月 1 日至 31 日
生成:2026 年 4 月 1 日上午 9:00
目录
1. 概览仪表板 ............................. 2
2. 告警频率趋势 ........................... 3
3. 按计数的主要告警 ........................ 4
4. 按严重级别的 MTTA/MTTR .................. 5
5. 团队响应指标 ........................... 6
6. SLA 合规报告 ........................... 7
通过 API 批量导出
POST /api/v1/reports/export
{
"report_type": "overview",
"format": "csv",
"start": "2026-03-01T00:00:00Z",
"end": "2026-03-31T23:59:59Z",
"filters": {
"severity": ["SEV1", "SEV2"]
}
}
10. SLA 合规报告
跟踪对正式 SLA 承诺的遵守情况——特别是对于面向客户或合同义务。
访问: 报告 → SLA 合规
P1 事件 SLA:1 小时解决
最关键的 SLA 是针对 P1(SEV1)事件——这些必须在打开后 1 小时内解决。
SLA 定义:
| SLA 项目 | 承诺 | 宽限期 |
|---|---|---|
| 确认 P1 | 5 分钟内 | 0(硬限制) |
| 解决 P1 | 1 小时内 | 0(硬限制) |
每月 P1 SLA 表:
┌──────────────────────────────────────────────────────────────────┐
│ P1 SLA 合规 — 2026 年 3 月 │
├────────────────┬────────────┬─────────────┬──────────┬───────────┤
│ 指标 │ 承诺 │ 实际 │ 违规数 │ 合规率 │
├────────────────┼────────────┼─────────────┼──────────┼───────────┤
│ MTTA │ < 5 分钟 │ 3m 42s │ 0 │ 100% ✓ │
│ MTTR │ < 1 小时 │ 47m 12s │ 0 │ 100% ✓ │
│ 已确认 │ 100% │ 100% (15/15)│ 0 │ 100% ✓ │
└────────────────┴────────────┴─────────────┴──────────┴───────────┘
SLA 违规日志: 任何超过 MTTA 或 MTTR 目标的事件被标记为 SLA 违规。每个违规条目包括:
SLA 违规条目示例:
─────────────────────────────────────────────────────────────────
事件: INC-2026-0342
标题: prod-api-07 完全中断
打开: 2026-03-15T14:23:11Z
MTTA: 4m 12s(目标: 5m)— 通过
MTTR: 1h 23m 44s(目标: 1h)— 违规(+23m 44s)
违约者: 值班工程师在 2 次页面失败后未能升级
行动: 已提交复盘 INC-2026-0342-PM;升级策略已更新
─────────────────────────────────────────────────────────────────
完整 SLA 概览
┌───────────┬─────────────┬─────────────┬──────────┬──────────────┐
│ SLA │ 目标 │ 实际 │ 违规数 │ 合规率 │
├───────────┼─────────────┼─────────────┼──────────┼──────────────┤
│ P1 确认 │ < 5 分钟 │ 3m 42s │ 0 │ 100% ✓ │
│ P1 解决 │ < 1 小时 │ 47m 12s │ 0 │ 100% ✓ │
│ P2 确认 │ < 15 分钟 │ 11m 08s │ 2 │ 96.4% ✓ │
│ P2 解决 │ < 4 小时 │ 2h 31m │ 1 │ 98.6% ✓ │
│ P3 确认 │ < 30 分钟 │ 28m 55s │ 1 │ 99.1% ✓ │
│ P3 解决 │ < 24 小时 │ 18h 44m │ 0 │ 100% ✓ │
│ P4 确认 │ < 2 小时 │ 1h 34m │ 3 │ 91.2% ✗ │
│ P4 解决 │ < 72 小时 │ 61h 12m │ 2 │ 94.7% ✓ │
├───────────┼─────────────┼─────────────┼──────────┼──────────────┤
│ 总体 │ │ │ 9 │ 97.4% ✓ │
└───────────┴─────────────┴─────────────┴──────────┴──────────────┘
SLA 趋势图表: 表下方,线条图显示 SLA 合规百分比随时间的变化,便于识别在变得严重之前的下降趋势。
SLA 通知规则: 配置 SLA 合规下降到阈值以下时的自动通知:
SLA 告警规则:
• 警告: P1 合规 < 95% → 通知团队负责人
• 严重: P1 合规 < 90% → 通知工程副总裁
• 违规: 任何单一 P1 违规 → 通知 CTO + 开启复盘
快速参考:所有报告访问点
| 报告 | 菜单路径 |
|---|---|
| 概览仪表板 | 报告 → 概览 |
| 告警频率图表 | 报告 → 告警趋势 |
| 按计数的主要告警 | 报告 → 主要告警 |
| 按严重级别的 MTTA/MTTR | 报告 → 响应时间 |
| 团队响应指标 | 报告 → 团队指标 |
| 值班覆盖 | 报告 → 值班覆盖 |
| 计划报告 | 报告 → 计划报告 |
| SLA 合规 | 报告 → SLA 合规 |
| 导出(任意报告) | 每个报告右上角的导出按钮 |
| 自定义日期范围 | 每个报告左上角的日期选择器 |