统计报告指南

本指南涵盖灵王 OPS 中完整的报告和分析能力——从概览仪表板到自定义 SLA 合规报告。


1. 报告概览仪表板

主仪表板提供运营健康的实时摘要。

显示的核心指标:

指标 描述
MTTA 平均确认时间——从告警触发到第一个响应者确认的平均时间
MTTR 平均解决时间——从告警触发到事件解决的平均时间
总告警数 所选时间窗口内触发的所有告警计数
活跃事件 当前打开的未解决事件数量

访问: 从侧边栏进入报告 → 概览。仪表板默认每 5 分钟刷新一次(可配置为实时)。

示例仪表板布局:

┌─────────────────────────────────────────────────────────────┐
│  概览    告警趋势    主要告警    团队指标                     │
├─────────────────────────────────────────────────────────────┤
│  [日期范围选择器]                         [导出 ▼]          │
│                                                             │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌─────────────┐ │
│  │  MTTA    │  │  MTTR    │  │   总计   │  │   活跃     │ │
│  │  4m 32s  │  │  38m 15s │  │  1,284   │  │   事件     │ │
│  │  ▼ 12%   │  │  ▼ 8%    │  │  ▲ 5%    │  │      3     │ │
│  └──────────┘  └──────────┘  └──────────┘  └─────────────┘ │
│                                                             │
│  [每个指标的趋势迷你图]                                      │
└─────────────────────────────────────────────────────────────┘

趋势指示器: 每个指标显示与上一个等效周期的百分比变化(例如周环比)。绿色 ▼ 表示改善;红色 ▲ 表示下降。


2. 告警频率图表

跟踪告警量随时间的变化,以识别模式和峰值。

访问: 报告 → 告警趋势

时间粒度选项:

模式 使用场景
小时 实时监控、事件调查
每天 标准运营审查
每周 团队层面报告
每月 高管/董事会层面摘要

图表功能:

  • 堆叠面积图 — 按严重级别(SEV1–SEV5)细分告警,便于看出高严重级别告警是否驱动了峰值
  • 基线比较 — 叠加一条虚线显示同一天的一周历史平均值
  • 异常标记 — 红色菱形突出显示统计显著峰值(可配置阈值,默认:均值以上 2σ)

API 查询参数:

GET /api/v1/reports/alert-frequency
  ?start=2026-03-01T00:00:00Z
  &end=2026-03-31T23:59:59Z
  &granularity=daily
  &group_by=severity

3. 按计数的主要告警

识别触发最频繁的告警规则——这些通常是调优、抑制或自动化的候选。

访问: 报告 → 主要告警

默认视图: 告警名称排名列表,按所选周期内的总触发计数排序。

┌──────────────────────────────────────────────────────────────┐
│  主要告警(过去 30 天)                                [筛选] │
├─────┬────────────────────────────────┬────────┬─────────────┤
│  #  │ 告警名称                        │ 计数   │ 平均 MTTA   │
├─────┼────────────────────────────────┼────────┼─────────────┤
│  1  │ prod-api-07 上的 HighCPU        │ 312    │ 2m 14s      │
│  2  │ db-04 上的 DiskSpaceWarning    │ 287    │ 5m 03s      │
│  3  │ cache-02 上的 MemoryPressure   │ 201    │ 3m 41s      │
│  4  │ SSL 证书即将过期                │ 156    │ 12m 08s     │
│  5  │ API 错误率 > 1%                │ 98     │ 1m 47s      │
└─────┴────────────────────────────────┴────────┴─────────────┘

筛选选项:

  • 严重级别筛选(例如,仅显示 SEV1 和 SEV2)
  • 服务/团队所有者筛选
  • 告警来源筛选(Zabbix、Prometheus 等)
  • 状态筛选(触发中、已确认、已解决)

操作: 点击任意行直接跳转到该规则的告警详情页。


4. 按严重级别的 MTTA/MTTR

响应时间目标因严重级别而异。本报告细分每个严重级别的 MTTA 和 MTTR 表现。

访问: 报告 → 响应时间

严重级别目标参考:

严重级别 描述 MTTA 目标 MTTR 目标
SEV1 完整服务中断、收入影响 5 分钟 1 小时
SEV2 重大降级、重大用户影响 15 分钟 4 小时
SEV3 轻微降级、有可用解决方法 30 分钟 24 小时
SEV4 低影响问题、无即时用户影响 2 小时 72 小时
SEV5 信息性、装饰性 24 小时 1 周

报告表:

┌──────────┬────────────────────────────┬────────────────────────────┐
│ 严重级别 │ MTTA(平均)  │ MTTA 目标  │ MTTR(平均)  │ MTTR 目标 │
├──────────┼─────────────┼──────────────┼─────────────┼─────────────┤
│ SEV1     │ 3m 42s  ✓   │ 5m           │ 47m 12s ✓   │ 1h          │
│ SEV2     │ 11m 08s ✓   │ 15m          │ 2h 31m  ✓   │ 4h          │
│ SEV3     │ 28m 55s ✓   │ 30m          │ 18h 44m ✓   │ 24h         │
│ SEV4     │ 1h 34m  ✗   │ 2h           │ 61h 12m ✗   │ 72h         │
│ SEV5     │ 8h 21m  ✓   │ 24h          │ 3d 04h  ✓   │ 1 week      │
└──────────┴─────────────┴──────────────┴─────────────┴─────────────┘
✓ = 在目标内     ✗ = 超出目标

SEV1 基准: 表现最佳的团队 SEV1 事件的 MTTA 在 3 分钟以下,MTTR 在 45 分钟以下。灵王 Ops 同时跟踪第 95 百分位和平均值,以确保表现一致。


5. 团队响应指标

衡量您的团队处理告警的效率——与事件层面指标分开。

访问: 报告 → 团队指标

跟踪的指标:

指标 公式 目标
响应率 (在目标 MTTA 内确认的告警)/(总告警) > 90%
确认率 (被确认的告警)/(触发的总告警) > 95%
升级率 (按升级策略升级的事件)/(总事件) < 10%
平均指派时间 告警被指派给值班响应者的平均时间 < 2 分钟

各团队明细:

┌─────────────────────────────────────────────────────────────────┐
│ 团队指标(过去 30 天)                                           │
├─────────────┬───────────┬───────────┬────────────┬──────────────┤
│ 团队        │ 响应率    │   确认    │ 升级率     │ 平均指派     │
│             │           │   率      │            │ 时间         │
├─────────────┼───────────┼───────────┼────────────┼──────────────┤
│ 平台        │ 94.2%  ✓  │ 98.1%  ✓  │ 6.3%    ✓  │ 1m 12s    ✓  │
│ 数据        │ 87.5%  ✗  │ 91.4%  ✓  │ 14.2%   ✗  │ 3m 44s    ✗  │
│ 基础设施    │ 91.8%  ✓  │ 96.7%  ✓  │ 8.1%    ✓  │ 1m 58s    ✓  │
└─────────────┴───────────┴───────────┴────────────┴──────────────┘

确认率详情: 确认率特别重要,因为在 MTTA 目标 2 倍时间后未确认的告警会自动升级。使用此指标识别可能需要额外培训或支持的响应者。


6. 值班覆盖率

确保您的值班排班提供持续覆盖,无缺口。

访问: 报告 → 值班覆盖

覆盖率计算:

覆盖率 = (实际覆盖分钟数)/(周期内总分钟数)× 100%

"缺口"是任何没有活跃且可到达的值班响应者(不在免打扰或离线状态)的分钟。

报告视图:

┌─────────────────────────────────────────────────────────────────┐
│ 值班覆盖(2026 年 4 月)                                         │
├─────────────┬─────────────────────────────┬─────────────────────┤
│ 排班        │ 主要覆盖          │ 备用    │ 发现缺口            │
├─────────────┼──────────────────┼──────────┼─────────────────────┤
│ 工作日      │ 98.7%         ✓  │ 100%  ✓  │ 2 个缺口(合计 23 分钟)│
│ 周末        │ 94.2%         ✗  │ 99.1% ✓  │ 4 个缺口(合计 1 小时 12 分钟)│
│ 节假日      │ 88.1%         ✗  │ 97.3% ✓  │ 1 个缺口(45 分钟)    │
└─────────────┴──────────────────┴──────────┴─────────────────────┘

缺口详情: 点击任意排班行查看每个缺口的确切时间和持续时间。缺口可以导出到您的工单系统以进行追溯性排班更正。

目标: 始终争取 > 99% 的主要覆盖率和 100% 的备用覆盖率。


7. 计划报告 Email

按每周或每月周期自动向利益相关者交付报告。

访问: 报告 → 计划报告 → 新建计划

配置字段:

字段 描述 示例
报告类型 发送哪个报告模板 概览、告警趋势、SLA 合规
频率 发送频率 每周(每周一上午 9:00)或每月(每月 1 日)
收件人 Email 地址或分发列表 [email protected][email protected]
格式 Email 正文格式 HTML 摘要、PDF 附件、CSV 附件
日期范围 报告覆盖的周期 过去 7 天、过去 30 天、过去一个月
筛选 应用与手动报告相同的筛选 特定团队、严重级别、服务

计划选项:

频率选项:
  • 每天  — 00:00、06:00、12:00、18:00(选择其一)
  • 每周  — 周一至周日(选择日期 + 时间)
  • 每月  — 1 日至 28 日(选择日期 + 时间)
  • 自定义 cron 表达式(高级)

交付格式:
  • HTML email(内联图表和表格)
  • PDF(完整报告,分页)
  • CSV(仅原始数据)

Email 预览: 启用前,使用"发送测试 Email"验证布局和收件人投递。


8. 自定义日期范围筛选

所有报告都支持超出默认预设的灵活日期范围选择。

访问: 点击任意报告页面顶部的日期范围选择器

预设范围:

预设 描述
今天 当天(午夜到当前)
昨天 前一完整天
过去 7 天 滚动 7 天
过去 30 天 滚动 30 天
本周 本周一到今天
本月 月初到今天
上周 上周一到上周日
上月 上一完整日历月
上季度 滚动季度

自定义范围: 点击"自定义"输入特定的开始和结束日期及时间。

日期范围选择器 UI:

  预设 ▼          [  2026年3月1日  14:00 ]  到  [  2026年3月31日  14:00 ]  [应用]

  快速比较:     [ ] 与上一周期比较
                 [ ] 与上月同期比较
                 [ ] 与去年同期比较

比较模式: 启用"与上一周期比较"将上一周期的数据叠加为图表上的虚线,便于发现趋势。

URL 参数: 自定义日期范围编码在 URL 中以便共享。示例:

https://ops.company.com/reports/overview?from=2026-03-01T00:00:00Z&to=2026-03-31T23:59:59Z

9. 导出为 CSV / PDF

下载报告数据用于离线分析、演示或与外部 BI 工具集成。

访问: 点击任意报告页面右上角的导出按钮。

CSV 导出

  • 数据: 当前筛选表格视图中所有可见行
  • 编码: UTF-8 with BOM,兼容 Excel
  • 命名: {report-name}_{date-from}_{date-to}.csv

示例——主要告警 CSV:

alert_name,severity,count,mtt_avg,last_fired
HighCPU on prod-api-07,SEV3,312,2m 14s,2026-03-31T08:45:12Z
DiskSpaceWarning on db-04,SEV2,287,5m 03s,2026-03-31T07:12:44Z
MemoryPressure on cache-02,SEV4,201,3m 41s,2026-03-30T22:03:17Z

PDF 导出

  • 布局: 完整报告,图表渲染为图像,表格为打印格式化
  • 页眉: 报告标题、日期范围、生成时间戳、公司标志(如果已配置)
  • 页脚: 页码、"由灵王 Ops 生成"标语
  • 命名: {report-name}_{date-from}_{date-to}.pdf

PDF 目录(多节报告):

灵王 Ops — 运营报告
周期:2026 年 3 月 1 日至 31 日
生成:2026 年 4 月 1 日上午 9:00

目录
1. 概览仪表板 ............................. 2
2. 告警频率趋势 ........................... 3
3. 按计数的主要告警 ........................ 4
4. 按严重级别的 MTTA/MTTR .................. 5
5. 团队响应指标 ........................... 6
6. SLA 合规报告 ........................... 7

通过 API 批量导出

POST /api/v1/reports/export
{
  "report_type": "overview",
  "format": "csv",
  "start": "2026-03-01T00:00:00Z",
  "end": "2026-03-31T23:59:59Z",
  "filters": {
    "severity": ["SEV1", "SEV2"]
  }
}

10. SLA 合规报告

跟踪对正式 SLA 承诺的遵守情况——特别是对于面向客户或合同义务。

访问: 报告 → SLA 合规

P1 事件 SLA:1 小时解决

最关键的 SLA 是针对 P1(SEV1)事件——这些必须在打开后 1 小时内解决。

SLA 定义:

SLA 项目 承诺 宽限期
确认 P1 5 分钟内 0(硬限制)
解决 P1 1 小时内 0(硬限制)

每月 P1 SLA 表:

┌──────────────────────────────────────────────────────────────────┐
│ P1 SLA 合规 — 2026 年 3 月                                        │
├────────────────┬────────────┬─────────────┬──────────┬───────────┤
│ 指标            │ 承诺       │ 实际         │ 违规数   │ 合规率    │
├────────────────┼────────────┼─────────────┼──────────┼───────────┤
│ MTTA           │ < 5 分钟    │ 3m 42s      │ 0        │ 100%  ✓   │
│ MTTR           │ < 1 小时    │ 47m 12s     │ 0        │ 100%  ✓   │
│ 已确认         │ 100%       │ 100% (15/15)│ 0        │ 100%  ✓   │
└────────────────┴────────────┴─────────────┴──────────┴───────────┘

SLA 违规日志: 任何超过 MTTA 或 MTTR 目标的事件被标记为 SLA 违规。每个违规条目包括:

SLA 违规条目示例:
─────────────────────────────────────────────────────────────────
事件: INC-2026-0342
标题:   prod-api-07 完全中断
打开:  2026-03-15T14:23:11Z
MTTA:    4m 12s(目标: 5m)— 通过
MTTR:    1h 23m 44s(目标: 1h)— 违规(+23m 44s)
违约者: 值班工程师在 2 次页面失败后未能升级
行动:  已提交复盘 INC-2026-0342-PM;升级策略已更新
─────────────────────────────────────────────────────────────────

完整 SLA 概览

┌───────────┬─────────────┬─────────────┬──────────┬──────────────┐
│ SLA       │ 目标        │ 实际         │ 违规数   │ 合规率       │
├───────────┼─────────────┼─────────────┼──────────┼──────────────┤
│ P1 确认   │ < 5 分钟    │ 3m 42s      │ 0        │ 100%      ✓  │
│ P1 解决   │ < 1 小时    │ 47m 12s     │ 0        │ 100%      ✓  │
│ P2 确认   │ < 15 分钟   │ 11m 08s     │ 2        │ 96.4%     ✓  │
│ P2 解决   │ < 4 小时    │ 2h 31m      │ 1        │ 98.6%     ✓  │
│ P3 确认   │ < 30 分钟   │ 28m 55s     │ 1        │ 99.1%     ✓  │
│ P3 解决   │ < 24 小时   │ 18h 44m     │ 0        │ 100%      ✓  │
│ P4 确认   │ < 2 小时    │ 1h 34m      │ 3        │ 91.2%     ✗  │
│ P4 解决   │ < 72 小时   │ 61h 12m     │ 2        │ 94.7%     ✓  │
├───────────┼─────────────┼─────────────┼──────────┼──────────────┤
│ 总体      │             │             │ 9        │ 97.4%     ✓  │
└───────────┴─────────────┴─────────────┴──────────┴──────────────┘

SLA 趋势图表: 表下方,线条图显示 SLA 合规百分比随时间的变化,便于识别在变得严重之前的下降趋势。

SLA 通知规则: 配置 SLA 合规下降到阈值以下时的自动通知:

SLA 告警规则:
  • 警告:  P1 合规 < 95%    → 通知团队负责人
  • 严重:  P1 合规 < 90%    → 通知工程副总裁
  • 违规:  任何单一 P1 违规   → 通知 CTO + 开启复盘

快速参考:所有报告访问点

报告 菜单路径
概览仪表板 报告 → 概览
告警频率图表 报告 → 告警趋势
按计数的主要告警 报告 → 主要告警
按严重级别的 MTTA/MTTR 报告 → 响应时间
团队响应指标 报告 → 团队指标
值班覆盖 报告 → 值班覆盖
计划报告 报告 → 计划报告
SLA 合规 报告 → SLA 合规
导出(任意报告) 每个报告右上角的导出按钮
自定义日期范围 每个报告左上角的日期选择器