好的,这是对您上传的 《The SRE Report 2025 Catchpoint.pdf》 报告的梳理总结。
Catchpoint 2025 SRE 报告摘要
[cite_start]《The SRE Report 2025》(第七版) 是基于年度 SRE 调查所撰写的一份独立研究报告 cite: 1683, 1686。报告旨在客观呈现数据,以推动可靠性和弹性实践的进步 cite: 1685, 1689。本报告探讨了包括时间花费、管理层责任对可靠性认知的影响等传统主题,并新增了关于生产压力和数字性能成熟度等新研究 [cite: 1687, 1688]。报告的核心洞察如下:
洞察一:慢即是宕机(Slow is Officially the New Down)
- [cite_start]性能是新的黄金标准: “慢即是宕机”的含义是糟糕的性能与完全宕机或不可用一样糟糕 cite: 1713, 1719。这标志着性能思维的演变,强调了性能作为关键维度,超越了仅仅是正常运行时间(Uptime) [cite: 1714, 1802]。
- [cite_start]组织共识: 53% 的组织普遍认同“慢即是宕机”的说法 [cite: 1716, 1722]。
- [cite_start]优先级: 组织未来 12 个月内计划优先采纳的两大重点是 站点可靠性工程 (SRE) (41%) 和 服务水平目标/体验水平目标 (SLOs/XLOs) (40%) cite: 1742, 1743。这强调了根据目标来追踪性能指标的必要性 [cite: 1736, 1738]。
- [cite_start]持续优化机会: 报告指出,持续的性能优化是一个重要的机会,因为客户的数字体验期望将不断提高 [cite: 1781, 1782, 1783]。
洞察二:Toil(重复性工作)水平首次上升(与 AI 预期相反)
[cite_start]Toil 上升: 运营任务的负担有所增加,这是 Toil(手动、重复、可自动化、缺乏持久价值的工作)水平五年来首次上升 [cite: 1814, 1819, 1835]。
- [cite_start]2025 年,Toil 占工作时间的 中位数上升至 20%(2024 年为 14%) [cite: 1816]。
- [cite_start]运营活动花费的时间中位数从 2024 年的 25% 上升至 30% [cite: 1834]。
- [cite_start]对工程工作的影响: 运营负荷的增加挤占了原本可用于主动工程努力的时间,限制了创新和战略发展能力 [cite: 1835, 1836]。
- [cite_start]AI 的悖论: 尽管人们普遍期望 AI 能够减少 Toil cite: 1822,但报告推测,AI 加速了有价值活动的实现,但节省下来的时间可能被 Toil 任务所填补 cite: 1825, 1826。此外,AI 系统本身(例如,维护模型和运行大规模 GPU 集群)也成为了新的运营工作来源 [cite: 1850]。
洞察三:组织优先级不稳定的风险
- [cite_start]表面稳定: 大多数团队(57%)认为组织优先级是稳定的 cite: 1858。同时,多数组织(58%)认为 OKRs(目标与关键成果)得到了清晰传达,且可靠性挑战得到了解决(53%) [cite: 1864, 1874]。
- [cite_start]速度与稳定性的冲突: 尽管有这些积极认知,但仍有多数受访者感到有压力,需要优先考虑发布时间表或截止日期,而非可靠性(41% 经常/总是如此) [cite: 1887, 1889]。
- [cite_start]核心关联: 生产性能压力越频繁,组织的优先级就显得越不稳定 [cite: 1891, 1892]。
- [cite_start]建议: 组织优先级不可避免地会发生变化,因此可靠性实践者应在构建能力时,着重于提高弹性和可重用性,以应对新的或不同的业务优先级 [cite: 1895, 1896]。
洞察四:单一界面还是多重痛苦?
- [cite_start]工具蔓延的定义: 问题的关键不在于“技术栈中有多少工具”,而在于监控/可观测性工具链所获得价值是否大于其总成本(包括硬性资金和实施维护时间) [cite: 1919, 1920]。
- [cite_start]多工具是常态: 大多数组织使用 2 到 10 个 监控或可观测性工具(61% 使用 2-5 个,25% 使用 6-10 个) cite: 1924, 1931。这是可以接受的,因为不同的技术栈(如应用栈与互联网栈)需要不同的工具来实现全面覆盖 [cite: 1927, 1928]。
- [cite_start]可观测性水平不足: 多数组织(51% 持“少于所需”的观点)认为其当前的可观测性水平不足 [cite: 1933]。
洞察七(部分):承认差距,弥补差距
- [cite_start]差距的存在: 组织在“想象中的工作”(work-as-imagined)和“实际完成的工作”(work-as-done)之间存在可靠性和弹性实践的感知差距,这可能导致利益相关者之间的误解和沟通不畅 [cite: 1631]。
- [cite_start]解决机会: 承认这种差距的存在 是将“可靠性即功能”(reliability-as-a-feature)实践向前推进的绝佳机会 [cite: 1634]。
- [cite_start]弥合差距: 弥合差距的关键在于建立透明的沟通渠道、定期进行并更新评估,并确保所有相关方都了解情况并参与决策过程 [cite: 1635]。