课程简介
在数字化转型加速的背景下,企业面临技术架构复杂化与业务高频迭代的双重挑战。站点可靠性工程(SRE)通过工程化思维和自动化实践,构建高扩展性、高可用性的系统架构,从被动运维转向主动韧性保障。本课程深度解析SRE体系方法论,结合头部企业实战案例,并融入大模型技术的前沿应用,助力团队实现运维效率与业务稳定性的双重突破。
目标收益
1. SRE体系构建:掌握SRE核心框架与Google实践(错误预算、50%研发时间原则),推动团队工程化转型。
2. 自动化与稳定性:实现运维标准化;通过SLO管理及混沌工程提升系统容错性。
3. 数据驱动运维:构建可观测性体系,结合LLM实现智能诊断与自愈,故障恢复时间缩短80%。
4. 组织与文化落地:建立无责难复盘机制,推动开发运维融合(如开发参与On-Call),设计SRE团队模型。
5. 混沌工程:主动注入故障(如网络隔离),验证系统韧性。
6. 容量规划:基于负载预测的动态资源伸缩,资源利用率提升30%。
7. 团队模型:基础架构/工具/业务SRE分层协作,业务方参与SLO制定。
培训对象
* 企业类型:主要面向互联网企业,以及有意引入 SRE 团队模式,实现运维体系转型升级的传统企业。
* 技术岗位:适合运维工程师、运维研发人员、SRE 工程师、软件研发人员、技术经理、架构师等技术岗位人员参与学习。
课程大纲
引子 | 从相关概念讲起,将业务的分析与现状相结合,参考成功的案例灵活运用。 |
概念拉齐(0.5h) SRE 原则与实践 |
详细阐释 SRE 的定义、内涵,深入探究其发展起源,全面介绍 SRE 在国内的落地实践情况,让学员对 SRE 形成系统认知,解读 SRE 的核心原则,结合实际场景介绍 SRE 工程师的日常工作内容与职责,帮助学员了解 SRE 的工作模式。 1.什么是站点可靠性工程? 2.SRE的发展历史介绍 3.SRE 和 DevOps:有什么区别? 4.SRE 原则与惯例 5.SRE的目标是什么? |
SRE 协同(1h) SRE 协同、拉通、保障、推动 |
讲解 SRE 在团队中的关键作用,如何了解业务,根据业务来做全流程的拉通,在这过程中会面临的挑战与解决方案。 1.SRE的核心是如何拉通开发、测试协同工作,有哪些方法论及技巧 2.SRE如何跟不同产品线业务沟通制定slo,并提供不同的sla? 3.混沌、容灾、全链路监控、故障处理根据业务形态的调整 4.SRE 如何推动产品不断完善产品架构,提升SLO 5.SRE与运维的思维模式差异在哪里? |
组织架构(1h) 组织如何采用 SRE |
分析国内企业的SRE现状,以及向SRE模式转型过程中可能面临的挑战,如文化冲突、技术难题等,并提供切实可行的应对策略与取舍建议。 1.不同企业的 SRE架构长什么样? 2.SRE 如何根据业务及人员情况构建组织架构及人员规模 3.不同岗位人员能力如何配备 4.组织如何做出架构的调整与人员心态的调整 5.如何解决并处理相关的冲突 |
架构体系(1.5h) SRE之:架构设计及研发保障 |
整体介绍 SRE 稳定性保障的核心前提:了解运维体系,参加技术架构设计、为稳定性目标做好重要的前置保障,让学员对该体系有宏观的认识。 1.企业的运维体系简介 2.运维架构简介 3.SRE与业务整体研发架构设计 4.架构设计保障 a.架构的韧性 b.架构的高可用性 c.架构的可运维性 5.研发流程保障 a.代码规范 b.仓库的可靠性 c.构建的效率及成功率 d.部署的成功率 |
案例介绍(1h) SRE企业应用落地 案例(金融) |
从案例中吸引经验 1.背景 2.SRE 团队规模及职责 3.SRE 处理工作流程 4.整体运维工具支撑介绍 5.能力构建路径、串讲 |
监控系统(1.5h) 核心工具:可观测监控系统 |
全链路监控在SRE的工作中起到核心作用,如何快速构建业务监控体系,化“被动”为“主动”。 1.监控源:物理、平台、虚拟机、业务、链路 2.监控的核心指标定义 3.网络链接监控的定义与方法 4.监控数据的消费 5.如何分析业务模型,建立起监控体系 6.监控与其它系统的自动化建设 |
企业案例(1.5h) 企业运维案例(证券/银行/金融等) |
1.企业针对工具的灵活运用 2.如何将工具打造成平台,一步步建设的思路 3.流程与 SRE 结合情况(审批场景下如何做到效率与流程最优?) 4.如何高效利用工具解决场景化问题 |
流程与规范(1h) 问题处理流程、变更流程与规范(itsm在sre里的运用) |
区分不同的问题处理流程,将SRE从繁琐的中断工作中解放出来,聚集于核心事件的处理,同时变更感知,变更防御等角度出发学会挖掘变更的潜在价值,并通过可视化手段展示变更效果,为决策提供支持。 1.问题处理流程 a. ITSM的设计 2.变更流程 a.变更的管控环节 b.变更的控制 c.门禁 3.变更的工程设计 4.变更与其它工具的串联 |
SRE应急与故障处理(1h) ONCALL |
发现问题,如何快速解决问题,是SRE的核心技能,之前学习的各种方法论与技巧,将在这里进行完整的总结与升华。 1.故障体系介绍 a.故障的定义 b.故障与业务的关联 2.SRE 故障处理思路 a.预防思路 b.故障协同 c.复盘方法 3.重大技术保障设计 a.整体设计 b.流程与方法 |
持续优化与运营(1h) 线上业务的长期工作 |
1.用户体验优化 2.业务全生命周期管理 a.业务全流程 b.业务的串联讲解 3.运营成本优化 a.成本监控 b.成本分析 c.成本优化 4.运维日常管理 a.中断工程管理 |
大模型时代(0.5h) 稳定性领域的大模型探索 |
1.技术基础与趋势:大模型概念、发展历程、核心技术原理;稳定性领域挑战及大模型的价值;行业应用现状与未来趋势。 2.故障预测与智能运维:基于大模型的故障预测方法;智能运维决策支持机制;实际案例分析。 3.讲讲运维知识库的构建(RAG) |
讨论(1h) 客户场景分组讨论 |
解决学员的疑问 学员分组,根据公司现状结果课程内容讨论出解决方案,现场点评 |
引子 从相关概念讲起,将业务的分析与现状相结合,参考成功的案例灵活运用。 |
概念拉齐(0.5h) SRE 原则与实践 详细阐释 SRE 的定义、内涵,深入探究其发展起源,全面介绍 SRE 在国内的落地实践情况,让学员对 SRE 形成系统认知,解读 SRE 的核心原则,结合实际场景介绍 SRE 工程师的日常工作内容与职责,帮助学员了解 SRE 的工作模式。 1.什么是站点可靠性工程? 2.SRE的发展历史介绍 3.SRE 和 DevOps:有什么区别? 4.SRE 原则与惯例 5.SRE的目标是什么? |
SRE 协同(1h) SRE 协同、拉通、保障、推动 讲解 SRE 在团队中的关键作用,如何了解业务,根据业务来做全流程的拉通,在这过程中会面临的挑战与解决方案。 1.SRE的核心是如何拉通开发、测试协同工作,有哪些方法论及技巧 2.SRE如何跟不同产品线业务沟通制定slo,并提供不同的sla? 3.混沌、容灾、全链路监控、故障处理根据业务形态的调整 4.SRE 如何推动产品不断完善产品架构,提升SLO 5.SRE与运维的思维模式差异在哪里? |
组织架构(1h) 组织如何采用 SRE 分析国内企业的SRE现状,以及向SRE模式转型过程中可能面临的挑战,如文化冲突、技术难题等,并提供切实可行的应对策略与取舍建议。 1.不同企业的 SRE架构长什么样? 2.SRE 如何根据业务及人员情况构建组织架构及人员规模 3.不同岗位人员能力如何配备 4.组织如何做出架构的调整与人员心态的调整 5.如何解决并处理相关的冲突 |
架构体系(1.5h) SRE之:架构设计及研发保障 整体介绍 SRE 稳定性保障的核心前提:了解运维体系,参加技术架构设计、为稳定性目标做好重要的前置保障,让学员对该体系有宏观的认识。 1.企业的运维体系简介 2.运维架构简介 3.SRE与业务整体研发架构设计 4.架构设计保障 a.架构的韧性 b.架构的高可用性 c.架构的可运维性 5.研发流程保障 a.代码规范 b.仓库的可靠性 c.构建的效率及成功率 d.部署的成功率 |
案例介绍(1h) SRE企业应用落地 案例(金融) 从案例中吸引经验 1.背景 2.SRE 团队规模及职责 3.SRE 处理工作流程 4.整体运维工具支撑介绍 5.能力构建路径、串讲 |
监控系统(1.5h) 核心工具:可观测监控系统 全链路监控在SRE的工作中起到核心作用,如何快速构建业务监控体系,化“被动”为“主动”。 1.监控源:物理、平台、虚拟机、业务、链路 2.监控的核心指标定义 3.网络链接监控的定义与方法 4.监控数据的消费 5.如何分析业务模型,建立起监控体系 6.监控与其它系统的自动化建设 |
企业案例(1.5h) 企业运维案例(证券/银行/金融等) 1.企业针对工具的灵活运用 2.如何将工具打造成平台,一步步建设的思路 3.流程与 SRE 结合情况(审批场景下如何做到效率与流程最优?) 4.如何高效利用工具解决场景化问题 |
流程与规范(1h) 问题处理流程、变更流程与规范(itsm在sre里的运用) 区分不同的问题处理流程,将SRE从繁琐的中断工作中解放出来,聚集于核心事件的处理,同时变更感知,变更防御等角度出发学会挖掘变更的潜在价值,并通过可视化手段展示变更效果,为决策提供支持。 1.问题处理流程 a. ITSM的设计 2.变更流程 a.变更的管控环节 b.变更的控制 c.门禁 3.变更的工程设计 4.变更与其它工具的串联 |
SRE应急与故障处理(1h) ONCALL 发现问题,如何快速解决问题,是SRE的核心技能,之前学习的各种方法论与技巧,将在这里进行完整的总结与升华。 1.故障体系介绍 a.故障的定义 b.故障与业务的关联 2.SRE 故障处理思路 a.预防思路 b.故障协同 c.复盘方法 3.重大技术保障设计 a.整体设计 b.流程与方法 |
持续优化与运营(1h) 线上业务的长期工作 1.用户体验优化 2.业务全生命周期管理 a.业务全流程 b.业务的串联讲解 3.运营成本优化 a.成本监控 b.成本分析 c.成本优化 4.运维日常管理 a.中断工程管理 |
大模型时代(0.5h) 稳定性领域的大模型探索 1.技术基础与趋势:大模型概念、发展历程、核心技术原理;稳定性领域挑战及大模型的价值;行业应用现状与未来趋势。 2.故障预测与智能运维:基于大模型的故障预测方法;智能运维决策支持机制;实际案例分析。 3.讲讲运维知识库的构建(RAG) |
讨论(1h) 客户场景分组讨论 解决学员的疑问 学员分组,根据公司现状结果课程内容讨论出解决方案,现场点评 |