课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

在数字化转型加速的背景下,企业面临技术架构复杂化与业务高频迭代的双重挑战。站点可靠性工程(SRE)通过工程化思维和自动化实践,构建高扩展性、高可用性的系统架构,从被动运维转向主动韧性保障。本课程深度解析SRE体系方法论,结合头部企业实战案例,并融入大模型技术的前沿应用,助力团队实现运维效率与业务稳定性的双重突破。

目标收益

1. SRE体系构建:掌握SRE核心框架与Google实践(错误预算、50%研发时间原则),推动团队工程化转型。
2. 自动化与稳定性:实现运维标准化;通过SLO管理及混沌工程提升系统容错性。
3. 数据驱动运维:构建可观测性体系,结合LLM实现智能诊断与自愈,故障恢复时间缩短80%。
4. 组织与文化落地:建立无责难复盘机制,推动开发运维融合(如开发参与On-Call),设计SRE团队模型。
5. 混沌工程:主动注入故障(如网络隔离),验证系统韧性。
6. 容量规划:基于负载预测的动态资源伸缩,资源利用率提升30%。
7. 团队模型:基础架构/工具/业务SRE分层协作,业务方参与SLO制定。

培训对象

* 企业类型:主要面向互联网企业,以及有意引入 SRE 团队模式,实现运维体系转型升级的传统企业。
* 技术岗位:适合运维工程师、运维研发人员、SRE 工程师、软件研发人员、技术经理、架构师等技术岗位人员参与学习。

课程大纲

引子 从相关概念讲起,将业务的分析与现状相结合,参考成功的案例灵活运用。
概念拉齐(0.5h)
SRE 原则与实践
详细阐释 SRE 的定义、内涵,深入探究其发展起源,全面介绍 SRE 在国内的落地实践情况,让学员对 SRE 形成系统认知,解读 SRE 的核心原则,结合实际场景介绍 SRE 工程师的日常工作内容与职责,帮助学员了解 SRE 的工作模式。
1.什么是站点可靠性工程?
2.SRE的发展历史介绍
3.SRE 和 DevOps:有什么区别?
4.SRE 原则与惯例
5.SRE的目标是什么?
SRE 协同(1h)
SRE 协同、拉通、保障、推动
讲解 SRE 在团队中的关键作用,如何了解业务,根据业务来做全流程的拉通,在这过程中会面临的挑战与解决方案。
1.SRE的核心是如何拉通开发、测试协同工作,有哪些方法论及技巧
2.SRE如何跟不同产品线业务沟通制定slo,并提供不同的sla?
3.混沌、容灾、全链路监控、故障处理根据业务形态的调整
4.SRE 如何推动产品不断完善产品架构,提升SLO
5.SRE与运维的思维模式差异在哪里?
组织架构(1h)
组织如何采用 SRE
分析国内企业的SRE现状,以及向SRE模式转型过程中可能面临的挑战,如文化冲突、技术难题等,并提供切实可行的应对策略与取舍建议。
1.不同企业的 SRE架构长什么样?
2.SRE 如何根据业务及人员情况构建组织架构及人员规模
3.不同岗位人员能力如何配备
4.组织如何做出架构的调整与人员心态的调整
5.如何解决并处理相关的冲突
架构体系(1.5h)
SRE之:架构设计及研发保障
整体介绍 SRE 稳定性保障的核心前提:了解运维体系,参加技术架构设计、为稳定性目标做好重要的前置保障,让学员对该体系有宏观的认识。
1.企业的运维体系简介
2.运维架构简介
3.SRE与业务整体研发架构设计
4.架构设计保障
a.架构的韧性
b.架构的高可用性
c.架构的可运维性
5.研发流程保障
a.代码规范
b.仓库的可靠性
c.构建的效率及成功率
d.部署的成功率
案例介绍(1h)
SRE企业应用落地 案例(金融)
从案例中吸引经验
1.背景
2.SRE 团队规模及职责
3.SRE 处理工作流程
4.整体运维工具支撑介绍
5.能力构建路径、串讲
监控系统(1.5h)
核心工具:可观测监控系统
全链路监控在SRE的工作中起到核心作用,如何快速构建业务监控体系,化“被动”为“主动”。
1.监控源:物理、平台、虚拟机、业务、链路
2.监控的核心指标定义
3.网络链接监控的定义与方法
4.监控数据的消费
5.如何分析业务模型,建立起监控体系
6.监控与其它系统的自动化建设
企业案例(1.5h)
企业运维案例(证券/银行/金融等)
1.企业针对工具的灵活运用
2.如何将工具打造成平台,一步步建设的思路
3.流程与 SRE 结合情况(审批场景下如何做到效率与流程最优?)
4.如何高效利用工具解决场景化问题
流程与规范(1h)

问题处理流程、变更流程与规范(itsm在sre里的运用)
区分不同的问题处理流程,将SRE从繁琐的中断工作中解放出来,聚集于核心事件的处理,同时变更感知,变更防御等角度出发学会挖掘变更的潜在价值,并通过可视化手段展示变更效果,为决策提供支持。
1.问题处理流程
a. ITSM的设计
2.变更流程
a.变更的管控环节
b.变更的控制
c.门禁
3.变更的工程设计
4.变更与其它工具的串联
SRE应急与故障处理(1h)
ONCALL
发现问题,如何快速解决问题,是SRE的核心技能,之前学习的各种方法论与技巧,将在这里进行完整的总结与升华。
1.故障体系介绍
a.故障的定义
b.故障与业务的关联
2.SRE 故障处理思路
a.预防思路
b.故障协同
c.复盘方法
3.重大技术保障设计
a.整体设计
b.流程与方法
持续优化与运营(1h)
线上业务的长期工作
1.用户体验优化
2.业务全生命周期管理
a.业务全流程
b.业务的串联讲解
3.运营成本优化
a.成本监控
b.成本分析
c.成本优化
4.运维日常管理
a.中断工程管理
大模型时代(0.5h)
稳定性领域的大模型探索
1.技术基础与趋势:大模型概念、发展历程、核心技术原理;稳定性领域挑战及大模型的价值;行业应用现状与未来趋势。
2.故障预测与智能运维:基于大模型的故障预测方法;智能运维决策支持机制;实际案例分析。
3.讲讲运维知识库的构建(RAG)
讨论(1h)
客户场景分组讨论
解决学员的疑问
学员分组,根据公司现状结果课程内容讨论出解决方案,现场点评
引子
从相关概念讲起,将业务的分析与现状相结合,参考成功的案例灵活运用。
概念拉齐(0.5h)
SRE 原则与实践
详细阐释 SRE 的定义、内涵,深入探究其发展起源,全面介绍 SRE 在国内的落地实践情况,让学员对 SRE 形成系统认知,解读 SRE 的核心原则,结合实际场景介绍 SRE 工程师的日常工作内容与职责,帮助学员了解 SRE 的工作模式。
1.什么是站点可靠性工程?
2.SRE的发展历史介绍
3.SRE 和 DevOps:有什么区别?
4.SRE 原则与惯例
5.SRE的目标是什么?
SRE 协同(1h)
SRE 协同、拉通、保障、推动
讲解 SRE 在团队中的关键作用,如何了解业务,根据业务来做全流程的拉通,在这过程中会面临的挑战与解决方案。
1.SRE的核心是如何拉通开发、测试协同工作,有哪些方法论及技巧
2.SRE如何跟不同产品线业务沟通制定slo,并提供不同的sla?
3.混沌、容灾、全链路监控、故障处理根据业务形态的调整
4.SRE 如何推动产品不断完善产品架构,提升SLO
5.SRE与运维的思维模式差异在哪里?
组织架构(1h)
组织如何采用 SRE
分析国内企业的SRE现状,以及向SRE模式转型过程中可能面临的挑战,如文化冲突、技术难题等,并提供切实可行的应对策略与取舍建议。
1.不同企业的 SRE架构长什么样?
2.SRE 如何根据业务及人员情况构建组织架构及人员规模
3.不同岗位人员能力如何配备
4.组织如何做出架构的调整与人员心态的调整
5.如何解决并处理相关的冲突
架构体系(1.5h)
SRE之:架构设计及研发保障
整体介绍 SRE 稳定性保障的核心前提:了解运维体系,参加技术架构设计、为稳定性目标做好重要的前置保障,让学员对该体系有宏观的认识。
1.企业的运维体系简介
2.运维架构简介
3.SRE与业务整体研发架构设计
4.架构设计保障
a.架构的韧性
b.架构的高可用性
c.架构的可运维性
5.研发流程保障
a.代码规范
b.仓库的可靠性
c.构建的效率及成功率
d.部署的成功率
案例介绍(1h)
SRE企业应用落地 案例(金融)
从案例中吸引经验
1.背景
2.SRE 团队规模及职责
3.SRE 处理工作流程
4.整体运维工具支撑介绍
5.能力构建路径、串讲
监控系统(1.5h)
核心工具:可观测监控系统
全链路监控在SRE的工作中起到核心作用,如何快速构建业务监控体系,化“被动”为“主动”。
1.监控源:物理、平台、虚拟机、业务、链路
2.监控的核心指标定义
3.网络链接监控的定义与方法
4.监控数据的消费
5.如何分析业务模型,建立起监控体系
6.监控与其它系统的自动化建设
企业案例(1.5h)
企业运维案例(证券/银行/金融等)
1.企业针对工具的灵活运用
2.如何将工具打造成平台,一步步建设的思路
3.流程与 SRE 结合情况(审批场景下如何做到效率与流程最优?)
4.如何高效利用工具解决场景化问题
流程与规范(1h)

问题处理流程、变更流程与规范(itsm在sre里的运用)
区分不同的问题处理流程,将SRE从繁琐的中断工作中解放出来,聚集于核心事件的处理,同时变更感知,变更防御等角度出发学会挖掘变更的潜在价值,并通过可视化手段展示变更效果,为决策提供支持。
1.问题处理流程
a. ITSM的设计
2.变更流程
a.变更的管控环节
b.变更的控制
c.门禁
3.变更的工程设计
4.变更与其它工具的串联
SRE应急与故障处理(1h)
ONCALL
发现问题,如何快速解决问题,是SRE的核心技能,之前学习的各种方法论与技巧,将在这里进行完整的总结与升华。
1.故障体系介绍
a.故障的定义
b.故障与业务的关联
2.SRE 故障处理思路
a.预防思路
b.故障协同
c.复盘方法
3.重大技术保障设计
a.整体设计
b.流程与方法
持续优化与运营(1h)
线上业务的长期工作
1.用户体验优化
2.业务全生命周期管理
a.业务全流程
b.业务的串联讲解
3.运营成本优化
a.成本监控
b.成本分析
c.成本优化
4.运维日常管理
a.中断工程管理
大模型时代(0.5h)
稳定性领域的大模型探索
1.技术基础与趋势:大模型概念、发展历程、核心技术原理;稳定性领域挑战及大模型的价值;行业应用现状与未来趋势。
2.故障预测与智能运维:基于大模型的故障预测方法;智能运维决策支持机制;实际案例分析。
3.讲讲运维知识库的构建(RAG)
讨论(1h)
客户场景分组讨论
解决学员的疑问
学员分组,根据公司现状结果课程内容讨论出解决方案,现场点评

课程费用

6800.00 /人

课程时长

2

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求