课程费用

5800.00 /人

课程时长

1

成为教练

课程简介

Google 对 SRE 解释是(via Site Reliability Engineering - Wikipedia):
Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems.
与 DevOps 工程师的高效能有所不同,SRE 的关键词包括:高扩展性、高可用性。其职责包括:
为应用、中间件、基础设施等提供选型、设计、开发、容量规划、调优、故障处理,为业务系统提供基于可用性、可扩展性考虑决策,参与业务系统设计和实施定位、处理、管理故障,优化导致故障发生相关部件,提高各部件资源利用率。

目标收益

1. SRE的历史及其在Google中的实践
2. SRE与DevOps和其他流行框架的相互关系
3. SRE背后的基本原则
4. 可观测性可以指示服务的运行状况
5. SRE工具,自动化技术和安全性的重要性
6. 抗脆弱性,我们的失败和失败测试方法
7. 引入SRE带来的组织影响

培训对象

适用于开发业务相关的软件架构师、软件设计师、运维架构师、高级运维、运维经理、运维总监

课程大纲

第一单元 概念拉齐
SRE原则与实践
什么是站点可靠性工程?
SRE和DevOps:有什么区别?
SRE原则与惯例
SRE工作的流程是什么?(涉及多个团队相关的)
第二单元 流程与规范
SRE工作的流程与规划的建议
变更流程
变更控制表标准
故障处理流程(涉及一线、产研之间的流程)
故障演练设计
故障复盘报告模板
第三单元 IDC建设思路
IDC建设
IDC 整体设计
机房、硬件、网络、电源、链路、UPS
高可用网络保障方法
跨IDC网络保障
IDC的监控与自动化方法
第三单元 案例介绍
企业SRE案例
背景
SRE团队规模介绍
SRE 职责
SRE 处理工作流程
整体运维工具支撑介绍
能力构建路径串讲
第四单元 监控系统
监控系统介绍
监控源:物理,平台,虚拟机,业务,链路,
监控核心指标定义
拔测系统构架设计
网络链接监控的定义与方法
监控与其它系统的自动化建设
第五单元 组织架构
组织如何采用SRE
SRE的规模
人员能力
基础架构
产品sla 定义
第六单元 AIOPS
2个AIOPS场景介绍
根因分析场景
故障预测场景
讨论 公有云运维工具简介
客户场景讨论
第一单元 概念拉齐
SRE原则与实践
什么是站点可靠性工程?
SRE和DevOps:有什么区别?
SRE原则与惯例
SRE工作的流程是什么?(涉及多个团队相关的)
第二单元 流程与规范
SRE工作的流程与规划的建议

变更流程
变更控制表标准
故障处理流程(涉及一线、产研之间的流程)
故障演练设计
故障复盘报告模板
第三单元 IDC建设思路
IDC建设

IDC 整体设计
机房、硬件、网络、电源、链路、UPS
高可用网络保障方法
跨IDC网络保障
IDC的监控与自动化方法
第三单元 案例介绍
企业SRE案例

背景
SRE团队规模介绍
SRE 职责
SRE 处理工作流程
整体运维工具支撑介绍
能力构建路径串讲
第四单元 监控系统
监控系统介绍
监控源:物理,平台,虚拟机,业务,链路,
监控核心指标定义
拔测系统构架设计
网络链接监控的定义与方法
监控与其它系统的自动化建设
第五单元 组织架构
组织如何采用SRE

SRE的规模
人员能力
基础架构
产品sla 定义
第六单元 AIOPS
2个AIOPS场景介绍

根因分析场景
故障预测场景
讨论
公有云运维工具简介
客户场景讨论
提交需求