课程简介
本课程系统性地介绍了自动化运维与AIOps的核心概念、架构设计与企业级落地实践。内容涵盖AIOps场景与趋势、LLM与运维工具链结合、自动化架构建设思路、典型行业案例剖析(社交、电商、游戏、搜索等),以及混合云环境下的运维管理策略。课程注重实战,通过真实企业案例解析与分组实践,帮助学员掌握从工具选型、架构设计到AI辅助运维的全链路能力,提升复杂环境下的自动化运维与智能运维水平。
目标收益
1、掌握AIOps核心场景与工具链:了解各大公司AIOps落地场景、常用工具及其价值,把握行业发展趋势。
2、理解LLM与运维结合实践:学习LLM在DevOps、K8S、监控等工具链中的具体应用与未来方向。
3、构建自动化运维架构能力:通过互联网、电商、社交等企业案例,掌握三层架构、混合云管理等核心架构设计方法。
4、具备AIOps落地实战经验:通过报警收敛、故障预测、多维监控等案例,掌握AIOps在真实业务中的实施路径。
5、提升问题解决与方案设计能力:通过分组实战演练,系统分析现状、制定目标、形成可落地方案,并获得讲师点评。
培训对象
高级程序员、系统架构师、系统管理员、运维工程师、运维架构师、项目经理以及其他具有与运维相关的人员。
课程大纲
第一章: AIOPS场景及趋势 |
1.AIOps场景介绍 1.1 各大公司场景 1.2 利用到的AIOPS 工具 1.3 价值与收益 2.AIOPS 行业发展趋势介绍 2.1 未来的趋势报告解度 2.2 个人的一些想法 |
第二章: AIOPS与LLM |
1.devops 工具链里的LLM 结合介绍 1.1 研发工具结合 1.2 K8S 工具结合 1.3监控三件套工具结合 2.未来的方向要如何选择,各大公司的尝试是什么? |
第三章: 自动化运维架构建设思路 |
1.1 某互联网社交公司 1.2 某电商公司 1.3 某搜索公司 2、自动化运维架构与业务特点 2.1 详细讲解架构特点 2.2 架构逐步构建思路 2.3 业务特点与架构耦合思路 3、典型的三层架构模式讲解 3.1 三层架构模式的通用性 3.2 如何快速构建模型 4、混和云模式下的管理思路 4.1 云时代下的底层建设 4.2 如何利用云服务构建 |
第四章:自动化建设案例 思考:aiops在案例中要如何运用 |
1、案例解析:某社交公司 1.1 遇到的问题:快速扩张、快速迭代 1.2 解决思路 1.3 工程实践 2、案例解析:某游戏公司 2.1 遇到的问题:监控系统问题较大,整体运维体系无法形成闭环; 2.2 解决思路 2.3 工程实践 |
第五章: AIOps企业案例剖析 |
1、AIOps 的落地实践 1.1 报警异常收敛 1.2 报警信息关联分析 1.3 磁盘故障预测 1.4 业务关联信息分析 2、监控中的AIOps 的落地实践 2.1多维监控 2.2AIOPS的运用 2.3算法与业务场景 |
第六章:实践 动手做一遍好比听一百遍,听完课,马上结合公司的特点,进行分组讨论,制定目标,快速落地。 |
本部分为分组动手练习: 1、分析目前系统的现状、找到问题; 2、确定要实现的目标; 3、行成解决方案 4、落地实践的具体步骤 5、各小组分享自己的方案 6、讲师点评 |
第一章: AIOPS场景及趋势 1.AIOps场景介绍 1.1 各大公司场景 1.2 利用到的AIOPS 工具 1.3 价值与收益 2.AIOPS 行业发展趋势介绍 2.1 未来的趋势报告解度 2.2 个人的一些想法 |
第二章: AIOPS与LLM 1.devops 工具链里的LLM 结合介绍 1.1 研发工具结合 1.2 K8S 工具结合 1.3监控三件套工具结合 2.未来的方向要如何选择,各大公司的尝试是什么? |
第三章: 自动化运维架构建设思路 1.1 某互联网社交公司 1.2 某电商公司 1.3 某搜索公司 2、自动化运维架构与业务特点 2.1 详细讲解架构特点 2.2 架构逐步构建思路 2.3 业务特点与架构耦合思路 3、典型的三层架构模式讲解 3.1 三层架构模式的通用性 3.2 如何快速构建模型 4、混和云模式下的管理思路 4.1 云时代下的底层建设 4.2 如何利用云服务构建 |
第四章:自动化建设案例 思考:aiops在案例中要如何运用 1、案例解析:某社交公司 1.1 遇到的问题:快速扩张、快速迭代 1.2 解决思路 1.3 工程实践 2、案例解析:某游戏公司 2.1 遇到的问题:监控系统问题较大,整体运维体系无法形成闭环; 2.2 解决思路 2.3 工程实践 |
第五章: AIOps企业案例剖析 1、AIOps 的落地实践 1.1 报警异常收敛 1.2 报警信息关联分析 1.3 磁盘故障预测 1.4 业务关联信息分析 2、监控中的AIOps 的落地实践 2.1多维监控 2.2AIOPS的运用 2.3算法与业务场景 |
第六章:实践 动手做一遍好比听一百遍,听完课,马上结合公司的特点,进行分组讨论,制定目标,快速落地。 本部分为分组动手练习: 1、分析目前系统的现状、找到问题; 2、确定要实现的目标; 3、行成解决方案 4、落地实践的具体步骤 5、各小组分享自己的方案 6、讲师点评 |