2018.10.25 丨 msup

智能运维实践——魅族技术开放日第十三期现场纪实

2018.10.25 丨 msup

10 月 20 日,由魅族科技联合Flyme、麦思博(msup)有限公司、百度云主办的第十三期魅族技术开放日“智能运维实践”在深圳虚拟大学园触梦社区顺利召开,近200位运维从业者齐聚一堂。



本次活动以“ 智能运维实践”为主题,特邀请到魅族系统架构师梁鹏百度云智能运维负责人曲显平以及虎牙直播业务运维负责人张观石,与现场学员共同探讨当下运维的痛点对于运维的理解智能运维方法论以及智能运维的平台产品和最佳实践,为大家带来了一场技术盛宴。


在本次活动中,首先由梁鹏先生带来了主题为《 魅族CMDB运维自动化实践》的演讲。他主要从运维自动化发展历程、CMDB运维的痛点、CMDB运维自动化实践、后续发展和演进四个方面进行了阐述。

随着移动互联网由1.0到3.0+的发展,运维平台的架构也在不断演进和优化,给运维人员带来了诸多挑战。梁鹏先生就这些挑战,和团队一起,从质量、成本、安全、效率四个维度建设了资源管理平台CMDB平台、KVM云平台、容器平台)、配置管理平台DNS管理平台、LVS管理平台、CDN管理平台)、自动化平台发布平台、工单平台、巡检平台)、监控容量平台基础监控、业务监控、容量系统安全平台堡垒机、漏洞系统、WAF系统。接着他重点讲述了CMDB平台,并对其运维的痛点,做出了五点总结,即权限管理混乱;生命周期没有流程化、自动化;数据不准确;变更信息维护效率低;异常数据的发现和修复。


此外,还总结出了三个维度,平台运维效率低、平台数据质量低、流程未标准化,并对运维自动化实践所做的事宜进行了详细的阐述(从CMDB模型和标准、CMDB数据管理、CMDB实现的目标、流程管理自动化、数据自动化采集、数据异常巡检、资源池管理、维保管理角度一一介绍分享)。最后,梁鹏先生表示今后会对权限进一步优化,提高数据准确率,对CMDB平台也做出了展望,他相信未来数据采集方案会更完整和智能,同时也会流程化管理数据,更详细的拟定元数据异常巡检的规则及修复自动化。


随后,来自百度云智能运维负责人曲显平发表了《百度云智能运维实践》的演讲。曲显平先生首先为大家讲述了百度对于DevOps、SRE、AIOps三个概念的理解。

百度的运维技术归纳起来总共经历过三个阶段,即基础运维平台、开放运维平台、AIOps阶段。百度对AIOps的探索主要在监控整个体系上面的尝试,比如故障管理中的发现,变更管理的监控,监控体系中的告警。基于现有数据,他们通过算法来驱动,按照策略、类型、业务、机房、人的维度去合并,当然对于一些特殊的场景其实并不能适配,还需要个性化定制。


对于故障自愈方面结合业务场景去收集全局信息,然后通过算法去帮助快速决策,而在所有的能够故障自愈的场景中,不止是底层的公共设施,业务自身也需要具备自愈能力,所以这部分是底层技术和业务共同实现的。


无人值守变更管理,这其实对于自助化服务来说其实是一个非常重要的环节,百度的整体方案还是结合DevOps自动化流水线的方式来驱动,其中涉及到流量调度、变更多次、信息通知,当然在整个变更过程中,把时间、任务、可用性影响、用户影响、上下游的影响涵盖了。最后曲显平先生为我们讲述了AIOps遇到的挑战及ChatOps的难点,收到了参会者一致的好评。


最后一位分享嘉宾是虎牙直播业务运维负责人张观石,他为参会者带来了《直播平台的SRE实践》主题演讲。

首先,张老师简单为我们介绍了虎牙直播、S8赛事。直播平台跟传统的Web网站类不一样,相对于Web服务,直播音视频的运维更特殊,业界没有很好的参考经验,所以对于运维的挑战比较大。传统的运维,音视频技术可以对开源组件做部署、配置、优化、高可用转站。从整个链路看,视频数据量大,采集难、监控难。由此引出了SRE方法论及六种能力框架,即可靠性管理、感知能力、修复能力的建设、反脆弱能力、保障能力、安全能力


接着,就这六种能力框架,张老师对其进行了详细的解读。在引入多CDN以后,技术和管理复杂性都有大幅提高,而且视频流路径在这么复杂的场景下,必须深入音视频运维工作,这对运维质量和运维人员技能提出了更高的要求。


演讲结束后,大家意犹未尽的和老师当面进行了技术交流,共同就智能运维在不同业务场景落地实践的技术难点与解决办法展开了热烈的讨论。



本期魅族技术开放日在大家的交流声中,落下帷幕。



魅族技术开放日ppt及直播现已经放出,注"msup"公众号,并回复“魅族” 即可获取最新、最全的演讲ppt及直播;每位讲师的分享实录将陆续在msup微信公众平台发出,与读者分享。

媒体联系

票务咨询:赵丹丹 15802217295

赞助咨询:郭艳慧 13043218801

媒体支持:景    怡 13920859305