课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

结合讲师在阿里大数据平台十年的工作经验和在阿里计算平台实时计算组三年的工作经验,通过实践和工程角度出发,介绍不一样的实时计算。计算从基础到深入,并结合真实案例和客户自己的问题,全程干货。

目标收益

通过培训,可以让学员对实时数据处理有更深入和全面的理解,掌握实时数据平台建设思路,了解实时数据处理技术,并能够在实际应用中解决实时计算预到的工程问题。
熟悉互联网公司(如阿里巴巴、Uber、华为)的所面临的问题和工程实践经验。

培训对象

了解大数据的软件架构师。
中级和高级软件工程师。

课程大纲

实时计算现状和分析 实时计算相关概念
实时数据特点
实时计算相关技术介绍
国内外企业典型实时计算架构
实时计算应用场景总结
1. EL(Extract Load):异构系统数据同步、增量数据归集
2. ETL(Extract Transform Load):数据预处理(清洗、集成、转换)
3. EMT(Extract Match Trigger):CEP、SQL
4. EAT(Extract Algorithm Trigger)

实时计算应用场景总结
实时计算平台应该具备功能
1. 数据采集
2. 数据加工
3. 数据写入
4. 运维监控
5. 可视化操作
6. 数据安全
7. 多租户

数据加工能做什么
1. 预处理
(1) SQL
(2) UDF
(3) 插件
2. 规则匹配
(1) UDAF
(2) CEP
(3) SQL
(4) 插件
3. 多个流上数据关联
4. 流上数据与外部数据关联(Lookup)

实时计算平台建设痛点
1. 技术问题
2. 人才问题
3. 投入产出效率问题
实时计算平台落地实践 实时计算平台设计思想
1. 实时计算平台设计目标
2. 实时计算平台设计规范

实时计算平台架构设计

数据采集平台
1. 数据采集平台架构设计
2. 数据采集平台功能设计
(1) 全量数据拉取设计:MYSQL、ORACLE
(2) 增量数据拉取方案:MYSQL数据接入、ORACLE数据接入
3. 数据采集平台特性解析
(1) ORACLE表结构变更
(2) 全量拉取分片策略
(3) 数据追源ums_id_
(4) 数据链路心跳

数据计算平台
1. 数据计算平台架构设计
2. 数据计算平台功能设计
(1) 平台管理
(2) 数据安全
(3) 运维监控
(4) 数据解析
(5) 数据加工
(6) 数据写入
3. 数据计算平台特性解析
(1) 幂等写入
(2) 多Flow支持(Spark/Flink)
(3) 动态Flow指令(Spark/Flink)
(4) 监控数据采集(Spark/Flink)(Error和统计)
(5) HDFS小文件(Spark)
(6) 业务时间策略(Spark)(流上Join和Lookup)
(7) Flow漂移(Spark)
(8) 热加载Topic变化(Spark)
(9) Lookup性能优化(Spark)
(10) UDF热加载(Spark)
(11) 自定义数据格式(Spark/Flink?)
(12) CEP可视化(Flink)
(13) 启动加载数据Schema (Flink)


案例解析
1. 阿里案例
2. 华为案例
3. Uber案例
流批一体化 流批一体化产品
1. 阿里流批一体化产品
2. 华为流批一体化产品
3. Uber流批一体化产品
4. Apache Pulsar
5. Delta Lake

流批一体化总结
实时数据湖 数据湖的概念
数据湖与数据仓库、数据中台区别
实时数据湖实践
实时数据湖总结

实时计算现状和分析
实时计算相关概念
实时数据特点
实时计算相关技术介绍
国内外企业典型实时计算架构
实时计算应用场景总结
1. EL(Extract Load):异构系统数据同步、增量数据归集
2. ETL(Extract Transform Load):数据预处理(清洗、集成、转换)
3. EMT(Extract Match Trigger):CEP、SQL
4. EAT(Extract Algorithm Trigger)

实时计算应用场景总结
实时计算平台应该具备功能
1. 数据采集
2. 数据加工
3. 数据写入
4. 运维监控
5. 可视化操作
6. 数据安全
7. 多租户

数据加工能做什么
1. 预处理
(1) SQL
(2) UDF
(3) 插件
2. 规则匹配
(1) UDAF
(2) CEP
(3) SQL
(4) 插件
3. 多个流上数据关联
4. 流上数据与外部数据关联(Lookup)

实时计算平台建设痛点
1. 技术问题
2. 人才问题
3. 投入产出效率问题
实时计算平台落地实践
实时计算平台设计思想
1. 实时计算平台设计目标
2. 实时计算平台设计规范

实时计算平台架构设计

数据采集平台
1. 数据采集平台架构设计
2. 数据采集平台功能设计
(1) 全量数据拉取设计:MYSQL、ORACLE
(2) 增量数据拉取方案:MYSQL数据接入、ORACLE数据接入
3. 数据采集平台特性解析
(1) ORACLE表结构变更
(2) 全量拉取分片策略
(3) 数据追源ums_id_
(4) 数据链路心跳

数据计算平台
1. 数据计算平台架构设计
2. 数据计算平台功能设计
(1) 平台管理
(2) 数据安全
(3) 运维监控
(4) 数据解析
(5) 数据加工
(6) 数据写入
3. 数据计算平台特性解析
(1) 幂等写入
(2) 多Flow支持(Spark/Flink)
(3) 动态Flow指令(Spark/Flink)
(4) 监控数据采集(Spark/Flink)(Error和统计)
(5) HDFS小文件(Spark)
(6) 业务时间策略(Spark)(流上Join和Lookup)
(7) Flow漂移(Spark)
(8) 热加载Topic变化(Spark)
(9) Lookup性能优化(Spark)
(10) UDF热加载(Spark)
(11) 自定义数据格式(Spark/Flink?)
(12) CEP可视化(Flink)
(13) 启动加载数据Schema (Flink)


案例解析
1. 阿里案例
2. 华为案例
3. Uber案例
流批一体化
流批一体化产品
1. 阿里流批一体化产品
2. 华为流批一体化产品
3. Uber流批一体化产品
4. Apache Pulsar
5. Delta Lake

流批一体化总结
实时数据湖
数据湖的概念
数据湖与数据仓库、数据中台区别
实时数据湖实践
实时数据湖总结

提交需求