课程简介
本次课程围绕着新一代流式湖仓一体架构的构建进行展开。主要涉及Flink SQL、流式数据湖Paimon的核心原理及使用,新一代流式存储系统Fluss、实时OLAP引擎Doris的使用、以及新一代流式湖仓一体架构的核心技术选型和整体架构设计。在讲解新一代流式湖仓一体架构之前会系统分析数据仓库的发展历程和架构演进过程,包括离线数据仓库架构、实时数据仓库之Lambda架构、实时数据仓库之Kappa架构(批流一体化)、湖仓一体架构、最后到新一代流式湖仓一体架构。
通过新一代流式湖仓一体架构系统的梳理,以及其中核心技术组件的讲解,帮助学员快速掌握流式湖仓一体架构的应用。
目标收益
掌握Flink SQL的核心原理及使用
掌握流式数据湖技术组件Paimon的原理及使用
掌握新一代流式存储系统Fluss的原理及使用
掌握实时OLAP引擎Doris的原理及使用
掌握数据仓库架构的发展历史
掌握数据仓库(离线+实时)的架构设计
掌握新一代流式湖仓一体架构的设计和实现
培训对象
大数据岗位开发人员
数据分析岗位人员
课程大纲
|
第一天(上午) Flink SQL的核心原理及使用 |
1 Flink SQL核心原理快速理解(离线计算+实时计算) 2 Flink SQL中静态表和动态表的原理及使用 3 Flink SQL常见的数据类型 4 Flink SQL中的常规列和元数据列 5 Flink SQL滚动窗口和滑动窗口的使用 6 Flink SQL中Catalog的原理及使用(重点分析Hive Catalog) 7 Hive SQL离线Join VS Flink SQL双流Join 8 Flink SQL双流Join底层原理剖析 9 Flink SQL之普通双流Join(Regular Join)和维表Join(Lookup Join)的原理及应用 |
|
第一天 (下午) Paimon的核心原理及使用 |
1 数据湖四剑客(Paimon、Delta Lake、Hidu、Iceberg)对比分析 2 Paimon核心原理及架构 3 基于Flink SQL操作Paimon 4 Paimon中的表类型详解 5 Paimon中的主键表和仅追加表 6 Changelog Producers原理及案例实战 7 Merge Engines原理及案例实战 8 Paimon中的Catalog和Table详解 9 Paimon之CDC数据摄取 10 Paimon集成Hive引擎(Hive Metastore Catalog) 11 Paimon底层存储文件深入剖析 12 Paimon的典型应用场景分析 |
|
第二天(上午) Fluss的核心原理及使用 Doris的核心原理及使用 |
1 Fluss的核心原理及架构分析 2 Fluss中的表类型、分区和分桶机制详解 3 Fluss与湖仓系统的集成(Paimon\Iceberg) 4 Fluss与Flink SQL引擎的深度集成 5 基于Fluss+Paimon的实时流式湖仓解决方案 6 Doris核心原理及架构分析 7 Doris中的数据类型详解 8 Doris中数据库和表的操作 9 Doris中的数据模型(Duplicate模型、Aggregate模型、Unique模型) 10 Flink SQL + Doris案例实战(Flink Doris Connector) 11 Doris+Paimon加速湖仓查询案例分析 |
|
第二天(下午) 新一代流式湖仓一体架构的构建 |
1 数据仓库架构演变过程(离线数仓、实时数仓、批流一体数仓、湖仓一体、新一代流式湖仓一体) 2 新一代流式湖仓一体架构核心技术组件选型 3 湖仓数据建模方式及建模模型分析 4 湖仓分层设计及命名规范 5 湖仓数据清洗规则及注意事项 6 新一代流式湖仓一体架构案例分析 7 湖仓开发中的实时数据采集功能分析 8 湖仓开发中的任务调度和监控功能分析 9 湖仓开发中的注意事项 10 湖仓开发中遇到的一些性能问题 |
|
第一天(上午) Flink SQL的核心原理及使用 1 Flink SQL核心原理快速理解(离线计算+实时计算) 2 Flink SQL中静态表和动态表的原理及使用 3 Flink SQL常见的数据类型 4 Flink SQL中的常规列和元数据列 5 Flink SQL滚动窗口和滑动窗口的使用 6 Flink SQL中Catalog的原理及使用(重点分析Hive Catalog) 7 Hive SQL离线Join VS Flink SQL双流Join 8 Flink SQL双流Join底层原理剖析 9 Flink SQL之普通双流Join(Regular Join)和维表Join(Lookup Join)的原理及应用 |
|
第一天 (下午) Paimon的核心原理及使用 1 数据湖四剑客(Paimon、Delta Lake、Hidu、Iceberg)对比分析 2 Paimon核心原理及架构 3 基于Flink SQL操作Paimon 4 Paimon中的表类型详解 5 Paimon中的主键表和仅追加表 6 Changelog Producers原理及案例实战 7 Merge Engines原理及案例实战 8 Paimon中的Catalog和Table详解 9 Paimon之CDC数据摄取 10 Paimon集成Hive引擎(Hive Metastore Catalog) 11 Paimon底层存储文件深入剖析 12 Paimon的典型应用场景分析 |
|
第二天(上午) Fluss的核心原理及使用 Doris的核心原理及使用 1 Fluss的核心原理及架构分析 2 Fluss中的表类型、分区和分桶机制详解 3 Fluss与湖仓系统的集成(Paimon\Iceberg) 4 Fluss与Flink SQL引擎的深度集成 5 基于Fluss+Paimon的实时流式湖仓解决方案 6 Doris核心原理及架构分析 7 Doris中的数据类型详解 8 Doris中数据库和表的操作 9 Doris中的数据模型(Duplicate模型、Aggregate模型、Unique模型) 10 Flink SQL + Doris案例实战(Flink Doris Connector) 11 Doris+Paimon加速湖仓查询案例分析 |
|
第二天(下午) 新一代流式湖仓一体架构的构建 1 数据仓库架构演变过程(离线数仓、实时数仓、批流一体数仓、湖仓一体、新一代流式湖仓一体) 2 新一代流式湖仓一体架构核心技术组件选型 3 湖仓数据建模方式及建模模型分析 4 湖仓分层设计及命名规范 5 湖仓数据清洗规则及注意事项 6 新一代流式湖仓一体架构案例分析 7 湖仓开发中的实时数据采集功能分析 8 湖仓开发中的任务调度和监控功能分析 9 湖仓开发中的注意事项 10 湖仓开发中遇到的一些性能问题 |
近期公开课推荐