工程师
其他
SQL
Docker
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

核心大数据组件原理和开发实战

刘老师

某知名咨询公司 云平台系统架构师

毕业于⼤连理⼯⼤学
简介:
精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。
有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数
据中台项⽬架构实施经验,
⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术
栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施
最近主要项⽬介绍:
某移动⼤数据平台架构设计和设施 (Hadoop、Spark)
四⼤⾏之⼀的数据湖咨询和实施
某⼤型商业银⾏数据中台咨询
某银⾏基于开源⼤数据技术栈数据中台的咨询和实施
某航空公司数据平台流批⼀体解决⽅案和实施
特长:
在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据
中台等⽅⾯有丰富经 验。

毕业于⼤连理⼯⼤学 简介: 精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。 有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数 据中台项⽬架构实施经验, ⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术 栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施 最近主要项⽬介绍: 某移动⼤数据平台架构设计和设施 (Hadoop、Spark) 四⼤⾏之⼀的数据湖咨询和实施 某⼤型商业银⾏数据中台咨询 某银⾏基于开源⼤数据技术栈数据中台的咨询和实施 某航空公司数据平台流批⼀体解决⽅案和实施 特长: 在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据 中台等⽅⾯有丰富经 验。

课程费用

5800.00 /人

课程时长

2

成为教练

课程简介

Flink SQL 是基于流处理和批处理的强大工具,通过多表关联、自定义 TableSource 和 Table Sink 等实战,实现数据统计分析。同时,结合 Watermark 和窗口函数处理时间序列数据。此外,Flink 还与 Hive、RDBMS、Kafka、CDC、ES 等集成,满足各种数据源需求。项目实战涵盖了流批一体、Kafka、Elasticsearch、Docker 演示等环境,提供完整的解决方案。

目标收益

培训对象

课程大纲

主流大数据的整体技术架构 开源大数据技术架构
开源大数据常用组件之间的依赖关系
离线计算框架介绍
—Mapreduce、Hive、Tez、Impala、Presto
实时查询框架介绍
—NoSQL、Hbase
实时计算框架介绍
—Kafka、Flink、Spark Streaming
内存计算框架介绍
—Spark、SparkSQL、SparkMllib、SparkR
实时OLAP技术介绍
—Clickhouse、StarRocks等
海量日志快速检索架构
—ELK(Elasticsearch、Logstash、Kibana)等
数据湖工具介绍
Hudi、IceBerg
大数据平台的架构演变 数据湖架构案例实战
离线计算大数据平台架构
实时计算应用场景介绍
新一代湖仓一体架构
基于Flink实时数仓数仓解决方案
—Kafka+Flink+clickhouse
—Flink CDC+Flink+StarRocks
基于Flink CDC+Flink+Hudi流批一体数据架构解决方案
实时数仓和湖仓一体数据架构实战解析 数据接入大数据平台
-离线数据接入
-实时的数据接入
数据处理过程
-数据的ETL
-数据分层(ODS、DW和DM等)
-数据建模
-数据校验
数据应用
-数据离线应用
-数据实时应用
-数据实验室
数据展示工具(BI工具)
Hadoop开发实战 HDFS架构介绍
HDFS原理介绍
NameNode功能详解
DataNode功能详
HDFS HA功能详解
HSFD的fsimage和editslog详解
HDFS的block详解
HDFS的block的备份策略
Mapreduce原理
MapReduce流程
剖析一个MapReduce程序
Mapper和Reducer抽象类详解
Combiner详解
Partitioner详解
Hive数仓工具开发实战 Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hive的MetaStore详解
Hive的基本用法
Hive的server启动
HQL基本语法
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE
Hbase原理和开发实战 NoSQL介绍
NoSQL应用场景
Hbase的架构原理
Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore)
Hbase自带的namesapce和Meta表详解
HBase逻辑视图介绍
HBase物理视图介绍
HBase的RowKey设计原则
HBase BloomFilter的介绍
手动设置Split和Compaction操作
Pre-Split的介绍
HBase使用场景介绍
Hbase shell增删改查实战
Spark原理和开发实战 Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark容错机制
lineage和checkpoint详解
Spark的运行方式
Spark DataFrame和DateSet介绍
Spark SQL原理
Spark SQL和Hive连接
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL开发
Flink原理和开发实战 DataStream API介绍与使用
DataStream编程模型
DataStream类型与转换
Pipeline与StreamGraph转换
Transformation
时间概念与Watermark
Windows窗口计算和多流合并
Flink table API原理和使用
Flink SQL原理和使用
TimeStamp与Watermark原理和实战
多表关联实战
与Hive的集成实战
自定义TableSource、Table Sink和Table Factory实战
项目实战:基于Flink SQL实现数据统计分析
流批一体项目实战RDBMS
+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战:
Docker演示环境介绍
项目需求分析和解决方案设计
流式数仓分层模型设计
Flink CDC mysql实战
Flink CDC postgres实战
Flink CDC Kafka实战
Flink CDC ES实现
Kibana结果展示
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战
实操:老师演练项目
大数据平台实施和运维 大数据平台规划
大数据平台实施的步骤及构建
大数据平台权限认证和授权解决方案
Kerberos+Openldap+sssd+knox+Ranger实现企业级大数据平台安全控制和实操
Yarn资源分配策略详解和实操
yarn replacement rules权限控制和实操
Yarn 队列+Ranger控制详解和实操
HDFS+Ranger权限控制和实操
跨集群数据访问的安全和资源控制案例分享
某大型银行大数据平台深度解析
主流大数据的整体技术架构
开源大数据技术架构
开源大数据常用组件之间的依赖关系
离线计算框架介绍
—Mapreduce、Hive、Tez、Impala、Presto
实时查询框架介绍
—NoSQL、Hbase
实时计算框架介绍
—Kafka、Flink、Spark Streaming
内存计算框架介绍
—Spark、SparkSQL、SparkMllib、SparkR
实时OLAP技术介绍
—Clickhouse、StarRocks等
海量日志快速检索架构
—ELK(Elasticsearch、Logstash、Kibana)等
数据湖工具介绍
Hudi、IceBerg
大数据平台的架构演变
数据湖架构案例实战
离线计算大数据平台架构
实时计算应用场景介绍
新一代湖仓一体架构
基于Flink实时数仓数仓解决方案
—Kafka+Flink+clickhouse
—Flink CDC+Flink+StarRocks
基于Flink CDC+Flink+Hudi流批一体数据架构解决方案
实时数仓和湖仓一体数据架构实战解析
数据接入大数据平台
-离线数据接入
-实时的数据接入
数据处理过程
-数据的ETL
-数据分层(ODS、DW和DM等)
-数据建模
-数据校验
数据应用
-数据离线应用
-数据实时应用
-数据实验室
数据展示工具(BI工具)
Hadoop开发实战
HDFS架构介绍
HDFS原理介绍
NameNode功能详解
DataNode功能详
HDFS HA功能详解
HSFD的fsimage和editslog详解
HDFS的block详解
HDFS的block的备份策略
Mapreduce原理
MapReduce流程
剖析一个MapReduce程序
Mapper和Reducer抽象类详解
Combiner详解
Partitioner详解
Hive数仓工具开发实战
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hive的MetaStore详解
Hive的基本用法
Hive的server启动
HQL基本语法
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE
Hbase原理和开发实战
NoSQL介绍
NoSQL应用场景
Hbase的架构原理
Hbase核心概念详解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore)
Hbase自带的namesapce和Meta表详解
HBase逻辑视图介绍
HBase物理视图介绍
HBase的RowKey设计原则
HBase BloomFilter的介绍
手动设置Split和Compaction操作
Pre-Split的介绍
HBase使用场景介绍
Hbase shell增删改查实战
Spark原理和开发实战
Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark容错机制
lineage和checkpoint详解
Spark的运行方式
Spark DataFrame和DateSet介绍
Spark SQL原理
Spark SQL和Hive连接
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL开发
Flink原理和开发实战
DataStream API介绍与使用
DataStream编程模型
DataStream类型与转换
Pipeline与StreamGraph转换
Transformation
时间概念与Watermark
Windows窗口计算和多流合并
Flink table API原理和使用
Flink SQL原理和使用
TimeStamp与Watermark原理和实战
多表关联实战
与Hive的集成实战
自定义TableSource、Table Sink和Table Factory实战
项目实战:基于Flink SQL实现数据统计分析
流批一体项目实战RDBMS
+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战:
Docker演示环境介绍
项目需求分析和解决方案设计
流式数仓分层模型设计
Flink CDC mysql实战
Flink CDC postgres实战
Flink CDC Kafka实战
Flink CDC ES实现
Kibana结果展示
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战
实操:老师演练项目
大数据平台实施和运维
大数据平台规划
大数据平台实施的步骤及构建
大数据平台权限认证和授权解决方案
Kerberos+Openldap+sssd+knox+Ranger实现企业级大数据平台安全控制和实操
Yarn资源分配策略详解和实操
yarn replacement rules权限控制和实操
Yarn 队列+Ranger控制详解和实操
HDFS+Ranger权限控制和实操
跨集群数据访问的安全和资源控制案例分享
某大型银行大数据平台深度解析
提交需求