工程师
互联网
其他
大数据
数据挖掘
Python
SQL
数据分析
Spark
大数据平台
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

数据分析技能培训

刘老师

某知名咨询公司 云平台系统架构师

毕业于⼤连理⼯⼤学
简介:
精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。
有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数
据中台项⽬架构实施经验,
⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术
栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施
最近主要项⽬介绍:
某移动⼤数据平台架构设计和设施 (Hadoop、Spark)
四⼤⾏之⼀的数据湖咨询和实施
某⼤型商业银⾏数据中台咨询
某银⾏基于开源⼤数据技术栈数据中台的咨询和实施
某航空公司数据平台流批⼀体解决⽅案和实施
特长:
在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据
中台等⽅⾯有丰富经 验。

毕业于⼤连理⼯⼤学 简介: 精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。 有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数 据中台项⽬架构实施经验, ⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术 栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施 最近主要项⽬介绍: 某移动⼤数据平台架构设计和设施 (Hadoop、Spark) 四⼤⾏之⼀的数据湖咨询和实施 某⼤型商业银⾏数据中台咨询 某银⾏基于开源⼤数据技术栈数据中台的咨询和实施 某航空公司数据平台流批⼀体解决⽅案和实施 特长: 在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据 中台等⽅⾯有丰富经 验。

课程费用

5800.00 /人

课程时长

2

成为教练

课程简介

数据分析技能培训的培训时长为2天,培训内容涵盖数据思维的概念、特点、方法论和应用价值,以及基于大数据平台落地数据思维的案例分享。此外,还介绍了数据分析和挖掘流程,包括数据取样、探索、预处理和特征工程构建等。在Python和Spark编程方面,学员将学习Python数据挖掘常用模块、Numpy、pandas和Matplotlib等库,以及Spark编程模型、RDD操作和Spark SQL原理和实践等内容。这些内容将帮助学员掌握数据分析技能,提高数据处理和分析能力,为大数据时代的业务发展打下坚实基础

目标收益

培训对象

课程大纲

数据分析和数据挖掘体系及方法论 数据思维的概念
数据思维的特点
数据思维的方法论
数据思维的应用价值
数据思维的应用流程
数据思维的模式
— 全量数据思维
— 容错性思维
— 相关性思维
基于大数据平台落地数据思维的案例分享 数据采集
数据存储
数据处理
数据建模( 数据指标和维度)
数据分析和可视化
数据分析和挖掘流程介绍 数据挖掘的基本任务
定义分析和挖掘目标
数据取样
数据探索
单变量数据探索
数据关联性分析
数据预处理
数据特征工程构建和选择
挖掘建模
模型评价
Python数据分析库实战 Python数据挖掘常用模块
Numpy
pandas
Matplotlib
Python机器学习库:Scikit-learn
Spark编程模型和解析 Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark的累加器详解
Spark的广播变量详解
Spark容错机制
—lineage和checkpoint详解
Spark的运行方式
Spark的Shuffle原理详解
—Sort-Based原理
—Hash-Based原理
Spark Partition详解
Spark SQL原理和实践 Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL内核
Spark SQL和Hive连接
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
Spark SQL的实例操作demo
Spark SQL的编程
Spark SQL实操演示
PySpark原理和基础操作 Pyspark实例创建
1.引入库
2.转换实现
pyspark pandas series创建
pyspark pandas dataframe创建
from_pandas转换
Spark DataFrame转换
PySpark Pandas操作
1.读取行列索引
2.内容转换为数组
3.DataFrame统计描述
4.转置
5.排序
按行索引排序
按某列值排序
PySpark数据分析营销案例实战 一、数据概况分析
• 数据概况
• 数据清洗
二、单变量分析
• 观察样本0、1的平衡性
• 观察均值大小
• 可视化
三、相关性分析和可视化
四、逻辑回归模型的建立和评估
• 模型建立
• 模型评估
• 模型优化
五、业务价值
六、模型管理、发布和调用
七、MLFlow模型管理工具介绍和实战
数据分析和数据挖掘体系及方法论
数据思维的概念
数据思维的特点
数据思维的方法论
数据思维的应用价值
数据思维的应用流程
数据思维的模式
— 全量数据思维
— 容错性思维
— 相关性思维
基于大数据平台落地数据思维的案例分享
数据采集
数据存储
数据处理
数据建模( 数据指标和维度)
数据分析和可视化
数据分析和挖掘流程介绍
数据挖掘的基本任务
定义分析和挖掘目标
数据取样
数据探索
单变量数据探索
数据关联性分析
数据预处理
数据特征工程构建和选择
挖掘建模
模型评价
Python数据分析库实战
Python数据挖掘常用模块
Numpy
pandas
Matplotlib
Python机器学习库:Scikit-learn
Spark编程模型和解析
Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark的累加器详解
Spark的广播变量详解
Spark容错机制
—lineage和checkpoint详解
Spark的运行方式
Spark的Shuffle原理详解
—Sort-Based原理
—Hash-Based原理
Spark Partition详解
Spark SQL原理和实践
Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL内核
Spark SQL和Hive连接
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
Spark SQL的实例操作demo
Spark SQL的编程
Spark SQL实操演示
PySpark原理和基础操作
Pyspark实例创建
1.引入库
2.转换实现
pyspark pandas series创建
pyspark pandas dataframe创建
from_pandas转换
Spark DataFrame转换
PySpark Pandas操作
1.读取行列索引
2.内容转换为数组
3.DataFrame统计描述
4.转置
5.排序
按行索引排序
按某列值排序
PySpark数据分析营销案例实战
一、数据概况分析
• 数据概况
• 数据清洗
二、单变量分析
• 观察样本0、1的平衡性
• 观察均值大小
• 可视化
三、相关性分析和可视化
四、逻辑回归模型的建立和评估
• 模型建立
• 模型评估
• 模型优化
五、业务价值
六、模型管理、发布和调用
七、MLFlow模型管理工具介绍和实战
提交需求