大数据平台和机器学习应用实践-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

通过介绍大数据的核心计算和存储组件，以及整个完整的大数据平台架构，结合具体的数据分析和机器学习案例分析，让大家了解和掌握大数据平台、机器学习和数据分析相关知识、最新的发展趋势和如何应用到实际项目实践中。

目标收益

通过介绍大数据的核心计算和存储组件，以及整个完整的大数据平台架构，结合具体的数据分析和机器学习案例分析，让大家了解和掌握大数据平台、数据分析和机器学习相关知识、最新的发展趋势，以及如何应用到实际项目实践中。

培训对象

课程大纲

大数据和大数据平台概念	1. 大数据技术的发展历程和应用背景、大数据产业链概况，以及大数据技术在互联网等行业中的应用实践； 2. 数据平台的基本概念和架构：数据平台的组成部分，功能和作用：包括数据存储、计算、传输（输入/输出）、任务调度系统、开发者平台、数据质量监控系统等。以某知名互联网公司数据平台架构为例进行分享，节点2000+，存储50PB 3. 大数据在企业运营中的应用
Hadoop分布式存储HDFS介绍	1. Hadoop大数据存储系统HDFS的技术原理及应用实战，以及分布式文件系统HDFS概述、功能、作用、优势、应用现状和发展趋势 2. HDFS分布式存储系统的核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、工作机制、存储扩容与吞吐性能扩展
MapReduce计算执行框架	1. 大数据平台中的并行计算处理与函数式编程技术原理，以及数据并行技术—MapReduce技术的工作机制、工作原理、性能调优和大数据处理架构，以及MapReduce技术的发展趋势 2. Hadoop MapReduce并行处理平台的系统架构、核心功能模块、MapReduce编程应用开发实践
资源调度框架YARN介绍	1. YARN 集群的架构 2. 资源分配和故障恢复 3. 使用 YARN Web 用户界面 4. 管理正在运行的作业 5. 配置公平调度器 6. 实现多租户架构
Hadoop集群的高级特性、集群建设和运维实践	1. Namenode\DataNode节点硬件以及网络选择 2. 集群高可用配置 3. 集群机房实际部署拓扑推荐——PB级别容量集群的实际配置方案 4. 集群监控和自动化运维实践 5. 常见的 Hadoop Clusters 的故障排除
数据仓库和数据分析实践	1. Hive基本介绍和Hive在数据仓库中的使用 2. Hive的配置和使用 3. Hive的HQL扩展开发数据仓库建设经验分享——以知名互联网公司仓库建设实践经验：表数量2万+、分析师200+、模型和任务数量2万+
Spark分享和实践	1. Spark的基础概念 2. Spark安装和配置 3. RDD 基本概念 4. Spark SQL和DataFrames介绍 5. Spark Streaming开发实践 Spark SQL和Hive在数据分析中的整合实践
实时和流计算	1. 介绍Flink相关概念和基础知识，以及如何使用Flink等。 2. 以流量实时化和实时推荐为例，介绍实时系统的使用场景、系统架构和最佳实践 3. Spark相关介绍和基础知识 4. Spark/Spark SQL/Spark Streaming的使用场景和特点 5. 在流处理方向Spark Stream和Flink的区别和使用特点案例分享：实时和离线融合在互联网公司的实践
机器学习和深度学习知识原理	1. 机器学习知识与人工智能、深度学习关系； 2. 机器学习应用场景是什么； 3. 机器学习分类和算法基本介绍：监督学习算法（Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等）； 4. 机器学习分类和算法基本介绍：无监督学习算法（K-Means、PCA、LDA等）； 5. 机器学习评估指标； 6. 机器学习常用数学知识；
特征工程和模型训练	1. 特征工程（特征提取，特征离散化，特征交叉等）； 2. 3.如何大规模实时&离线训练模型（训练集、测试集、验证集／评估指标AUC、ABTest 等）
大规模机器学习平台	1. 模型开发（如何支持Python、Spark ML、R、TensorFlow、PyTorch等机器学习和深度学习框架开发） 2. 数据存储：实时特征+离线历史数据 3. 大规模分布式计算：CPU + GPU 4. 模型发布和上线 5. 我们的大规模机器学习平台分享（支持200+ 算法和模型开发人员）
用户画像在个性化性化推荐系统领域	案例简介：用户画像数据体系建设，以及基于用户画像数据、用户实时行为数据的个性化推荐系统介绍 1. 用户画像体系介绍 2. 用户特征抽取 3. 用户特征存储和应用 4. 个性化推荐系统和用户画像的结合
推荐系统实践	案例简介：我们的推荐系统如何支持每天上亿用户访问；以及亿级别的销售额提升 1. 推荐系统整体架构 2. 算法和模型支持 3. 算法评估和灰度 4. ABT效果检验
知名互联网公司的数据驱动精准化营销实践	案例简介：结合用户画像数据，给不同用户人群发送PUSH（短信）的营销效果分析 1. 用户宽表建设 2. 根据特征选择用户群体 3. PUSH系统和用户数据整合 4. PUSH效果分析（根据用户行为数据分析营销效果、用户留存以及活动ROI）
实时数据看板分享（双十一大屏）	案例简介：双十一大促销售额、转化率、UV、漏斗等核心数据实时大屏展示 1. 订单和用户行为数据实时接入 2. 使用Flink（Spark）做实时数据计算 3. HBase存储计算指标 4. 数据Service提供访问接口 5. 前端大屏动态秒级更新数据
数据运营平台介绍	数据运营平台支持商务、运营等对公司日常销售、转换率、用户访问、品牌等的售卖详细情况分析；分为固定产品、自助分析系统等，挖掘深层次的商业机会 1. 运营看板实例分享 2. 自助分析系统建设经验分享

大数据和大数据平台概念

1. 大数据技术的发展历程和应用背景、大数据产业链概况，以及大数据技术在互联网等行业中的应用实践；
2. 数据平台的基本概念和架构：数据平台的组成部分，功能和作用：包括数据存储、计算、传输（输入/输出）、任务调度系统、开发者平台、数据质量监控系统等。以某知名互联网公司数据平台架构为例进行分享，节点2000+，存储50PB
3. 大数据在企业运营中的应用

Hadoop分布式存储HDFS介绍

1. Hadoop大数据存储系统HDFS的技术原理及应用实战，以及分布式文件系统HDFS概述、功能、作用、优势、应用现状和发展趋势
2. HDFS分布式存储系统的核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、工作机制、存储扩容与吞吐性能扩展

MapReduce计算执行框架

1. 大数据平台中的并行计算处理与函数式编程技术原理，以及数据并行技术—MapReduce技术的工作机制、工作原理、性能调优和大数据处理架构，以及MapReduce技术的发展趋势
2. Hadoop MapReduce并行处理平台的系统架构、核心功能模块、MapReduce编程应用开发实践

资源调度框架YARN介绍

1. YARN 集群的架构
2. 资源分配和故障恢复
3. 使用 YARN Web 用户界面
4. 管理正在运行的作业
5. 配置公平调度器
6. 实现多租户架构

Hadoop集群的高级特性、集群建设和运维实践

1. Namenode\DataNode节点硬件以及网络选择
2. 集群高可用配置
3. 集群机房实际部署拓扑推荐——PB级别容量集群的实际配置方案
4. 集群监控和自动化运维实践
5. 常见的 Hadoop Clusters 的故障排除

数据仓库和数据分析实践

1. Hive基本介绍和Hive在数据仓库中的使用
2. Hive的配置和使用
3. Hive的HQL扩展开发
数据仓库建设经验分享——以知名互联网公司仓库建设实践经验：表数量2万+、分析师200+、模型和任务数量2万+

Spark分享和实践

1. Spark的基础概念
2. Spark安装和配置
3. RDD 基本概念
4. Spark SQL和DataFrames介绍
5. Spark Streaming开发实践
Spark SQL和Hive在数据分析中的整合实践

实时和流计算

1. 介绍Flink相关概念和基础知识，以及如何使用Flink等。
2. 以流量实时化和实时推荐为例，介绍实时系统的使用场景、系统架构和最佳实践
3. Spark相关介绍和基础知识
4. Spark/Spark SQL/Spark Streaming的使用场景和特点
5. 在流处理方向Spark Stream和Flink的区别和使用特点
案例分享：实时和离线融合在互联网公司的实践

机器学习和深度学习知识原理

1. 机器学习知识与人工智能、深度学习关系；
2. 机器学习应用场景是什么；
3. 机器学习分类和算法基本介绍：监督学习算法（Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等）；
4. 机器学习分类和算法基本介绍：无监督学习算法（K-Means、PCA、LDA等）；
5. 机器学习评估指标；
6. 机器学习常用数学知识；

特征工程和模型训练

1. 特征工程（特征提取，特征离散化，特征交叉等）；
2. 3.如何大规模实时&离线训练模型（训练集、测试集、验证集／评估指标AUC、ABTest 等）

大规模机器学习平台

1. 模型开发（如何支持Python、Spark ML、R、TensorFlow、PyTorch等机器学习和深度学习框架开发）
2. 数据存储：实时特征+离线历史数据
3. 大规模分布式计算：CPU + GPU
4. 模型发布和上线
5. 我们的大规模机器学习平台分享（支持200+ 算法和模型开发人员）

用户画像在个性化性化推荐系统领域

案例简介：用户画像数据体系建设，以及基于用户画像数据、用户实时行为数据的个性化推荐系统介绍
1. 用户画像体系介绍
2. 用户特征抽取
3. 用户特征存储和应用
4. 个性化推荐系统和用户画像的结合

推荐系统实践

案例简介：我们的推荐系统如何支持每天上亿用户访问；以及亿级别的销售额提升
1. 推荐系统整体架构
2. 算法和模型支持
3. 算法评估和灰度
4. ABT效果检验

知名互联网公司的数据驱动精准化营销实践

案例简介：结合用户画像数据，给不同用户人群发送PUSH（短信）的营销效果分析
1. 用户宽表建设
2. 根据特征选择用户群体
3. PUSH系统和用户数据整合
4. PUSH效果分析（根据用户行为数据分析营销效果、用户留存以及活动ROI）

实时数据看板分享（双十一大屏）

案例简介：双十一大促销售额、转化率、UV、漏斗等核心数据实时大屏展示
1. 订单和用户行为数据实时接入
2. 使用Flink（Spark）做实时数据计算
3. HBase存储计算指标
4. 数据Service提供访问接口
5. 前端大屏动态秒级更新数据

数据运营平台介绍

数据运营平台支持商务、运营等对公司日常销售、转换率、用户访问、品牌等的售卖详细情况分析；分为固定产品、自助分析系统等，挖掘深层次的商业机会
1. 运营看板实例分享
2. 自助分析系统建设经验分享

大数据平台和机器学习应用实践

某知名电商数据部架构负责人

课程费用

6800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程大纲

课程评论

课程费用

6800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

LLM在软件测试领域的应用实践与大厂实战案例解读（公开课）

大数据平台和机器学习应用实践

某知名电商 数据部架构负责人

课程费用

6800.00 /人

课程时长

2天

课程简介

目标收益

培训对象

课程大纲

课程评论

课程费用

6800.00 /人

课程时长

2天

近期公开课推荐

近期公开课推荐

LLM在软件测试领域的应用实践与大厂实战案例解读（公开课）

某知名电商数据部架构负责人