大数据高级实战研修：深入大数据智能分析和挖掘产品和技术-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

大数据分析和挖掘在互联网公司中已经得到实质性的推进和应用，典型的应用场景包括搜索引擎的搜索结果和搜索广告排序、电商网站的商品推荐和虚假信息检测、电子邮件服务中垃圾邮件检测、互联网安全公司的病毒和木马检测、视频和新闻分享网站中视频和新闻推荐、互联网金融服务中的用户信誉评估等。
特别的场景包裹，社交网络的火爆可以看成是促使大数据技术迅猛发展的直接驱动原因。社交网络的数据呈现大规模、异构、网状相连的特征，为大数据挖掘提供了更复杂、更有挑战的案例。在社交网络中，大数据挖掘的应用更是覆盖了70%左右的场景。经典的使用场景诸如好友新鲜事（tweets）智能排序、好友推荐、好友搜索、社交广告等。
当前，本地生活服务、O2O、互联网金融、企业级服务等的火爆，更是大数据的用武之地，成为成为助推业务发展最有效的技术利器和产品设计及运营的思维。
大数据受到广泛认可，究其原因，主要是如果大数据相关技术得到较好的使用，会带来从服务的访问量到收入变现能力等关键数据指标的实质提升。以讲师亲身项目经验为例：一个新的好友推荐算法的上线可能带来80%以上的“关注量”或者“加好友申请量”的提高；对手机通讯录匹配算法的优化升级，可使手机号对应的社交网络的用户帐号匹配量增加55%以上；社交广告中用户定向和广告排序算法的引入，可使广告收入暴涨100%以上。又如，用户社交圈智能划分算法的上线，使很多用户的三四百个好友被自动合理分到合适的社交圈中，免去他们手动逐个操作的麻烦，提升了用户体验，他们评价“真心觉得做到了我的心里”、“给数据挖掘跪了”。

目标收益

本课程将围绕大数据最本质的特点—智能化为主线，从大数据的产品思维、数据分析重要工具、数据挖掘核心技术等层面深入讲述
数据挖掘的高阶话题，包括有偏数据挖掘、数据流挖掘、在线学习、高级数据预处理技术等。同时课程案例丰富，重点从社交网络图谱挖掘、推荐引擎等做实站案例讲解。该课程使学员：
理解大数据基本概率、理解大数据产品设计思维、理解大数据基础技术架构
掌握社交图谱挖掘的一到两个经典数据挖掘案例的解决方案
掌握社交好友推荐中一到两个经典案例的解决方案
掌握如何搭建一个实用的推荐引擎的方法；
掌握数据挖掘的经典方法论：数据挖掘过程、模型评估标准等
侧重掌握最普遍使用的分类预测技术的方法，

培训对象

重点面向产品和技术人员，包括数据挖掘工程师、数据分析师、大数据工程师、算法专家、项目经理、技术经理、数据产品经理以及其他具有一定数据挖掘经验的人员。

课程大纲

1.大数据时代概述	1.1 大数据解决的问题是什么？ 1.2 大数据公司（部门）的都在做什么？ 1.3 如何建立自己的大数据能力？
2.数据挖掘过程和实用工具使用	2.1 数据挖掘过程的方法及其思想介绍 2.1.1 常见的数据收集途径和方式 2.1.2 数据探索与可视化技巧 2.1.3 数据准备 2.1.4 特征选择 2.1.5 样本选择 2.1.6 机器学习实用算法罗列与思想介绍（侧重分类算法） 2.1.7 提高模型准确率方法 2.1.8 模型评估和比较 2.1.9 如何选择合适的评估指标 2.1.10 模型可视化 2.2 挖掘工具Weka使用实践 2.2.1 数据挖掘常用工具介绍及优缺点对比 2.2.2 Weka使用介绍 2.2.3 Weka使用举例：金融服务中用户信誉评估
3.深入分类挖掘新技术	3.1 产业实战中如何研发一个新的数据挖掘算法 3.1.1 算法建模的思路 3.1.1.1 需求驱动的算法建模 3.1.1.2 理论驱动的算法建模 3.1.2 产业实战一个新算法的通用流程 3.2 机器学习算法理论深入 3.2.1 Bias Variance困境 3.2.2 Under fitting, Over fitting 3.3 常用多模型算法详解 3.3.1 Ensemble Selection 3.3.2 Bagging 3.3.3 Boosting 3.3.4 Stacking 3.3.5 Meta-learning 3.3.6 Random Forest 3.3.7 Random Trees 3.3.8 Error-Correcting Output Codes(ECOC) 3.4 Dynamic Data Mining（DDM）：分而治之的多模型框架研发过程 3.4.1 理论驱动 3.4.2 DMM建模研发 3.4.3 算法验证及上线 3.5 模型评估高级话题 3.5.1 模型评估方法 3.5.2 模型评估指标深入讨论 3.5.2.1 Accuracy, Errorrate 3.5.2.2 Recall, Precision, F-¬‐measure 3.5.2.3 Specificity, Sensitivity, G-¬‐mean 3.5.2.3 ROC,AUC
4.深入常用实战数据预处理与有偏挖掘技术	4.1 有偏数据挖掘 4.1.1 有偏数据挖掘的场景 4.1.2 有偏数据挖掘的问题根源 4.1.3 有偏数据挖掘的解决方案 4.1.3.1 Under sampling, Oversampling 4.1.3.2 Weighting 4.1.3.3 Data Synthesis 4.1.3.4 Cost-sensitive learning 4.2 高级数据预处理实战策略 4.2.1 重视Missing Values 4.2.2 合理抽取特征 4.2.3 数据清洗：数据一致性检测 4.2.4 噪声平滑 4.2.5 特征泛化
5.深入在线学习与数据流挖掘	5.1 在线数据流挖掘基本概念 5.1.1 Batch Learningvs. Online Mining 5.2 数据流挖掘的关键挑战 5.2.1 概念、概念漂移、数据规模Stream Mining, Online 5.3 两类经典在线流挖掘算法汇总 5.3.1 基于概念漂移主动监测的算法 5.3.2 基于概念漂移自适应的算法 5.3.3 个人创新性方法：DDM-T,DDM-P 5.4 进阶：有偏在线数据流挖掘的解决方案 5.4.1 DDM-T的有偏流挖掘的改进 5.5 在线数据流挖掘总结
6.深入社交图谱及推荐引擎实战	6.1 推荐引擎解决的问题 6.2 推荐系统历史 6.3 通用推荐引擎基础架构 6.3.1 统一展示逻辑 6.3.2 实验分流平台 6.3.3 推荐结果预处理 6.3.4 推荐结果召回 6.3.5 推荐过滤去重 6.3.6 推荐排序 6.3.7 推荐解释 6.3.8 实时数据统计分析平台 6.3.9 系统监控平台 6.3.10 数据挖掘和推荐算法管理 6.4 社会化推荐引擎 6.4.1 好友推荐使用场景举例 6.4.2 好友推荐主要挑战 6.4.3 好友推荐引擎架构 6.5 社会化推荐引擎算法案例讲解 6.5.1 Online Learning的特点和一般流程 6.5.1.1 在线挖掘数据特点 6.5.1.2 在线挖掘基本过程 6.5.2 二度好友模型：案例讲解 6.5.2.1 二度好友模型解决的问题 6.5.2.2 二度好友模型的建模过程 6.5.2.3 二度好友模型的效果评估 6.5.3 好友簇算法：案例讲解 6.5.3.1 好友簇算法解决的问题 6.5.3.2 聚类方法原理 6.5.3.3 好友簇算法的建模过程 6.5.3.4 好友簇算法的效果评估 6.5.4 加好友申请接受率预估模型：案例讲解 6.5.4.1 加好友申请接受率预估解决的问题 6.5.4.2 加好友申请接受率预估的建模过程 6.5.4.3 加好友申请接受率预估的效果评估 6.6 社交图谱挖掘介绍 6.6.1 社交网络数据挑战 6.6.2 社交网络中的数据挖掘意义 6.6.3 社交图谱挖掘主要任务 6.6.4 社交图谱挖掘通用路标 6.7 社交图谱挖掘案例讲解：好友亲密度模型 6.7.1 好友亲密度模型的意义 6.7.2 经典用户行为分析建模方法简介 6.7.3 好友亲密度建模过程 6.7.4 好友亲密度模型效果分析 6.8 社交图谱挖掘案例讲解：好友自动分组 6.8.1 好友智能分组的意义 6.8.2 社区发现简介 6.8.3 好友自动分组建模过程 6.8.4 好友自动分组效果评估
7.学员问题解答

1.大数据时代概述

1.1 大数据解决的问题是什么？
1.2 大数据公司（部门）的都在做什么？
1.3 如何建立自己的大数据能力？

2.数据挖掘过程和实用工具使用

2.1 数据挖掘过程的方法及其思想介绍
2.1.1 常见的数据收集途径和方式
2.1.2 数据探索与可视化技巧
2.1.3 数据准备
2.1.4 特征选择
2.1.5 样本选择
2.1.6 机器学习实用算法罗列与思想介绍（侧重分类算法）
2.1.7 提高模型准确率方法
2.1.8 模型评估和比较
2.1.9 如何选择合适的评估指标
2.1.10 模型可视化
2.2 挖掘工具Weka使用实践
2.2.1 数据挖掘常用工具介绍及优缺点对比
2.2.2 Weka使用介绍
2.2.3 Weka使用举例：金融服务中用户信誉评估

3.深入分类挖掘新技术

3.1 产业实战中如何研发一个新的数据挖掘算法
3.1.1 算法建模的思路
3.1.1.1 需求驱动的算法建模
3.1.1.2 理论驱动的算法建模
3.1.2 产业实战一个新算法的通用流程
3.2 机器学习算法理论深入
3.2.1 Bias Variance困境
3.2.2 Under fitting, Over fitting
3.3 常用多模型算法详解
3.3.1 Ensemble Selection
3.3.2 Bagging
3.3.3 Boosting
3.3.4 Stacking
3.3.5 Meta-learning
3.3.6 Random Forest
3.3.7 Random Trees
3.3.8 Error-Correcting Output Codes(ECOC)
3.4 Dynamic Data Mining（DDM）：分而治之的多模型框架研发过程
3.4.1 理论驱动
3.4.2 DMM建模研发
3.4.3 算法验证及上线
3.5 模型评估高级话题
3.5.1 模型评估方法
3.5.2 模型评估指标深入讨论
3.5.2.1 Accuracy, Errorrate
3.5.2.2 Recall, Precision, F-¬‐measure
3.5.2.3 Specificity, Sensitivity, G-¬‐mean
3.5.2.3 ROC,AUC

4.深入常用实战数据预处理与有偏挖掘技术

4.1 有偏数据挖掘
4.1.1 有偏数据挖掘的场景
4.1.2 有偏数据挖掘的问题根源
4.1.3 有偏数据挖掘的解决方案
4.1.3.1 Under sampling, Oversampling
4.1.3.2 Weighting
4.1.3.3 Data Synthesis
4.1.3.4 Cost-sensitive learning
4.2 高级数据预处理实战策略
4.2.1 重视Missing Values
4.2.2 合理抽取特征
4.2.3 数据清洗：数据一致性检测
4.2.4 噪声平滑
4.2.5 特征泛化

5.深入在线学习与数据流挖掘

5.1 在线数据流挖掘基本概念
5.1.1 Batch Learningvs. Online Mining
5.2 数据流挖掘的关键挑战
5.2.1 概念、概念漂移、数据规模Stream Mining, Online
5.3 两类经典在线流挖掘算法汇总
5.3.1 基于概念漂移主动监测的算法
5.3.2 基于概念漂移自适应的算法
5.3.3 个人创新性方法：DDM-T,DDM-P
5.4 进阶：有偏在线数据流挖掘的解决方案
5.4.1 DDM-T的有偏流挖掘的改进
5.5 在线数据流挖掘总结

6.深入社交图谱及推荐引擎实战

6.1 推荐引擎解决的问题
6.2 推荐系统历史
6.3 通用推荐引擎基础架构
6.3.1 统一展示逻辑
6.3.2 实验分流平台
6.3.3 推荐结果预处理
6.3.4 推荐结果召回
6.3.5 推荐过滤去重
6.3.6 推荐排序
6.3.7 推荐解释
6.3.8 实时数据统计分析平台
6.3.9 系统监控平台
6.3.10 数据挖掘和推荐算法管理
6.4 社会化推荐引擎
6.4.1 好友推荐使用场景举例
6.4.2 好友推荐主要挑战
6.4.3 好友推荐引擎架构
6.5 社会化推荐引擎算法案例讲解
6.5.1 Online Learning的特点和一般流程
6.5.1.1 在线挖掘数据特点
6.5.1.2 在线挖掘基本过程
6.5.2 二度好友模型：案例讲解
6.5.2.1 二度好友模型解决的问题
6.5.2.2 二度好友模型的建模过程
6.5.2.3 二度好友模型的效果评估
6.5.3 好友簇算法：案例讲解
6.5.3.1 好友簇算法解决的问题
6.5.3.2 聚类方法原理
6.5.3.3 好友簇算法的建模过程
6.5.3.4 好友簇算法的效果评估
6.5.4 加好友申请接受率预估模型：案例讲解
6.5.4.1 加好友申请接受率预估解决的问题
6.5.4.2 加好友申请接受率预估的建模过程
6.5.4.3 加好友申请接受率预估的效果评估
6.6 社交图谱挖掘介绍
6.6.1 社交网络数据挑战
6.6.2 社交网络中的数据挖掘意义
6.6.3 社交图谱挖掘主要任务
6.6.4 社交图谱挖掘通用路标
6.7 社交图谱挖掘案例讲解：好友亲密度模型
6.7.1 好友亲密度模型的意义
6.7.2 经典用户行为分析建模方法简介
6.7.3 好友亲密度建模过程
6.7.4 好友亲密度模型效果分析
6.8 社交图谱挖掘案例讲解：好友自动分组
6.8.1 好友智能分组的意义
6.8.2 社区发现简介
6.8.3 好友自动分组建模过程
6.8.4 好友自动分组效果评估

7.学员问题解答

大数据高级实战研修：深入大数据智能分析和挖掘产品和技术

风清扬

Dataware 数据挖掘博士

课程费用

7800.00 /人

课程时长

2天