课程目标:
通过该课程的学习,学员应能够熟练掌握 Spark 并能利用 Spark 解决机器学习的相关问题; 具体的,学员将了解: 1.Spark在Ubuntu虚拟机上的分布式集群环境搭建; 2.基于Python的Spark编程基础; 3.Spark MLlib的使用(.py文件)包括回归预测、聚类、关联规则、神经网络预测; 4.Spark在阿里云的使用(.py文件) ; 5.Spark在AWS亚马逊云的使用。
课程大纲:
时间 | 主题 | 内容 |
第一天 | 上午 | Spark简介及环境搭建 | l Spark 简介 l Spark 环境搭建(Ubuntu , 分布式集群).使用的是 Hadoop 2.7.3 和 Spark 2.0.1 版本 |
下午 | 基于Python的Spark 编程 | l 基于 Python 的 Spark 常用函数及其使用方法。map/reduce/groupByKey/reduceByKey/filter/ flatMap/saveAsTextFile/join 等 l 基于 Python 的 Spark 编程样例。通过基本的统计分析和数据处理样例说明该怎样进行基于 Python 的 Spark 编程 |
第二天 | 上午 | Spark 和机器学习 | l MLLib 全方位介绍 。MLLib 包含的各种算法函数的介绍。个别算法根据情况可以讲解源代码 l MLLib 编程样例 (回归预测 , 聚类 , 关联规则, 神经网络预测等) |
下午 | 云环境下的 Spark 以及预测的简介 | l Spark 在阿里云的使用 l Spark 在 AWS 亚马逊云的使用 l 预测方法简介:包括时间序列预测,机器学习方法进行预测(GBDT, 逻辑回归等) |