Spark简介及环境搭建
l Spark 简介
l Spark 环境搭建(Ubuntu , 分布式集群).使用的是 Hadoop 2.7.3 和 Spark 2.0.1 版本
基于Python的Spark 编程
l 基于 Python 的 Spark 常用函数及其使用方法。map/reduce/groupByKey/reduceByKey/filter/ flatMap/saveAsTextFile/join 等
l 基于 Python 的 Spark 编程样例。通过基本的统计分析和数据处理样例说明该怎样进行基于 Python 的 Spark 编程
Spark 和机器学习
l MLLib 全方位介绍 。MLLib 包含的各种算法函数的介绍。个别算法根据情况可以讲解源代码
l MLLib 编程样例 (回归预测 , 聚类 , 关联规则, 神经网络预测等)
云环境下的 Spark 以及预测的简介
l Spark 在阿里云的使用
l Spark 在 AWS 亚马逊云的使用
l 预测方法简介:包括时间序列预测,机器学习方法进行预测(GBDT, 逻辑回归等) |