曙海培训-苏州上海大数据spark生态体系课程培训南京合肥天津宁波温州无锡

全国报名免费热线：4008699035 微信：shuhaipeixun
或15921673576（微信同号） QQ:1299983702

首页课程表在线聊报名讲师品牌 QQ聊活动就业

大数据spark生态体系课程培训

班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)

每个班级的人数限3到5人，互动授课，保障效果，小班授课。

上间和地点

上部份地点：【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】：电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】：北京中山学院/福鑫大楼【南京分部】：金港大厦(和燕路)【武汉分部】：佳源大厦（高新二路）【成都分部】：领馆区1号（中和大道）【沈阳分部】：沈阳理工大学/六宅臻品【郑州分部】：郑州大学/锦华大厦【石家庄分部】：河北科技大学/瑞景大厦
最近开间(周末班/连续班/晚班）：2019年1月26日

实验设备

　   ◆小班教学，教学效果好

       ☆注重质量☆边讲边练
       ☆合格学员免费推荐工作
       ★实验设备请点击这儿查看★

质量保障

       1、培训过程中，如有部分内容理解不透或消化不好，可免费在以后培训班中重听；
       2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
       3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书，提升职业资质。专注高端技术培训15年，端海学员的能力得到大家的认同，受到用人单位的广泛赞誉，端海的证书受到广泛认可。

部份程大纲

01 Scala入门
安装Scala
配置IDEA环境
使用Scala REPL
使用Scala Doc
声明值和变量
常用类型
算术和操作符重载
调用函数和方法
apply、update方法
option类型
If else表达式、while表达式、for表达式
函数
过程、懒值、异常
02 Scala数据结构
主要的集合特质
数组、映射、元组、队列、堆栈、列表、集
添加去除元素操作符
将函数映射到集合
化简、折叠、扫描
拉链操作
迭代器
流（不可变列表）
懒视图
与java集合的互操作总结
线程安全的集合
并行集合
操作符概述
03 Scala模式匹配
更好的switch
守卫
模式中的变量
类型模式
匹配数组、列表和元组
提取器
变量声明中的模式
For表达式中的模式
样例类
Copy方法和带名参数
Case语句的中置表达式
匹配嵌套结构
密封类、模拟枚举、偏函数
04 高阶函数 & 类 & 对象
作为参数的函数
匿名函数、高阶函数
参数（类型）推断
闭包、柯里化、控制抽象
简单类和无参方法
Getter、Setter方法
对象私有字段
Bean属性、构造器
嵌套类
单例对象、伴生对象
Apply方法
应用程序对象
枚举
05 Scala包和引入 & 继承
包、作用域、包对象
包可见性、引入
重命名和隐藏方法
继承类
重写方法
类型检查和转换
受保护的字段和方法
超类的构造
重写字段
匿名子类
抽象类
构造顺序和提前定义
Scala继承层级

06 Scala特质
不允许多重继承
当做接口使用的特质
带有具体实现的特质
带有特质的对象
叠加在一起的特质
在特质中重写抽象方法
当做富接口使用的特质
特质中的具体字段
特质中的抽象字段
07 注解 & 类型参数
什么可以被注解
注解参数
注解实现
针对java特性的注解
用于优化的注解
泛型类、泛型函数
类型变量限定
视图界定
上下文界定
08 Scala隐式转换
隐式转换
利用隐式转换丰富类库功能
引入隐式转换
隐式转换规则
隐式参数
利用隐式参数进行隐式转换
上下文界定
读取行、读取字符
读取词法单元和数字
09 Scala高级类型
类型与类的区别
classOf与getClass的区别
单例类型
类型投影
类型别名
结构类型
复合类型
中置类型
自身类型
10 Scala Akka实例实操
需求分析
业务需求分解
项目源代码
新建Maven项目AkkaSystem
WorkInfo类抽象
ActorMessage
Master
Worker
案例运行
第四阶段
大数据spark生态体系
11 Spark基础解析
什么是Spark、Spark特点
Spark的用户和用途
Spark集群安装
配置Job History Server
配置Spark HA
执行第一个spark程序
Spark应用提交
启动Spark Shell
在IDEA中编写WordCount程序
在IDEA中本地调试WordCount程序
在IDEA中远程调试WordCount程序
12 SparkCore应用解析（一）
RDD概述
RDD弹性
RDD特点
RDD编程模型
RDD持久化
RDD检查点机制
RDD的依赖关系
DAG的生成
键值对RDD的转化操作
键值对RDD的行动操作
键值对RDD的数据分区
13 SparkCore应用解析（二）
文本文件输入输出
JSON文件输入输出
CSV文件输入输出
SequenceFile文件输入输出
对象文件输入输出
Hadoop输入输出格式
文件系统的输入输出
数据库的输入输出
RDD编程进阶
累加器、自定义累加器
广播变量
14 SparkSQL应用解析（一）
什么是Spark SQL
RDD vs DataFrames vs DataSet
SparkSQL命令行查询流程
IDEA创建SparkSQL程序
新的起始点SparkSession
创建DataFrames
DataFrame常用操作
Dataset和RDD互操作
类型之间的转换总结
用户自定义UDF函数
用户自定义聚合函数
15 SparkSQL应用解析（二）
SparkSQL数据源
通用加载/保存方法
Parquet文件
Hive数据库
JSON数据集
JDBC
JDBC/ODBC服务器
运行Spark SQL CLI
计算所有订单中每年的销售单数、销售总额案例
计算所有订单每年最大金额订单的销售额案例
计算所有订单中每年最畅销货品案例

16 SparkStreaming应用解析
什么是Spark Streaming
Spark与Storm的对比
运行Spark Streaming
架构与抽象
初始化StreamingContext
什么是Dstreams
DStreams输入
DStreams转换
DStreams输出
累加器和广播变量
DataFrame ans SQL Operations
Caching / Persistence
7x24 不间断运行
性能考量
17 SparkGraphX 应用解析（一）
什么是Spark GraphX
弹性分布式属性图
运行图计算程序
图存储模式
GraphX存储模式
vertices、edges以及triplets
图的构建
BSP计算模式
图操作一览
操作一览
转换操作
结构操作
顶点关联操作
聚合操作、缓存操作
18 SparkGraphX 应用解析（二）
Pregel API
pregel计算模型
pregel实现最短路径
GraphX实例
PageRank排名算法
PageRank算法原理
Spark GraphX实现
广度优先遍历(参考)
单源最短路径(参考)
连通图(参考)
三角计数(参考)
PageRank实例

19 Spark内核解析（一）
RDD抽象
计算抽象、集群模式
RPC网络通信抽象
启动Standalone集群
核心组件
核心组件交互流程
Block管理
整体应用
start-daemon.sh脚本解析
spark-class脚本解析
start-master.sh脚本解析
start-slaves.sh脚本解析
start-all.sh脚本解析
spark-submit脚本解析
20 Spark内核解析（二）
Spark通信架构
Endpoint启动过程
Endpoint Send & Ask流程
Endpoint receive流程
Endpoint Inbox处理流程
Endpoint画像
Master节点和Work节点启动流程
Client启动流程
Driver和DriverRunner
SparkContext解析
SparkContext创建过程
SparkContext简易结构与交互关系
Master对Application资源分配
Worker创建Executor
第四阶段
大数据spark生态体系
21 Spark内核解析（三）
Job提交和Task的拆分
Task的执行流程
Task的回馈流程
Task的迭代流程
Spark的数据存储
数据写入过程分析
数据读取过程分析
Partition如何转化为Block
partition和block的对应关系
Spark Shuffle过程
Spill过程
Collect、Sort
Spill
Merge
Copy
Merge Sort
MapReduce与Spark过程对比
22 Spark内核解析（四）
Spark内存管理
堆内内存、堆外内存
内存管理接口、静态内存管理
统一内存管理
RDD 的持久化机制
RDD 缓存的过程
淘汰和落盘
多任务间内存分配
Shuffle 的内存占用
部署模式解析
standalone框架
yarn集群模式、mesos集群模式
spark 三种部署模式的区别
异常分析1：worker异常退出
异常分析2：executor异常退出
异常分析3：master 异常退出
wordcount程序运行原理窥探
23 Spark优化解析（一）
调优基本原则
数据倾斜优化
如何定位导致数据倾斜的代码
如何缓解/消除数据倾斜
Shuffle调优
HashShuffleManager运行原理
SortShuffleManager运行原理
程序开发调优
原则一：避免创建重复的RDD
原则二：尽可能复用同一个RDD
原则三：对多次使用的RDD进行持久化
原则四：尽量避免使用shuffle类算子
原则五：使用map-side预聚合的shuffle操作
原则六：使用高性能的算子
原则七：广播大变量
原则八：使用Kryo优化序列化性能
原则九：优化数据结构
24 优化解析 & 机器学习
运行资源调优
JVM虚拟机优化
GC优化
Spark的内存管理优化
根据日志进一步调优
京东商城基于Spark的风控系统的实现
Spark在美团的实践
数据处理平台架构中的SMACK组合
大数据架构选择
机器学习算法常用指标
机器学习凸优化算法分析及案例实操
机器学习L1、L2正则化算法分析及案例实操
PCA降维算法分析及案例实操
ICA降维算法分析及案例实操
非平衡数据处理
模型优化
损失函数
25 机器学习（二）
矩阵奇异值分解SVD
线性回归算法
逻辑回归算法
贝叶斯分类算法
SVM支持向量机算法
决策树算法
K近邻算法
KMEANS聚类算法
EM算法
FPGrowth关联规则算法
Apriori关联规则算法
协同过滤推荐算法
ALS交替最小二乘算法
SVD推荐系统算法
随机森林算法
AdaBoost算法
XgBoost算法、GBDT算法

26 Flink入门
流处理技术的演变
初识Flink
批处理与流处理
Flink基本架构
JobManager与TaskManager
无界数据流与有界数据流
数据流编程模型
Flink集群搭建
Standalone模式安装
Yarn模式安装
27 Flink运行架构
任务提交流程
任务调度原理
Worker与Slots
程序与数据流
并行数据流
task与operator chains
Flink DataStream API
Flink运行模型
Flink程序架构
执行环境
28 Flink source & sink
基于File的数据源
基于Socket的数据源
基于集合（Collection）的数据源
writeAsText
WriteAsCsv
print/printToErr
writeUsingOutputFormat
writeToSocket
Transformation
Map
29 Flink Transformation
FlatMap、Filter
Connect
CoMap,CoFlatMap
Split、Select
Union、KeyBy
Reduce、Fold
Aggregations
Time、Window
CountWindow
TimeWindow
30 Time与Window
Window Reduce
Window Fold
Aggregation on Window
EventTime的引入
Watermark
EvnetTimeWindow API
滚动窗口
滑动窗口
会话窗口
总结
第四阶段
大数据spark生态体系
31 Elasticsearch入门
什么是Elasticsearch？
Elasticsearch的适用场景、特点、核心概念
Elasticsearch安装部署、head插件安装
获取Transport Client案例
创建索引案例
删除索引案例
新建文档（源数据json串）
新建文档（源数据map方式添加json）
新建文档（源数据es构建器添加json）
搜索文档数据（单个索引）
32 Elasticsearch案例实操
搜索文档数据（多个索引）
更新文档数据（update）
更新文档数据（upsert）
删除文档数据（prepareDelete）
查询所有（matchAllQuery）
对所有字段分词查询（queryStringQuery）
通配符查询（wildcardQuery）
词条查询（TermQuery）
模糊查询（fuzzy）
映射操作案例
33 Python基础
认识python
编写第一个python程序
注释
变量以及类型
标示符和关键字
输入&输出
运算符
数据类型转换
判断语句介绍
if判断语句
34 Python基础
if嵌套
while循环
for循环
break和continue
字符串输入&输出
下标和切片
元组(tuple)
函数
文件操作
类和对象
35 Python基础
封装
继承
多态
设计模式
异常
模块
列表推导式
集合
垃圾回收
编码风格

备案号：备案号:沪ICP备08026168号-1

.(2014年7月11)..一站式服务..............