班级规模及环境--热线:4008699035 手机:15921673576( 微信同号) |
每个班级的人数限3到5人,互动授课, 保障效果,小班授课。 |
上间和地点 |
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山学院/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦 最近开间(周末班/连续班/晚班):2019年1月26日 |
实验设备 |
◆小班教学,教学效果好 ☆注重质量☆边讲边练 ☆合格学员免费推荐工作 ★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听; 2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。 3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,端海学员的能力得到大家的认同,受到用人单位的广泛赞誉,端海的证书受到广泛认可。 |
部份程大纲 |
|
- 01 大数据概论 & Hadoop生态
大数据概念
大数据的特点(4V)
大数据应用场景
大数据发展前景
大数据部门业务流程分析
大数据部门组织结构(重点)
Hadoop是什么
Hadoop发展历史
Hadoop三大发行版本
Hadoop的优势(4高)
02 Hadoop入门
Hadoop组成
HDFS架构概述
YARN架构概述
MapReduce架构概述
大数据技术生态体系
推荐系统框架图
Hadoop运行环境搭建
虚拟机环境准备
安装JDK、安装Hadoop
Hadoop目录结构
03 Hadoop运行模式
本地运行模式
官方Grep案例
官方WordCount案例
伪分布式运行模式
启动HDFS并运行MapReduce程序
启动YARN并运行MapReduce程序
配置历史服务器
配置日志的聚集
配置文件说明
完全分布式运行模式
04 完全分布式模式&源码编译
虚拟机准备
编写集群分发脚本xsync
集群配置
集群单点启动
SSH无密登录配置
群起集群
集群启动/停止方式总结
集群时间同步
Hadoop编译源码
常见错误及解决方案
05 HDFS入门
HDFS概述
HDFS产出背景及定义
HDFS优缺点
HDFS组成架构
HDFS文件块大小
HDFS的Shell操作
HDFS客户端操作
HDFS客户端环境准备
HDFS的API操作
HDFS文件上传
06 HDFS的API操作
HDFS文件下载
HDFS文件夹删除
HDFS文件名更改
HDFS文件详情查看
HDFS文件和文件夹判断
HDFS的I/O流操作
HDFS文件上传
HDFS文件下载
07 HDFS的框架原理
定位文件读取
HDFS的数据流
HDFS写数据流程
剖析文件写入
网络拓扑-节点距离计算
机架感知
副本存储节点选择
HDFS读数据流程
08 NN & DN工作机制
NameNode&2NN工作机制
Fsimage和Edits解析
CheckPoint时间设置
NameNode故障处理
集群安全模式
NameNode多目录配置
DataNode工作机制
数据完整性
09 DN工作机制&新特性
掉线时限参数设置
服役新数据节点
退役旧数据节点
添加白名单
黑名单退役
Datanode多目录配置
HDFS 2.X新特性
集群间数据拷贝
10 新特性& HA框架原理
小文件存档
回收站
快照管理
HA概述
HDFS-HA工作机制
HDFS-HA工作要点
HDFS-HA自动故障转移工作机制
HDFS-HA集群配置
第三阶段
大数据Hadoop生态体系
11 HDFS-HA集群配置
环境准备
规划集群
配置Zookeeper集群
配置HDFS-HA集群
启动HDFS-HA集群
配置HDFS-HA自动故障转移
YARN-HA配置
YARN-HA工作机制
配置YARN-HA集群
HDFS Federation架构设计
12 MapReduce框架原理
MapReduce核心思想
MapReduce进程
MapReduce编程规范(八股文)
MapReduce程序运行流程分析
MapReduce工作流程
常用数据序列化类型
自定义bean对象实现序列化接口
FileInputFormat切片机制
CombineTextInputFormat切片机制
自定义InputFormat
13 Shuffle机制
MapTask工作机制
并行度决定机制
Shuffle机制
Partition分区
WritableComparable排序
GroupingComparator分组(辅助排序)
Combiner合并
数据倾斜&Distributedcache
ReduceTask工作机制
自定义OutputFormat
14 数据压缩 & Yarn
MapReduce支持的压缩编码
采用压缩的位置
压缩配置参数
计数器应用、数据清洗
Yarn基本架构、工作机制
Yarn资源调度器、任务推测执行
MapReduce作业提交全过程
MapReduce开发总结
MapReduce参数优化
企业高频真题讲解20道
15 MapReduce案例(一)
案例一:统计一堆文件中单词出现的个数
案例二:把单词按照ASCII码奇偶分区
案例三:对每一个maptask的输出局部汇总
案例四:大量小文件的切片优化
案例五:统计手机号耗费的流量
案例六:按照手机归属地不同省份输出到不同文件中
案例七:按照总流量倒序排序
案例八:不同省份输出文件内部排序
案例九:求每个订单中最贵的商品
案例十:Reduce端表合并(数据倾斜)
16 MapReduce案例(二)
案例十一:Map端表合并(Distributedcache)
案例十二:小文件处理(自定义InputFormat)
案例十三:自定义日志输出路径(自定义OutputFormat)
案例十四:日志清洗(数据清洗)
案例十五:倒排索引(多job串联)
案例十六:找博客共同好友分析
案例十七:对数据流的压缩和解压缩
案例十八:在Map输出端采用压缩
案例十九:在Reduce输出端采用压缩
案例二十:TopN案例
17 Zookeeper原理
Zookeeper概述、特点
Zookeeper数据结构
Zookeeper应用场景
Zookeeper下载地址
Zookeeper本地模式安装
配置参数解读
Zookeeper内部原理
Zookeeper选举机制
Zookeeper节点类型
Stat结构体
18 Zookeeper原理&实战
监听器原理、写数据流程
分布式安装部署
客户端命令行操作
API应用环境搭建
创建ZooKeeper客户端案例
创建子节点案例
获取子节点并监听节点变化案例
判断Znode是否存在案例
监听服务器节点动态上下线案例
企业高频真题讲解3道
19 Hive入门&安装
什么是Hive
Hive的优缺点
Hive架构原理
Hive和数据库比较
Hive安装地址
Hive安装部署
将本地文件导入Hive案例
MySql安装
安装MySql服务器
安装MySql客户端
20 Hive远程连接
MySql中user表中主机配置
Hive元数据配置到MySql
驱动拷贝
配置Metastore到MySql
多窗口启动Hive测试
HiveJDBC访问
启动hiveserver2服务
启动beeline
连接hiveserver2
Hive常用交互命令
第三阶段
大数据Hadoop生态体系
21 Hive命令 & 数据类型
Hive其他命令操作
Hive常见属性配置
Hive数据仓库位置配置
Hive查询后信息显示配置
Hive运行日志信息配置
参数配置方式
Hive数据类型
Hive基本数据类型
Hive集合数据类型
类型转化
22 Hive DDL数据定义
创建数据库
查询数据库
修改数据库
删除数据库
创建管理表
创建外部表
管理表与外部表的互相转换
分区表基本操作
分区表注意事项
修改表、删除表
23 Hive DML数据操作
向表中装载数据(Load)
通过查询语句向表中插入数据(Insert)
查询语句中创建表并加载数据(as select)
创建表时通过location指定加载数据路径
Import数据到指定hive表中
Insert导出
Hadoop命令导出到本地
Hive Shell 命令导出
Export导出到HDFS上
清除表中数据(Truncate)
24 Hive查询
全表和特定列查询
列别名
算术运算符、常用函数
LIMIT语句
WHERE语句
比较运算符(BETWEEN/IN/ IS NULL)
LIKE和RLIKE
逻辑运算符(AND/OR/NOT)
分组、GROUP BY语句
HAVING语句
25 Hive JOIN & 排序
等值JOIN & 表的别名
内连接
左外连接、右外连接
满外连接、多表连接
笛卡尔积 JOIN
全局排序(Order By)
按照别名排序、多个列排序
每个MapReduce内部排序(Sort By)
分区排序(Distribute By)
CLUSTER BY
26 Hive分桶 & 函数
分桶表数据存储
分桶抽样查询
常用查询函数
空字段赋值
CASE WHEN
行转列
列转行
窗口函数
Rank
系统内置函数
27 Hive函数 & 压缩 & 存储
自定义UDF、UDAF、UDTF函数
压缩和存储
源码编译支持Snappy压缩
开启Map输出阶段压缩
开启Reduce输出阶段压缩
列式存储和行式存储
TextFile格式、Orc格式
Parquet格式
主流文件存储格式对比实验
存储和压缩结合案例
28 企业级调优
Fetch抓取
本地模式
表的优化
小表、大表Join
大表Join大表
MapJoin
Group By
Count(Distinct) 去重统计
笛卡尔积
行列过滤
29 Hive企业级调优(二)
动态分区调整
分桶、分区
Map数
小文件进行合并
复杂文件增加Map数
Reduce数
并行执行、严格模式
JVM重用、推测执行
压缩
EXPLAIN(执行计划)
30 企业级调优 & 项目实战
项目视频表
项目用户表
项目技术选型
数据清洗
数据分析
ETL之ETLUtil
ETL之Mapper
ETL之Runner
执行ETL
项目数据准备
第三阶段
大数据Hadoop生态体系
31 Hive项目实战&企业真题
统计视频观看数Top10
统计视频类别热度Top10
统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数
统计视频观看数Top50所关联视频的所属类别Rank
统计每个类别中的视频热度Top10,以Music为例
统计每个类别中视频流量Top10,以Music为例
统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频
统计每个类别视频观看数Top10
项目总结
企业高频真题讲解2道
32 Cloudera Manager & Impala
CM概念
CM功能
CM环境准备
CM安装部署
CM案例实操
Impala入门
什么是Impala
Impala优缺点
Impala架构
Impala下载地址
33 Impala安装
Impala安装方式
Impala监护管理
Impala初体验
Impala的操作命令
Impala的外部shell
Impala的内部shell
Impala的数据类型
DDL数据定义
创建数据库
查询数据库
34 Impala操作
创建管理表、外部表
创建分区表
向表中导入数据
查询分区表中的数据
增加多个分区
删除分区、查看分区
数据导入、导出
自定义函数
存储和压缩
优化
35 IDEA
IDEA介绍
Windows下安装过程
启动应用后简单配置
创建工程
设置显示常见的视图
工程界面展示
创建package和class
设置常用配置20项
设置快捷键、自定义模板
关联Tomcat、Web项目案例实操
36 数据采集框架Flume
Flume定义
Flume组成架构
Flume拓扑结构
Flume Agent内部原理
Flume事务
Flume快速入门
Flume下载地址、安装部署
案例一:监控端口数据官方案例
案例二:实时读取本地文件到HDFS案例
案例三:实时读取目录文件到HDFS案例
37 Flume高级
案例四:单数据源多出口案例(选择器)
案例五:单数据源多出口案例(Sink组)
案例六:多数据源汇总案例
自定义组件
案例七:自定义Source案例
案例八:自定义Sink案例
Flume监控之Ganglia
Ganglia的安装与部署
操作Flume测试监控
企业高频真题讲解6道
38 Kafka入门
消息队列
为什么需要消息队列
什么是Kafka
Kafka架构
环境准备
Kafka集群部署
Kafka命令行操作
Kafka工作流程分析
数据写入方式
数据分区(Partition)
39 Kafka原理
数据副本(Replication)
数据写入流程
数据保存
存储方式
存储策略
Zookeeper存储
本地存储
数据消费
高级API
低级API
40 Kafka高级
消费者组
消费方式
消费者组案例
Kafka生产者Java API
创建生产者(新API)
创建生产者带回调函数(新API)
自定义分区生产者
Kafka消费者高级API
Kafka消费者低级API
Kafka拦截器原理及案例
第三阶段
大数据Hadoop生态体系
41 Kafka高级
Kafka监控
KafkaManager
KafkaMonitor
Kafka进阶
分区分配策略
Range Strategy
RoundRobin Strategy
高可靠性存储
Kafka文件存储机制
复制原理和同步方式
42 Kafka高级 & 面试题
ISR
数据可靠性和持久性保证
框架整合
Kafka与Flume比较
Flume与Kafka集成
Kafka Streams简介
Kafka Streams特点
为什么要有Kafka Stream
Kafka Stream数据清洗案例
企业高频真题10道
43 HBase原理及安装
HBase的角色
HBase的架构
HBase部署与使用
HBase基本操作
HBase表的操作
HBase读数据流程
HBase写数据流程
HBase JavaAPI
安装Maven并配置环境变量
新建Maven Project
编写HBaseAPI程序
44 HBase集成及运维
官方HBase-MapReduce
自定义HBase-MapReduce1
自定义HBase-MapReduce2
HBase与Hive的对比
HBase与Hive集成使用
与Sqoop的集成
常用的Shell操作
数据的备份与恢复
节点的服役
节点的退役
版本的确界
45 HBase企业级优化
HBase高可用
Hadoop的通用性优化
Linux优化
Zookeeper优化
HBase优化
HBase预分区优化
RowKey设计
内存优化
基础优化
HBase在商业项目中的能力
HBase2.0新特性
46 HBase微博项目
微博系统需求分析
微博系统代码设计
创建命名空间以及表名的定义
创建微博内容表
创建用户关系表
发布微博内容
添加关注用户
移除(取关)用户
获取关注的人的微博内容
测试
47 Sqoop
Sqoop原理、安装
导入数据
RDBMS到HDFS
RDBMS到Hive
导出数据
HIVE/HDFS到RDBMS
脚本打包、常用命令列举
命令&参数详解
Sqoop的案例实操
48 Azkaban
各种调度工具特性对比
Azkaban与Oozie对比
Azkaban特点
Azkaban下载地址
Azkaban安装部署
案例一:Command类型之单一job
案例二:Command类型之多job工作流
案例三:HDFS操作任务调度
案例四:MapReduce任务调度
案例五:Hive脚本任务调度
49 Oozie
Oozie框架原理
Oozie的功能模块
Oozie的常用节点
Oozie的安装部署
案例一:Oozie调度shell脚本
案例二:Oozie逻辑调度执行多个Job
案例三:Oozie调度MapReduce任务
案例四:Oozie定时任务/循环任务
50 HUE
HUE简介
HUE安装
案例一:HUE与HDFS集成案例
案例二:HUE与YARN集成案例
案例三:HUE与Hive集成案例
案例四:HUE与Mysql集成案例
案例五:HUE与Oozie集成案例
案例六:HUE与HBase集成案例
案例七:HUE与Zookeeper集成案例
案例八:HUE与Sqoop2集成案例
第三阶段
大数据Hadoop生态体系
51 Git&Git Hub
Git安装配置
Git本地库搭建
Git常用操作命令
Github注册与配置
Github与Git协同办公
TortoiseGit安装配置
Egit操作push/pull,
Git工作流
集中式&GitFlow&Forking
52 ETL数据清洗工具Kettle
Kettle入门
Kettle安装
Kettle使用
案例一:日志文件导数据到Hive
案例二:MySQL导数据到Hive
案例三:Hive导数据到Hive
案例四:Hive导数据到HBase
案例五:Hive导数据到ES
53 Kylin
Kylin应用场景
Kylin工作原理
Kylin体系架构
Kylin集群环境
为Kylin集群搭建负载均衡器
Sample Cube案例
Cube创建案例
查询Cube
Kylin的元数据、垃圾清理
54 Storm原理
Storm应用场景及行业案例
Storm特点、编程模型
元组(Tuple)、流(Stream)
水龙头(Spout)、转接头(Bolt)
拓扑(Topology)
主控节点与工作节点
流分组(Stream grouping)
工作进程(Worker)
spout的tail特性
55 Storm案例
执行器(Executor)、任务(Task)
实时流计算常见架构图
Storm集群规划、集群搭建
Storm命令行操作
分组策略和并发度
网站日志处理案例
实时单词统计案例
实时计算网站PV案例
实时计算网站UV去重案例
|