时间 |
课程模块 |
课程内容 |
第一部份
【1】 |
|
1. 大数据的产生背景、发展历程
2. 大数据和云计算的关系
3. 大数据应用需求以及潜在价值分析
4. 业界最新的大数据技术发展态势与应用趋势
5. 大数据项目的技术选型与架构设计
6. “互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析 |
业界主流的大数据技术产品与项目解决方案 |
1. 国内外主流的大数据解决方案介绍
2. 当前大数据解决方案与传统数据库方案的剖析比较
3. Apache大数据平台方案剖析
4. CDH大数据平台方案剖析
5. HDP大数据平台方案剖析
6. 开源的大数据生态系统平台剖析 |
Hadoop大数据平台剖析 |
1. Hadoop的发展历程以及产业界的实际应用介绍
2. Hadoop大数据平台架构
3. 基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
4. Hadoop的核心组件剖析 |
第一部份
【2】 |
大数据分布式存储系统原理及其应用实践 |
1. 分布式文件系统HDFS的简介
2. HDFS系统的主从式平台架构和工作原理
3. HDFS核心组件技术讲解
4. 基于HDFS的大型存储系统应用开发实战
5. HDFS集群的安装、部署、配置与性能优化实践
6. HDFS与Linux NFS3交互技术以及本地化部署应用实践
7. 分布式键值存储系统的平台架构、核心技术以及应用开发
8. PB级大数据存储项目的案例分析 |
大数据MapReduce与Yarn并行处理平台 |
1. MapReduce并行计算模型
2. MapReduce作业执行与调度技术
3. 第二代大数据计算框架Yarn的工作原理以及DAG并行执行机制
4. MapReduce应用开发环境的部署,以及大数据并行处理应用程序开发
5. MapReduce高级编程技巧与性能优化实践
6. MapReduce与Yarn大数据分析处理案例分析 |
Hadoop应用实践操作训练 |
1. 部署与配置HDFS,熟练操作HDFS SHELL,HDFS与NFS操作,以及HDFS API开发实践
2. 部署与配置MapReduce与Yarn及其开发实践
3. Hadoop的Linux二次开发环境部署与配置 |
第二部份
【1】 |
HBase分布式数据库管理系统 |
1. NoSQL数据库与NewSQL数据库技术介绍,及其在半结构化和非结构化大数据方面的应用实践
2. HBase分布式数据库简介、数据模型以及工作原理
3. HBase分布式数据库集群的平台架构和关键技术剖析
4. HBase应用项目开发技巧,以及客户端开发实战
5. HBase表设计与数据操作以及数据库管理API调用
6. HBase集群的安装部署与配置优化
7. ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署与配置应用实战
8. HBase集群的运维与监控管理 |
HBase半结构化数据管理应用实践操作训练 |
1. 部署与配置HBase集群以及HBase的性能优化
2. 部署与配置ZooKeeper分布式集群
3. 构建HBase开发环境
4. HBase数据库操作及项目实践 |
第二部份
【2】 |
Hive大型数据仓库集群平台及其应用实践 |
1. 基于Hadoop的大型分布式数据仓库基础知识,HIVE在行业中的数据仓库应用案例
2. Hive大数据仓库简介以及应用介绍
3. Hive数据仓库集群的平台体系结构、核心技术剖析
4. Hive Server的工作原理、机制与应用
5. Hive数据仓库集群的安装部署与配置优化
6. Hive应用开发技巧
7. Hive SQL剖析与应用实践
8. Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧
9. Hive数据仓库报表设计
10、Hive JDBC与ODBC的工作原理与实现机制
11、Hive HWI、CLI客户端操作以及UDF应用实践 |
Mahout大数据分析挖掘平台及其应用实践 |
1. Mahout集群的安装部署与配置优化
2. Mahout实现客户分析,广告分析,日志分析,规律预测,关联分析,定向推荐等应用程序的开发与应用实战
3. Mahout性能优化与分析挖掘算法参数的优化技巧 |
Hive数据仓库与Mahout数据挖掘平台的应用实践操作训练 |
1. 部署与配置HIVE集群,以及HIVE性能调优
2. 构建HIVE开发环境
3. HIVE数据仓库操作及项目实践
4. 实现Mahout与Hadoop HBase的应用集成,实现日志数据分析挖掘项目的应用实践 |
第三部份
【1】 |
Spark大数据实时处理平台剖析 |
1. Spark的发展历程以及业界的实际应用介绍
2. Spark实时大数据处理平台架构
3. Spark RDD内存弹性分布式数据集的工作原理与机制
4. Spark的核心组件剖析
5. 基于Spark的实时数据仓库与实时分析挖掘处理在行业中的应用实践案例 |
基于Spark的实时数据仓库和实时数据分析挖掘处理平台的实现机制,以及SparkSQL,Spark Streaming,MLib,GraphX,SparkR的应用实践 |
1. 内存计算模型和实时处理技术介绍
2. Spark中各个分布式组件的处理框架及工作原理
3. Spark SQL实时数据仓库的实现原理机制及应用实践
4. Spark Streaming流式数据实时处理机制及应用实践
5. Spark MLib实时机器学习算法应用实践与案例应用
6. Spark GraphX实时图数据处理应用实践与社交网络分析应用案例
7. SparkR的实现原理与应用实践
8. Spark组件的应用编程开发实战
9. Spark与Hadoop的集成解决方案实践 |
Spark平台与各个组件的实践操作训练 |
1. 部署与配置Spark集群,以及Spark性能调优
2. 构建Spark开发环境
3. Spark程序运行以及操作
4. Spark SQL应用操作实训
5. Spark Streaming应用操作实训
6. Spark MLib应用操作实训
7. Spark GraphX应用操作实训
8. SparkR应用操作实训
9. Spark与HBase集成数据分析实验实训 |
第三部份
【2】 |
Storm流式数据处理平台架构及其应用实践 |
1. Storm流式处理系统的平台架构和工作原理
2. Storm关键技术剖析
3. Storm集群安装部署与配置优化
4. Storm日志流数据分析项目应用实战
5. Storm和Hadoop,Spark的应用集成项目实践 |
大数据智能化ETL操作工具以及Hadoop集群运维监控工具平台应用 |
1. Hadoop与DBMS之间数据交互工具的应用
2. Sqoop导入导出数据的工作原理,以及Sqoop集群安装部署与配置
3. Kettle集群的平台架构、核心技术工作原理以及应用案例
4. Kettle大数据ETL工具的部署与配置,以及应用实战
5. 利用Sqoop实现MySQL与Hadoop集群之间的数据导入导出交互程序
6. Hadoop大数据运维监控管理系统HUE平台的安装部署与应用配置
7. Hadoop运维管理监控系统Ambari平台的安装部署与应用配置
8. Hadoop集群运维系统Ganglia, Nagios的安装部署与应用配置 |
大数据分布式采集与分布式消息订阅系统及其应用实践(可选) |
1. Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战
2. Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战 |
内存数据库管理系统及其应用实践(可选) |
1. Impala实时查询系统平台架构、核心关键技术剖析
2. Impala实时查询系统的部署与应用开发实践
3. Redis内存数据库集群架构以及核心技术剖析
4. Redis集群的部署与应用开发实战与案例分析 |
Cassandra数据管理系统应用实践(可选) |
1. Cassandra集群的平台架构以及核心关键技术
2. Cassandra一致性哈希算法与数据对象分布策略
3. Cassandra集群的安装部署与配置优化
4. Cassandra应用开发实战与案例分析 |
大数据项目应用完整实践与咨询讨论 |
1. 根据讲师布置的实际应用案例,开展大数据完整项目部署设计和应用开发实践
2. 大数据项目的需求分析、应用实施以及解决方案分享咨询与交流讨论 |
学习考核与行业经验交流 |