课程内容:
(一)基础理论部分
1.数据分析基础
(1)数据分析过程概述
(2)概率论与数据统计
(3)抽样估计与假设检验
(4)方差分析与回归分析
2.java基础
(1)JDK的安装配置,Java基本知识、数据类型以及基本语法
(2)Eclipse的编程入门
(3)面向对象的思想基本介绍,类、对象、接口、封装、继承
(4)Java的集合类——数组、Set、List、Map、Queue
(5)异常处理——Checked Exception、Unchecked Exception,如何通过异常信息捕获错误
(6)Java的垃圾回收机制以及多线程简介
(7)Java的文件操作、包的概念及如何打包
(8)数据库基础知识及SQL语法
(9)基于servlet技术的B/S应用开发及代码实现案例详解
3.linux基础
(1)linux的介绍
(2)Linux入门:选择合适的Linux发行版、如何安装Linux
(3)linux操作系统命令及使用命令编辑文件
(4)Linux下SSH命令使用方法详解
(二)hadoop理论课程
1.hadoop安装配置及运行机制解析
本节是大数据分析的环境搭建课程,属于操作型课程,主要讲述如何在linux单机上面安装hadoop的伪分布模式,在linux集群上面安装hadoop集群。对于不熟悉linux的同学,课程中会简单的讲解常用的linux命令。这两种是必须要掌握的。通过讲师手把手、面对面的交流,教会学员自己搭建一个真实的hadoop环境,在此环境下运行hadoop自带的小程序。主要内容包括:
(1)从google的三篇大数据论文说起
(2)Hadoop 概念、版本、历史
(3)Hadoop 伪分布及集群的详细安装步骤
(4)三个hadoop自带的小例子带你进入hadoop的世界
(5)使用如何通过命令行和浏览器观察hadoop的运行过程
(6)介绍hadoop的安全模式
(7)如何查看日志信息
2.Hadoop分布式文件系统深入剖析
本节将对hadoop架构的分布式文件系统HADFS进行深入的分析,hdfs是所有hadoop系统的基础,它是hadoop的核心内容之一。主要的内容包括:
(1)深度分析google的Google GFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
(2)HDFS的概念及设计
(3)Hdfs体系结构及运行机制详述
(4)NameNode、DataNode、SecondaryNameNode的作用及运行机制
(5)block 的划分原理、存储方式和配置文件
(6)hdfs的备份机制和文件管理机制
(7)HDFS文件系统的常用命令
(8)使用命令及JAVA语句操作hdfs中的文件
(9)rpc机制简介及HADFS中的rpc通信
3.MapReduce理论及实战
(1)深度分析google的MapReduce编程模型
(2)hadoop中的MapReduce工作原理
(3)通过演示单词计数程序,详细讲述mapreduce运行过程中类的调用过程
(4)详细讲述如何覆盖 Mapper 功能、如何覆盖 Reducer 功能。
(5)MapReduce job的生命周期中job提交、task分发和task执行
(6)MapReduce中block 的调度及作业分配机制
(7)讲解hadoop的计数器、排序、分组等算法
(8)通过一个小的应用,详细介绍如何在eclipse中编写MapReduce程序,打包成可在hadoop上运行的jar,并在集群上运行
(9)详细讲解运行结果的分析
4.hadoop生态环境介绍
(1)Hbase简介,包括HBase的基础概念 、数据模型、存储模型及hbase的伪分布和集群的安装
(2)ZooKeeper简介,包括ZooKeeper的安装、运行及示例
(3)Pig简介,包括Pig的安装、运行及示例
(4)Hive简介,包括Hive的安装、运行及示例
(5)sqoop简介,包括Sqoop介绍、命令、原理及流程
(6)nosql简介,包括nosql的概念、种类及发展趋势
(三)大数据分析思想、工具及实战案例
1.大数据分析思想介绍
(1)大数据分析的前世今生
(2)几种典型的大数据架构分析
(3)大数据分析过程描述
(4)大数据时代的数据分析思想的变革
2.Mahout,大数据分析的急先锋
Mahout 是 Apache SoftwareFoundation(ASF)旗下的一个开源项目,它通过和hadoop配合,实现在推荐、分类等领域中的大数据分析。
(1)Mahout的下载、安装与部署
(2)UCI经典数据集介绍
(3)使用经典数据集测试和运行Mahout实现的算法
(4)主要算法包括:kmeans算法、canopy算法、dirichlet 算法和meanshift算法
3.RHadoop,R语言从小数据分析到大数据分析的化丽转身
(1)R语言简介
(2)安装并运行RHadoop
(3)RHadoop的逻辑结构
(4)Rhadoop实战案例—word cout
(5)与hadoop word count 函数比较分析
4.大数据分析项目案例 |