Hadoop与Spark大数据架构

  •  
    •  课程目标

      首先介绍了大数据架构的总体内容,并分别详细讲解了Hadhoop与Spark两套架构,深入讲解了主流的三大类大数据计算框架,分别是批处理、交互式计算和流式计算框架,并选取当下主流的开源实现进行介绍。课程最后对Mahout与MLlib这两个主流的分布式数据挖掘与机器学习库进行了实现以及应用案例讲解。

    •  师资团队

    • 华清创客企业内训讲师,均是来自各个领域的资深专家,均拥有6年以上大型项目经验。

    •  培养对象

      1、学员学习本课程应具备基础知识:了解Java语言、Linux系统;
      2、适用于各类IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

    •  培训方式

    第一种:华清创客讲师面授
    课时:共2天,每天6学时,总计12学时
    ◆费用(含教材费):2400元
    ◆外地学员:代理安排食宿(需提前预定)

    第二种:线上直播授课
    直播课时:共4天,每天3学时,总计12学时;
    辅导:授课期间,辅导老师每天有1小时的辅导直播
    ◆费用(含教材费):2400元

    第三种:企业订制培训
    课时:根据定制的大纲确定课时
    费用:根据课程难度,每课时1500~3000元

      •  质量保证

        1、培训过程中,如有部分内容理解不透或消化不好,可免费在下期培训班中重听;

        2、培训结束后免费提供一个月的技术支持,充分保证培训后出效果;

        3、培训合格学员可享受免费推荐就业机会。

      •  课程大纲

        主题 内容

        大数据架构概述 "1.1大数据层级架构及各层软件设计要求,包括数据收集、存储、计算框、应用

        1.2 Hadoop生态系统概述以及版本演化,并给出版本选择建议。

        1.3 Spark生态系统概述及其特点,并与Hadoop对比"

        数据收集系统FlumeSqoop


        2.1使用flumesqoop两个系统将外部流式数据(比如网站日志,用户行为数据等)、关系型数据库(比如MySQLOracle等)中的数据导入Hadoop中进行分析和挖掘

        大数据存储系统HDFSHbase "


        3.1 HDFS1.0进行对比介绍2.0原理、特性与基本架构(快照、缓存、异构存储)。

        3.2 HBase原理,基本架构与案例分析

        3.3 HBase应用场景、原理和架构,典型应用案例(互联网、银行)"

        集群资源管理与调度系统


        4.1 介绍YARN应用场景、基本架构与资源调度

        Zookeeper部署及典型应用


        5.1 介绍Zookeeper是什么,基本原理及在应用

        大数据计算平台 "介绍主流的三大类大数据计算框架,分别是批处理、交互式计算和流式计算框架,并选取当下主流的开源实现进行介绍。


        6.1 批处理计算框架

        6.1.1 MapReduce2.0基本原理与架构、程序编写(使用javaC++php语言)

        6.1.2 数据分析系统HivePig应用与比较,如何使用其中的海量数据

        6.1.3 Spark计算框架,背景及应用案例

        6.2 交互式计算框架,Impalapresto应用场景,基本架构和典型应用案例

        6.3 流式/实时计算框架,stormSparkStreaming基本架构特点,及应用案例"

        数据挖掘与机器学习库 7.1 MahoutMLlib两个主流的分布式数据挖掘与机器学习库的实现以及应用案例。



the end

评论(0)