`
yanfaguanli
  • 浏览: 660486 次
文章分类
社区版块
存档分类
最新评论

【教程分享】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

 
阅读更多

基于GreenplumHadoop分布式平台的大数据解决方案及商业应用案例剖析

课程讲师:迪伦

课程分类:Java

适合人群:高级

课时数量:96课时

用到技术:MapReduceHDFSMap-ReduceHiveSqoop

涉及项目:GreenplumHadoop大数据分析平台

更新程度:完毕

对这个课程有兴趣的朋友可以加我的QQ2059055336和我联系

下载地址:链接: pan.baidu.com/s/1nthYpKH 密码: niyi

随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及Android程序员。

Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万

一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

本课程讲师拥有多年Greenplum和Hadoop实战经验,课程注重实践,原理剖析,实践分享,让学员能快速全面地掌握Greenplum操作和调优,以及Hadoop的搭建与运用实战。

课程实战、实用、实际,总共96课时,系史上最全最深入的讲解Greenplum、Hadoop、云计算相关领域的技能课程,北风仅以此课程献给有志于从事大数据行业,追求高薪的有想法的程序员。

课程亮点多多:

亮点一、技术混搭

Greenplum+Hadoop,让你全面掌握玩转大数据的倚天剑和屠龙刀,让你学到不一样的精彩,成为不一样的复合型人才!

亮点二、高成低也就

亮点三、既注重技术基础,手把手传授技术,通过实操实战的讲授过程让学员沉淀技术,打好牢固坚实的基础;另外,也不忘从行业、架构的高度,帮助大家扩宽视野,游刃有余。

亮点四、注重实践:原理剖析,实践分享;让学员能快速全面地掌握Greenplum操作和调优,以及Hadoop的搭建与运用实战。

实战、实用、实际

亮点五、全面覆盖了Greenplum完整知识体系,及关系型数据库管理和调优思想;

亮点六、课程涵盖Hadoop生态系统中所有常用组件;

亮点七、学完此课程可以获得IT行业高薪职业发展能力。

课程大纲

第一部分Greenplum分布式数据库基础(41课时)

1Greenplum架构

什么是Greenplum

Greenplum体系结构

Greenplum高可用性架构

2安装Greenplum

配置环境

安装并初始化GPDB系统

启停数据库

配置GP系统

3分布式数据库存储

数据是如何存储的

分布策略

4GBDB查询处理

查询命令的执行

SQL查询处理机制

并行查询计划

5角色权限及客户端认证管理

客户端认证

管理用户和组

6客户端接口和程序

pgAdminIII

PSQL

7定义数据库对象

创建并管理数据库

创建并管理表空间

创建并管理模式

创建并管理表

分区表

数据分布与分区

压缩存储与行列存储

序列、索引与视图

8管理数据

插入、更新、删除记录

事务管理

空间回收和统计

9查询数据

定义查询

使用函数和运算符

查询分析

10工作负载及资源管理

GP工作负载管理概述

配置工作负载管理

创建资源队列

分配资源队列

检查资源队列状态

11装载和卸载数据

GP装载命令概述

装载数据到GP

GP卸载数据

格式化数据文件

12备份恢复

串行备份和恢复

并行恢复和恢复

13性能调优

如何进行调优

常见的性能问题

14GP系统配置参数

关于GPMaster参数与本地化参数

设置配置参数

配置参数种类

15开启高可用性

GP高可用概述

开启GPMirror

获知Segment何时失败

恢复失败的Segment

恢复失败的Master

16GPMapReduce

MapReduce基础

GPMapReduce编程

MapReduce作业执行和故障诊断

第二部分Hadoop分布式平台(55课时)

1Hadoop的起源和体系

Hadoop思想起源:Google

Hadoop子项目家族

Hadoop的架构

2Hadoop的安装与配置

准备和配置环境

三种运行模式

完全分布式模式安装

3HDFS-大数据存储

HDFS概念与体系结构

HDFS的可靠性

HDFS文件操作

HDFSAPI

4关于MapReduce

MapReduce编程模型

MapReduce的集群行为

MapReduce任务的优化

MapReduce工作机制

错误处理及作业调度机制

5MapReduce应用开发

HadoopEclipse插件开发

数据筛选程序开发

倒排索引程序开发

6Hadoop监控与管理

页面监控

hadoop备份

7HBase数据库

Hbase体系结构

HBaseshell

HBaseAPI应用实例

HBase场景应用

HBase模式设计

8Hive数据仓库

Hive组件与体系架构

Hive安装配置

Hive的服务接口

HiveQL常用操作

Hive的优化

HiveUDF编程

Hive综合实战

9Pig数据分析平台

Pig框架

Pig安装配置

Pig的使用

Pig的数据模型

常用PigLatin操作

PigUDF编程

Pig数据分析实战

10ZooKeeper分布式服务框架

ZooKeeper工作原理

ZooKeeper设计目标

ZooKeeper的数据结构和组成

ZooKeeper的安装配置

ZooKeeper命令行工具

ZooKeeperAPI

ZooKeeper实战:Hadoop任务调度

11Chukwa集群监控系统

Chukwa的组成

Chukwa架构和设计

Chukwa安装与配置

常用Chukwa命令

实现自定义数据处理

12Hadoop商业应用案例

云计算概念和特征

云计算服务模式和形态

Hadoop在云计算的运用

京东商城

百度

阿里巴巴

腾讯

13GreenplumHadoop集群

集成架构的特征

集成架构的优势

配置gphdfs协议使用环境

使用HDFS外部表

分享到:
评论

相关推荐

    基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析.rar

    基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析,完整版96节,提供有课件,价值1800的课程,现在分享给大家

    Greenplum Hadoop分布式平台的大数据解决方案及商业应用

    最著名的案例就是阿里巴巴集团,经过多种产品的精心选型,最终选择GREENPLUM作为它们的数据仓库平台存放数百TB的业务数据去高效支持各种分析应用。正是由于产品发展速度很快,但是在相关人才上存在很大缺口。

    基于Greenplum Hadoop- 分布式平台的大数据解决方案03 - 安装Greenplum(1)

    基于Greenplum Hadoop- 分布式平台的大数据解决方案 03 - 安装Greenplum(1) 视频和PPT

    基于Greenplum Hadoop- 分布式平台的大数据解决方案26 - 查询数据(3).zip

    基于Greenplum Hadoop- 分布式平台的大数据解决方案26 - 查询数据(3).zip

    基于Greenplum Hadoop- 分布式平台的大数据解决方案22 - 管理数据(1).zip

    基于Greenplum Hadoop- 分布式平台的大数据解决方案22 - 管理数据(1).zip

    hadoop应用开发实例教程 之Greenplum架构

    hadoop应用开发实例教程-基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析,课程实战、实用、实际,总共96课时,系史上最全最深入的讲解Greenplum、Hadoop、云计算相关领域的技能课程,北风网仅...

    开源大数据引擎:Greenplum数据库架构分析

    Greenplum数据库是最先进的分布式开源数据库技术,主要用来处理大规模的数据分析任务,包括数据仓库、商务智能(OLAP)和数据挖掘等。自2015年10月正式开源以来,受到国内外业内人士的广泛关注。本文就社区关心的...

    Hadoop实战中文版

    《Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地...

    大数据图标大全.docx

    dremio 另外一个drill Nifi 一个易用,强大,可靠的数据处理分发工具 Presto 分布式大数据SQL查询引擎 Cassandra 一个面向列式存储的数据库 Greenplum Database 旗舰分析数据仓库 Superset 可视化分析工具 Livy ...

    大数据定义.doc

    传统的关系数 据库无法处理大数据的规模,目前可选择的方法包括大规模并行处理架构、数据仓库、 或类似Greenplum的数据库、以及Apache Hadoop解决方案。其中,数据仓库比较适合于预先确定的数据结构和变化缓慢的数据...

    大数据下的数据分析平台架构.pdf

    本⽂主要介 绍⼀种基于Hadoop平台的多维分析和数据挖掘平台架构。 ⼤数据分析的分类 Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从⼏个⾓度将⼤数据分析的业务需求分类,针对不同的具 ...

    2007数据分析与业务建模

    数据分析与业务建模:随着数据仓库的不断发展和成熟,“大数据”概念的风靡,有越来越多的相关产品出来,最常见的技术解决方案包括hadoop和hive,oracle,mysql的infobright,greenplum及nosql,或者多个结合使用。...

    Hadoop实战中文版.PDF

    案例研究 22412.1 转换《纽约时报》1100万个库存图片文档 22412.2 挖掘中国移动的数据 22512.3 在StumbleUpon推荐最佳网站 22912.3.1 分布式StumbleUpon的开端 23012.3.2 HBase和StumbleUpon 23012.3.3 ...

    Hadoop实战

    第一部分 Hadoop——一种分布式编程框架第1章 Hadoop简介 21.1 为什么写《Hadoop 实战》 31.2 什么是Hadoop 31.3 了解分布式系统和Hadoop 41.4 比较SQL数据库和Hadoop 51.5 理解MapReduce 61.5.1 动手扩展一个简单...

    Hadoop实战(陆嘉恒)译

     —— EasyHadoop 国内专业的Hadooop社区,致力于让Hadoop大数据分析更简单第一部分 Hadoop——一种分布式编程框架第1 章 Hadoop简介1.1 为什么写《Hadoop 实战》1.2 什么是Hadoop1.3 了解分布式系统和Hadoop1.4 ...

    大数据的存储管理技术.doc

    2 大数据存储管理的关键技术分析 2.1 分布式文件系统 分布式文件系统是一种通过计算机网络实现在多台机器上进行分布式存储的文 件系统,它把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集 群...

    MPP数据库对比.doc

    主流分布式并行处理数据库产品介绍 1 Greenplum 1 基础架构 Greenplum是基于Hadoop的一款分布式数据库产品,在处理海量数据方面相比传统数 据库有着较大的优势。 Greenplum整体架构如下图: 数据库由Master Severs...

    大数据分析及处理方法.docx

    或者分布式计算集群来对存储于其内的海量数据进行一般的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,...

    java连接sqoop源码-big-data-engineering-indonesia:大数据工程工具、资源和社区的精选列表

    是一个免费、开源、完整的在线备份解决方案,适用于所有版本的 Percona Server、MySQL:registered: 和 MariaDB:registered: Pinterest MySQL 管理工具 MySQL 的增强型替代品。 世界上最先进的开源数据库。 具有 ...

Global site tag (gtag.js) - Google Analytics