Big Data con Hadoop y Spark

Introducción al Big Data con Spark y el ecosistema Hadoop: HDFS, MapReduce, YARN, Hive, Impala, Pig, Sqoop.

Tecnologías relacionadas con Hadoop (HDFS, MapReduce, YARN, Spark, Hive, Impala, Pig, Oozie, Sqoop, etc.) y con Spark, el framework de desarrollo más utilizado en el mundo Big Data por su gran velocidad de procesamiento.

4.5

Horas

Horas dedicadas al curso.

Clases

Clases totales

Estudio

Horas dedicadas de estudio

Nivel

Básico

Introducción a Hadoop e instalación de la distribución

El ecosistema Hadoop
Qué es Hadoop.
Ventajas de Hadoop.

Gestión de archivos distribuidos con HDFS

Cómo funciona HDFS
Principales comandos HDFS.

Procesar datos distribuidos con MapReduce

Cómo funciona MapReduce.
Programar y ejecutar MapReduce con Java.

Importar y consultar datos estructurados con Hive e Impala

Consulta de datos estructurados con Hive e Impala.
Ingesta de datos con Sqoop.

Procesamiento ETL de datos con Pig

Procesamiento de datos con Pig.

Llevando flujos de datos al clúster con Flume

Ingestar y procesar flujos de datos con Flume.

Procesar datos en tiempo real con Spark

Introducción a Spark.
Transformaciones con Spark.
Acciones y persistencia en Spark.

Gestionar un clúster

Coordinar los procesos del clúster con Oozie.
Gestionar los recursos del clúster.

Satisfacción

¿Qué aprendí?

Crear aplicaciones con Spark, el framework de desarrollo más utilizado del mundo Big Data.
Crear aplicaciones para procesar Big Data utilizando las principales herramientas del ecosistema Hadoop.
Almacenar grandes volúmenes de datos con HDFS.
Procesar grandes volúmenes de datos con MapReduce
Procesar grandes volúmenes de datos en tiempo casi real con Spark
Acceder a las herramientas del clúster mediante el interface Hue o la linea de comandos
Volcar datos al clúster usando Sqoop
Trabajar con datos estructurados en Hive
Hacer consultas SQL interactivas con Impala
Planificar los trabajos del clúster con Oozie
Para qué sirve un gestor de recursos del clúster como YARN