Introducción al Big Data con Spark y el ecosistema Hadoop: HDFS, MapReduce, YARN, Hive, Impala, Pig, Sqoop.
Tecnologías relacionadas con Hadoop (HDFS, MapReduce, YARN, Spark, Hive, Impala, Pig, Oozie, Sqoop, etc.) y con Spark, el framework de desarrollo más utilizado en el mundo Big Data por su gran velocidad de procesamiento.
4.5
Horas
Horas dedicadas al curso.
26
Clases
Clases totales
15
Estudio
Horas dedicadas de estudio
5
Nivel
Básico
Introducción a Hadoop e instalación de la distribución
- El ecosistema Hadoop
- Qué es Hadoop.
- Ventajas de Hadoop.
Gestión de archivos distribuidos con HDFS
- Cómo funciona HDFS
- Principales comandos HDFS.
Procesar datos distribuidos con MapReduce
- Cómo funciona MapReduce.
- Programar y ejecutar MapReduce con Java.
Importar y consultar datos estructurados con Hive e Impala
- Consulta de datos estructurados con Hive e Impala.
- Ingesta de datos con Sqoop.
Procesamiento ETL de datos con Pig
- Procesamiento de datos con Pig.
Llevando flujos de datos al clúster con Flume
- Ingestar y procesar flujos de datos con Flume.
Procesar datos en tiempo real con Spark
- Introducción a Spark.
- Transformaciones con Spark.
- Acciones y persistencia en Spark.
Gestionar un clúster
- Coordinar los procesos del clúster con Oozie.
- Gestionar los recursos del clúster.
Satisfacción
¿Qué aprendí?
- Crear aplicaciones con Spark, el framework de desarrollo más utilizado del mundo Big Data.
- Crear aplicaciones para procesar Big Data utilizando las principales herramientas del ecosistema Hadoop.
- Almacenar grandes volúmenes de datos con HDFS.
- Procesar grandes volúmenes de datos con MapReduce
- Procesar grandes volúmenes de datos en tiempo casi real con Spark
- Acceder a las herramientas del clúster mediante el interface Hue o la linea de comandos
- Volcar datos al clúster usando Sqoop
- Trabajar con datos estructurados en Hive
- Hacer consultas SQL interactivas con Impala
- Planificar los trabajos del clúster con Oozie
- Para qué sirve un gestor de recursos del clúster como YARN