Big data con Python y Spark

Big data con Python y Spark
  • TaskBigdata,spark,machine learning,deep learning
Usando Spark para extraer rápidamente el significado de conjuntos de datos masivos a través de un cluster Hadoop tolerante a fallos.

Resolver problemas de análisis de datos con Spark.

7

Horas


Horas dedicadas al curso.
95

Clases


Clases totales
25

Estudio


Horas dedicadas de estudio
5

Nivel


Avanzado

Programacion con Python

  • Python 2 vs 3.
  • Tipos de IDE.
  • Github.
  • Tipos de Variables.
  • Operadores.
  • Listas.
  • Tuplas.
  • Numpy y Matrices.
  • Diccionarios.
  • Visualización.
  • Funciones.

Fundamentos de Spark

  • Introduccion Spark.
  • RDD's.
  • Pares Clave / Valor.
  • Filtrando RDD's.
  • Flatmap( ).

Spark en Cluster en la Nube / AWS EMR

  • Elastic MapReduce.
  • Particiones.
  • Diagnostico de errores.

Machine Learning con Spark

  • MLLib.
  • Sistema de Recomendaciones.

Machine Learning con Python

  • Procesamiento de Datos.
  • Separando Datos en Sets de Entrenamiento y Prueba.
  • Escalado de Caracteristicas.
  • Regresion Lineal Simple.
  • Adaptando Regresion en Set de Entrenamiento.
  • Graficando Resultados y Conclusiones.

Deep Learning con Python

  • Que es Deep learning.
  • Introduccion Redes Neuronales Artificiales.
  • La Neurona.
  • Funcion de Activacion.
  • Como Funcionan las Redes Neuronales.
  • Como Aprenden las Redes Neuronales.
  • Descenso de Gradiente.
  • Descenso de Gradiente Estocastica.

Satisfacción

¿Qué aprendí?

  • Usar DataFrames y Streaming estructurado en Spark .
  • Enmarcar grandes problemas de análisis de datos como problemas de Spark.
  • Elastic MapReduce de Amazon para ejecutar su trabajo en un clúster con Hadoop YARN.
  • Implementar algoritmos iterativos como la búsqueda por amplitud usando Spark.
  • Usar la biblioteca de aprendizaje de máquina MLLib para responder a preguntas comunes sobre minería de datos.
  • Ajustar y solucionar problemas de grandes trabajos que se ejecutan en un clúste.r
  • Compartir información entre nodos en un cluster de Spark usando variables de transmisión y acumuladores.