Programa del Curso
Introducción
- Introducción a las soluciones Cloud Computing y Big Data
- Descripción general de las características y la arquitectura de Apache Hadoop
Configuración Hadoop
- Planificación de un Hadoop clúster (local, en la nube, etc.)
- Selección del sistema operativo y la distribución Hadoop
- Aprovisionamiento de recursos (hardware, red, etc.)
- Descarga e instalación del software
- Dimensionamiento del clúster para mayor flexibilidad
Trabajar con HDFS
- Descripción del Hadoop sistema de archivos distribuido (HDFS)
- Información general sobre la referencia de comandos de HDFS
- Accessing HDFS
- Realización de operaciones básicas de archivos en HDFS
- Uso de S3 como complemento de HDFS
Descripción general de MapReduce
- Descripción del flujo de datos en el marco de MapReduce
- Mapear, barajar, ordenar y reducir
- Demostración: Computando los mejores salarios
Trabajar con YARN
- Descripción de la administración de recursos en Hadoop
- Trabajar con ResourceManager, NodeManager, Application Master
- Programación de trabajos en YARN
- Programación para un gran número de nodos y clústeres
- Demostración: Programación de trabajos
Integración Hadoop con Spark
- Configuración del almacenamiento para Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Descripción de los conjuntos de datos distribuidos resistentes (RDD)
- Creación de un RDD
- Implementación de transformaciones RDD
- Demostración: Implementación de un programa de búsqueda de texto para títulos de películas
Administración de un clúster Hadoop
- Monitoreo Hadoop
- Protección de un clúster Hadoop
- Adición y eliminación de nodos
- Ejecución de una prueba comparativa de rendimiento
- Ajuste de un clúster Hadoop para optimizar el rendimiento
- Planificación de copias de seguridad, recuperación y continuidad del negocio
- Garantizar la alta disponibilidad (HA)
Actualización y migración de un clúster Hadoop
- Evaluación de los requisitos de carga de trabajo
- Actualización Hadoop
- Pasar de las instalaciones a la nube y viceversa
- Recuperación de errores
Solución de problemas
Resumen y conclusión
Requerimientos
- Experiencia en administración de sistemas
- Experiencia con la línea de comandos Linux
- Comprensión de los conceptos de big data
Audiencia
- Administradores de sistemas
- Dbas
Testimonios (5)
Un montón de ejemplos prácticos, diferentes formas de abordar un mismo problema, y a veces trucos no tan obvios de cómo mejorar la solución actual
Rafal - Nordea
Curso - Apache Spark MLlib
Traducción Automática
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curso - Python and Spark for Big Data (PySpark)
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
Curso - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
Liked very much the interactive way of learning.