Curso de Apache Iceberg Fundamentals
Apache Iceberg es un formato de tabla de código abierto para conjuntos de datos a gran escala que aporta la fiabilidad y la simplicidad de las tablas SQL a big data. Fue diseñado para resolver los desafíos de administrar big data en lagos de datos, que a menudo implican el manejo de esquemas complejos, archivos grandes y diversas fuentes de datos.
Esta capacitación en vivo dirigida por un instructor (en línea o en el sitio) está dirigida a profesionales de datos de nivel principiante que desean adquirir el conocimiento y las habilidades necesarias para utilizar Apache Iceberg de manera efectiva para administrar conjuntos de datos a gran escala, garantizar la integridad de los datos y optimizar los flujos de trabajo de procesamiento de datos.
Al final de esta capacitación, los participantes serán capaces de:
- Obtenga una comprensión profunda de la arquitectura, las características y los beneficios de Apache Iceberg.
- Obtenga información sobre los formatos de tabla, la creación de particiones, la evolución del esquema y las capacidades de viaje en el tiempo.
- Instala y configura Apache Iceberg en diferentes entornos.
- Crear, administrar y manipular tablas Iceberg.
- Comprender el proceso de migración de datos de otros formatos de tabla a Iceberg.
Formato del curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para concertar una cita.
Programa del Curso
Introducción a Apache Iceberg
- Descripción general de Apache Iceberg
- Importancia y casos de uso en la arquitectura de datos moderna
- Características y ventajas principales
Conceptos básicos
- Formato y arquitectura de la mesa Iceberg
- Comparación con otros formatos de tabla
- Particionamiento y evolución del esquema
- Viaje en el tiempo y control de versiones de datos
Configuración de Apache Iceberg
- Instalación y configuración
- Integración de Iceberg con varios motores de procesamiento de datos
- Configuración de un entorno Iceberg en un equipo local
Operaciones básicas
- Creación y administración de tablas Iceberg
- Escribir y leer en las tablas Iceberg
- Operaciones básicas de CRUD
Migración e integración de datos
- Migración de datos de Hive y otros sistemas a Iceberg
- Integración con herramientas de BI
- Migración de un conjunto de datos de muestra a Iceberg
Optimización del rendimiento
- Técnicas de ajuste del rendimiento
- Optimización de consultas y análisis de datos
- Optimización del rendimiento en Iceberg
Descripción general de las funciones avanzadas
- Evolución de la partición y particionamiento oculto
- Evolución de la tabla y cambios de esquema
- Funciones de viaje en el tiempo y retroceso
- Implementación de funciones avanzadas en Iceberg
Resumen y próximos pasos
Requerimientos
- Familiaridad con conceptos como tablas, esquemas, particiones e ingesta de datos
- Conocimientos básicos de SQL
Audiencia
- Ingenieros de datos
- Arquitectos de datos
- Analistas de datos
- Desarrolladores de software
Los cursos de formación abiertos requieren más de 5 participantes.
Curso de Apache Iceberg Fundamentals - Booking
Curso de Apache Iceberg Fundamentals - Enquiry
Apache Iceberg Fundamentals - Consultas
Consultas
Testimonios (4)
El entrenador tenía una buena comprensión de los conceptos
Josheel - Verizon Connect
Curso - Amazon Redshift
Traducción Automática
Lo que más me gustó fue el dominio del tema por parte del trainer, su paciencia y claridad al explicar los conceptos, y especialmente su disposición constante para responder todas las dudas que surgieron. Fue una experiencia de aprendizaje realmente enriquecedora y muy agradable.
Patricio Condado - SOKODB
funciones analíticas
khusboo dassani - Tech Northwest Skillnet
Curso - SQL Advanced
Traducción Automática
cómo el instructor demuestra su conocimiento sobre la materia que enseña
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Curso - Data Vault: Building a Scalable Data Warehouse
Traducción Automática
Próximos cursos
Cursos Relacionados
SQL Avanzado
14 HorasThis instructor-led, live training in Guatemala (online or onsite) is aimed at intermediate-level database administrators, developers, and analysts who wish to master advanced SQL functionalities for complex data operations and database management.
By the end of this training, participants will be able to:
- Perform advanced querying techniques using unions, subqueries, and complex joins.
- Add, update, and delete data, tables, views, and indexes with precision.
- Ensure data integrity through transactions and manipulate database structures.
- Create and manage databases efficiently for robust data storage and retrieval.
Curso de Amazon Redshift
21 HorasAmazon Redshift es un servicio de almacenamiento de datos basado en la nube a escala de petabytes en AWS.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán los fundamentos de Amazon Redshift.
Al final de esta formación, los participantes serán capaces de:
- Instalar y configurar Amazon Redshift
- Cargue, configure, implemente, consulte y visualice datos con Amazon Redshift
Audiencia
- Desarrolladores
- Profesionales de TI
Formato del curso
- En parte conferencia, en parte discusión, ejercicios y práctica práctica intensa
Nota
- Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para concertarlo.
Advanced Apache Iceberg
21 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o en el sitio) está dirigida a profesionales de datos de nivel avanzado que desean optimizar los flujos de trabajo de procesamiento de datos, garantizar la integridad de los datos e implementar soluciones sólidas de data lakehouse que puedan manejar las complejidades de las aplicaciones modernas de big data.
Al final de esta capacitación, los participantes serán capaces de:
- Obtenga una comprensión profunda de la arquitectura de Iceberg, incluida la gestión de metadatos y el diseño de archivos.
- Configure Iceberg para obtener un rendimiento óptimo en varios entornos e intégrelo con múltiples motores de procesamiento de datos.
- Administre tablas Iceberg a gran escala, realice cambios de esquema complejos y controle la evolución de las particiones.
- Domine las técnicas para optimizar el rendimiento de las consultas y la eficiencia del análisis de datos para grandes conjuntos de datos.
- Implemente mecanismos para garantizar la coherencia de los datos, gestionar las garantías transaccionales y gestionar los errores en entornos distribuidos.
Big Data Consulting
21 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o en el sitio) está dirigida a profesionales de TI de nivel intermedio que desean mejorar sus habilidades en arquitectura de datos, gobernanza, computación en la nube y tecnologías de big data para administrar y analizar de manera efectiva grandes conjuntos de datos para la migración de datos dentro de sus organizaciones.
Al final de esta capacitación, los participantes serán capaces de:
- Comprender los conceptos y componentes fundamentales de varias arquitecturas de datos.
- Obtenga una comprensión completa de los principios de gobernanza de datos y su importancia en los entornos normativos.
- Implemente y gestione marcos de gobernanza de datos como Dama y Togaf.
- Aproveche las plataformas en la nube para un almacenamiento, procesamiento y gestión de datos eficientes.
Big Data & Fundamentos de Sistemas de Bases de Datos
14 HorasEl curso es parte del conjunto de habilidades de Data Scientist (Dominio: Datos y Tecnología).
Azure Data Lake Storage Gen2
14 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o presencial) está dirigida a ingenieros de datos de nivel intermedio que deseen aprender a usar Azure Data Lake Storage Gen2 para soluciones efectivas de análisis de datos.
Al final de esta capacitación, los participantes serán capaces de:
- Comprenda la arquitectura y las características clave de Azure Data Lake Storage Gen2.
- Optimice el almacenamiento y el acceso a los datos en cuanto a costes y rendimiento.
- Integre Azure Data Lake Storage Gen2 con otros Azure servicios para análisis y procesamiento de datos.
- Desarrolle soluciones con la API Azure de Data Lake Storage Gen2.
- Solucione problemas comunes y optimice las estrategias de almacenamiento.
Bóveda de Datos: Creación de un Almacén de Datos Escalable
28 HorasEn esta capacitación en vivo dirigida por un instructor en Guatemala, los participantes aprenderán cómo construir un Data Vault.
Al final de esta formación, los participantes serán capaces de:
- Comprender los conceptos de arquitectura y diseño detrás de Data Vault 2.0 y su interacción con Big Data, NoSQL e IA.
- Utilice técnicas de almacenamiento de datos para permitir la auditoría, el seguimiento y la inspección de datos históricos en un almacén de datos.
- Desarrolle un proceso ETL (Extracción, Transformación, Carga) coherente y repetible.
- Construya e implemente almacenes altamente escalables y repetibles.
Druid:Construir un Sistema Rápido y en Tiempo Real de Análisis de Datos
21 HorasApache Druid es un almacén de datos distribuidos, de código abierto, orientado a columnas, escrito en Java . Fue diseñado para ingerir rápidamente cantidades masivas de datos de eventos y ejecutar consultas OLAP de baja latencia en esos datos. Druid se usa comúnmente en aplicaciones de inteligencia empresarial para analizar grandes volúmenes de datos históricos y en tiempo real. También es adecuado para alimentar paneles de control rápidos, interactivos y analíticos para usuarios finales. Druid es utilizado por empresas como Alibaba, Airbnb, Cisco , eBay, Netflix, Paypal y Yahoo.
En este curso en vivo dirigido por un instructor, exploramos algunas de las limitaciones de las soluciones de almacenamiento de datos y discutimos cómo Druid puede complementar esas tecnologías para formar una pila de análisis de transmisión flexible y escalable. Analizamos muchos ejemplos, ofreciendo a los participantes la oportunidad de implementar y probar soluciones basadas en druidas en un entorno de laboratorio.
Formato del curso
- Conferencia parcial, discusión parcial, práctica práctica intensa, pruebas ocasionales para evaluar la comprensión
Greenplum Database
14 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o en el sitio) está dirigida a administradores que desean configurar Greenplum Database soluciones de inteligencia empresarial y almacenamiento de datos.
Al final de esta capacitación, los participantes serán capaces de:
- Aborde las necesidades de procesamiento con Greenplum.
- Realizar operaciones ETL para el procesamiento de datos.
- Aproveche las infraestructuras de procesamiento de consultas existentes.
IBM Datastage For Administrators and Developers
35 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o en el sitio) está dirigida a profesionales de TI de nivel intermedio que desean tener una comprensión integral de IBM DataStage desde una perspectiva administrativa y de desarrollo, lo que les permite administrar y utilizar esta herramienta de manera efectiva en sus respectivos lugares de trabajo.
Al final de esta formación, los participantes serán capaces de:
- Comprender los conceptos básicos de DataStage.
- Aprenda a instalar, configurar y gestionar eficazmente los entornos de DataStage.
- Conéctese a varias fuentes de datos y extraiga datos de manera eficiente de bases de datos, archivos planos y fuentes externas.
- Implementar técnicas efectivas de carga de datos.