Data Engineering
Profesional Certificate
No te quedes afuera del curso OnLine
los martes de 19 a 21
hora Argentina GMT-3
Primer clase:
martes 11 de febrero
Aprende los principios de la ingeniería de datos efectiva. Desarrolla tus habilidades como ingeniero de datos, impulsa los objetivos organizacionales mediante la ingesta, transformación, almacenamiento y distribución de datos a los interesados, y haz crecer tu carrera en un campo de alta demanda.
- ARANCEL: U$S 199 -
DeepLearning.AI Data Engineering Professional Certificate
ORGANIZA
Centro de Graduados de Ingeniería de la Universidad de Buenos Aires
CONTENIDO
Este curso forma parte
de la temporada 2025
DeepLearning.AI Data Engineering Professional Certificate
Aprende los principios de la ingeniería de datos efectiva.
Desarrolla tus habilidades en el campo de alta demanda de la ingeniería de datos y descubre cómo puedes generar valor real para el negocio aplicando un conjunto básico de principios y estrategias para desarrollar sistemas de datos.
AGENDA
Curso OnLine
los martes de 19 a 21
hora Argentina GMT-3
Comienza: Martes 11 de febrero
LAS INSCRIPCIONES CIERRAN EN...
Lo que aprenderás:
Desarrolla un modelo mental para el campo de la ingeniería de datos en su totalidad, incluyendo el ciclo de vida de la ingeniería de datos y sus corrientes subyacentes.
Aprende un marco de trabajo para abordar cualquier proyecto de ingeniería de datos en el que trabajes, de modo que puedas generar valor empresarial con los datos de manera efectiva.
Desarrolla tus habilidades en las cinco etapas del ciclo de vida de la ingeniería de datos: generación, ingestión, almacenamiento, transformación y entrega de datos.
Aprende los principios de una buena arquitectura de datos y aplícalos para construir sistemas de datos en la nube de AWS.
Certificado Profesional - Serie de 4 cursos
El Certificado Profesional en Ingeniería de Datos de DeepLearning.AI es un programa en línea integral dirigido a ingenieros de datos y profesionales que buscan comenzar o avanzar en sus carreras.
Las organizaciones, independientemente de su tamaño o sector, están capturando y generando datos a un ritmo acelerado. En estas organizaciones, cada equipo (desde ejecutivos hasta ventas, marketing, finanzas, operaciones, productos, ingeniería y atención al cliente) puede obtener información y valor a partir de los datos. Ya sea que el caso de uso final sea ciencia de datos, aprendizaje automático o análisis, la ingeniería de datos permite convertir los datos en valor para el negocio. Por esta razón, el rol de ingeniero de datos es uno de los trabajos más demandados en tecnología hoy en día.
A lo largo de este programa, aprenderás los fundamentos de la ingeniería de datos mientras adquieres experiencia práctica en el diseño e implementación de arquitecturas de datos utilizando AWS y herramientas de código abierto.
Impartido por el experto de la industria Joe Reis, coautor del libro Fundamentals of Data Engineering, este certificado te proporciona las habilidades y conocimientos necesarios para destacar en este campo de alta demanda. El enfoque incluye la ingestión, procesamiento, transformación, almacenamiento y entrega de datos a los interesados, impulsando los objetivos organizacionales y comerciales. Los laboratorios prácticos fueron desarrollados en asociación con AWS y Factored.AI, ofreciendo una experiencia auténtica en la construcción de sistemas de datos en la nube.
Con este certificado, contarás con las herramientas para avanzar en tu carrera como ingeniero de datos.
CURSO 1 - Introducción a la Ingeniería de Datos
Comprender el ciclo de vida de la ingeniería de datos y sus componentes clave.
Recopilar las necesidades de los interesados y traducirlas en requisitos del sistema.
Diseñar e implementar pipelines de datos por lotes y en tiempo real en AWS.
CURSO 2 - Sistemas de Origen, Ingestión de Datos y Pipelines
Traducir las necesidades de los interesados en requisitos del sistema.
Implementar procesos de ingestión de datos por lotes y en tiempo real en AWS.
Integrar aspectos como la seguridad, gestión de datos, DataOps y orquestación en los sistemas que construyas.
CURSO 3 - Almacenamiento y Consultas de Datos
Diseñar arquitecturas de almacenamiento para distintos casos de uso y seleccionar las tecnologías adecuadas.
Practicar patrones comunes de consultas y mejorar el rendimiento de las consultas y el valor de los sistemas de datos.
CURSO 4 - Modelado, Transformación y Entrega de Datos
Modelar y transformar datos para satisfacer las necesidades de los interesados.
Procesar datos tanto para análisis como para pipelines de machine learning utilizando marcos de procesamiento distribuido y no distribuido.
TEMARIO COMPLETO
CURSO 1 - Introducción a la Ingeniería de Datos
Semana 1: Introducción a los fundamentos y la importancia de la ingeniería de datos.
Introducción a la Ingeniería de Datos
Bienvenida a la Ingeniería de Datos
Plan de Estudios del Programa
Agradecimientos
Visión General del Curso 1
Definición de Ingeniería de Datos
Breve Historia de la Ingeniería de Datos
El Ingeniero de Datos entre Otros Interesados
Valor Empresarial
Requisitos del Sistema
Conversación con Sol Rashidi
Conversación con Jordan Morrow
Conversación sobre la Recopilación de Requisitos
Traducir las Necesidades de los Interesados en Requisitos Específicos
Pensando como un Ingeniero de Datos
¿Tienes preguntas, problemas o ideas? ¡Únete a nuestro Foro!
Ingeniería de Datos en la Nube
Ingeniería de Datos en la Nube
Conoce a Morgan Willis
Introducción a la Nube de AWS
Regiones y Zonas de Disponibilidad de AWS
Introducción a los Servicios Básicos de AWS
Cómputo - Amazon Elastic Compute Cloud (EC2)
Redes - Nube Privada Virtual (VPC) y Subredes
Seguridad - Modelo de Responsabilidad Compartida de AWS
Crear una Cuenta de AWS
Recorrido por la Consola de Administración de AWS
Semana 2: Exploración del ciclo de vida de la ingeniería de datos y las tecnologías asociadas.
El Ciclo de Vida de la Ingeniería de Datos
Visión General de la Semana 2
Generación de Datos en los Sistemas de Origen
Ingesta
Almacenamiento
Consultas, Modelado y Transformación
Las Corrientes Subyacentes del Ciclo de Vida de la Ingeniería de Datos
Introducción a las Corrientes Subyacentes
Seguridad
Gestión de Datos
Arquitectura de Datos
DataOps
Orquestación
Ingeniería de Software
Ejemplos Prácticos en AWS
Introducción a la Lección
El Ciclo de Vida de la Ingeniería de Datos en AWS
Las Corrientes Subyacentes en AWS
[IMPORTANTE] Directrices antes de comenzar los laboratorios en este curso
Nota sobre el inicio del laboratorio
Recorrido por el Laboratorio - Introducción
Recorrido por el Laboratorio - Configuración del Laboratorio
Recorrido por el Laboratorio - Vista previa del contenido del laboratorio
Tarea de Programación Calificada 1: Un Ejemplo del Ciclo de Vida de la Ingeniería de Datos
Semana 3: Diseño de arquitecturas de datos y evaluación de herramientas según requisitos específicos.
Arquitectura de Datos
Visión General de la Semana 3
¿Qué es la Arquitectura de Datos?
[Opcional] Ley de Conway
Principios de una Buena Arquitectura de Datos
Arquitecturando Siempre
Cuando Fallan tus Sistemas
Arquitecturas en Lote
Arquitecturas en Streaming
Arquitectura para el Cumplimiento
Elegir las Tecnologías Correctas
Elegir Herramientas y Tecnologías
Ubicación
Monolito vs Sistemas Modulares
Optimización de Costos y Valor Empresarial
Construir vs Comprar
Opciones de Cómputo: Servidor, Contenedor y Sin Servidor
Cómo las Corrientes Subyacentes Impactan tus Decisiones
Investigando tu Arquitectura en AWS
Introducción al Marco de AWS Well-Architected
El Marco Well-Architected de AWS
Recorrido por el Laboratorio - Introducción al Laboratorio
Recorrido por el Laboratorio - Monitoreo de la Aplicación Web
Recorrido por el Laboratorio - Aplicando los Principios de una Buena Arquitectura de Datos
Tarea de Programación Calificada 2: Buena Arquitectura de Datos
Semana 4: Traducir Requisitos a Arquitectura
Practicar la recopilación de necesidades de los interesados y traducirlas en requisitos del sistema. Elegir herramientas y tecnologías adecuadas basadas en los requisitos del sistema.
Diseñar un sistema de datos de extremo a extremo que incluya un componente por lotes y uno en tiempo real para entrenar un sistema de recomendaciones de productos.
Entregar recomendaciones de productos a una plataforma de ventas.
Objetivos de Aprendizaje:
Diseñar una arquitectura de datos en AWS basada en los requisitos de los interesados.
Implementar un pipeline por lotes y en tiempo real en AWS.
Gestión de Interesados y Recopilación de Requisitos
Visión General de la Semana 4
Requisitos
Conversación con Matt Housley
Conversación con el CTO
Conversación con Marketing
Desglosando la Conversación con Marketing
Conversación con el Ingeniero de Software
Documentar Requisitos No Funcionales
Resumen de la Recopilación de Requisitos
Traducir Requisitos a Arquitectura
Ejercicio de Recopilación de Requisitos
Seguimiento de la Conversación con el Científico de Datos
Transcripción de la Conversación con el Científico de Datos
Conclusiones de la Conversación
Detalles Opcionales del Sistema de Recomendación
Reflexión: Extracción de Requisitos Funcionales y No Funcionales
Servicios de AWS para Pipelines por Lotes
Servicios de AWS para Pipelines en Streaming
Servicios de AWS para Satisfacer tus Requisitos
Elegir Herramientas y Tecnologías para tus Pipelines de Datos
Recorrido por el Laboratorio - Implementando el Pipeline por Lotes
Recorrido por el Laboratorio - Configuración de la Base de Datos Vectorial
Recorrido por el Laboratorio - Implementando el Pipeline en Streaming
Tarea de Programación Calificada 3: Construir Pipelines de Datos por Lotes y en Streaming de Extremo a Extremo Basados en los Requisitos de los Interesados
CURSO 2 - Sistemas de Origen, Ingestión de Datos y Pipelines
Son 4 módulos que exploran diversos aspectos clave en la creación de pipelines de datos.
Semana 1 - Trabajando con Sistemas de Origen
Aprenderás sobre los sistemas de origen con los que los ingenieros de datos suelen interactuar y cómo conectarte a estos sistemas. También aprenderás a resolver problemas comunes de conectividad de bases de datos.
Introducción a los Sistemas de Origen
Bienvenida al Curso 2
Plan de Estudios del Programa
Visión General del Curso 2
Diferentes Tipos de Sistemas de Origen
Bases de Datos Relacionales
Consultas SQL
[IMPORTANTE] Directrices antes de comenzar los laboratorios en este curso
Laboratorio Práctico 1: Interacción con una Base de Datos Relacional Usando SQL
Bases de Datos NoSQL
Cumplimiento ACID en Bases de Datos
Recorrido por el Laboratorio - Interactuando con una Base de Datos NoSQL de Amazon DynamoDB
Laboratorio Práctico 2: Interacción con una Base de Datos NoSQL de Amazon DynamoDB
Almacenamiento de Objetos
Laboratorio Práctico 3: Interacción con el Almacenamiento de Objetos de Amazon S3
Registros
Sistemas de Streaming
Conexión a Sistemas de Origen
Visión General de la Lección
Conexión a Sistemas de Origen
[Opcional] Conectarse a una Base de Datos MySQL de Amazon RDS
Conceptos Básicos de IAM y Permisos
Conceptos Básicos de AWS IAM
Conceptos Básicos de Redes en la Nube
Visión General de Redes AWS - VPCs y Subredes
Redes AWS - Puerta de Enlace de Internet y NAT Gateway
Redes AWS - Tablas de Rutas
Redes AWS - ACLs de Red y Grupos de Seguridad
[Opcional] Visión General de Redes AWS - VPC
Recorrido por el Laboratorio - Solución de Problemas de Conectividad de Bases de Datos en AWS
Tarea de Programación Calificada 1: Solución de Problemas de Conectividad de Bases de Datos en AWS
Semana 2 - Ingestión de Datos
Este módulo profundiza en los patrones de ingestión por lotes y en tiempo real. Identificarás los casos de uso y consideraciones para cada uno, y construirás pipelines tanto por lotes como en streaming.
Resumen de Ingesta de Datos
Visión General de la Semana 2
Ingesta de Datos en un Continuum
Herramientas para Procesamiento por Lotes y en Streaming
Ingesta por Lotes
Conversación con un Analista de Marketing
ETL vs. ELT
Resumen de las Diferencias: ETL vs. ELT
API REST
Recorrido por el Laboratorio - Procesamiento por Lotes para Obtener Datos de una API
Tarea de Programación Calificada 2: Procesamiento de Datos por Lotes desde una API
Ingesta en Streaming
Conversación con un Ingeniero de Software
Detalles de Ingesta en Streaming
Detalles de Kinesis Data Streams
¿Qué es la Captura de Datos de Cambios (CDC)?
Resumen: Consideraciones Generales para Elegir Herramientas de Ingesta
Recorrido por el Laboratorio - Ingesta en Streaming
Laboratorio Práctico: Ingesta en Streaming
Semana 3 - DataOps
Explorarás prácticas de automatización DataOps como la aplicación de CI/CD para el código de datos y la infraestructura. También aprenderás a monitorizar y asegurar la calidad de los datos.
DataOps - Automatización
Visión General de la Semana 3
Automatización de DataOps
Infraestructura como Código
Terraform - Creación de una Instancia EC2
Terraform - Definición de Variables y Salidas
Terraform - Definición de Fuentes de Datos y Módulos
Ejemplo Adicional de Configuración en Terraform - Ejercicio
Recorrido por el Laboratorio - Implementando DataOps con Terraform
Laboratorio Práctico 1: Implementando DataOps con Terraform
DataOps - Observabilidad
Observabilidad de Datos
Monitoreo de la Calidad de los Datos
Great Expectations - Componentes Principales
Great Expectations - Ejemplo de Flujo de Trabajo
Tarea de Programación Calificada 3: Prueba de la Calidad de los Datos con Great Expectations
Amazon CloudWatch
Laboratorio Práctico 2: Implementando el Monitoreo con Amazon CloudWatch
Semana 4 - Orquestación, Monitoreo y Automatización de Pipelines de Datos
Aprenderás sobre las herramientas de orquestación como Airflow para automatizar y monitorear pipelines de datos, así como las mejores prácticas en la creación de DAGs.
Este curso está diseñado para brindarte una comprensión práctica y técnica en la gestión de datos en AWS y la creación de pipelines efectivos.
Resumen de la Orquestación
Antes de la Orquestación
Evolución de las Herramientas de Orquestación
Fundamentos de la Orquestación
Airflow
Airflow - Componentes Principales
Airflow - La Interfaz de Usuario de Airflow
Airflow - Creación de un DAG
Notas Adicionales sobre Conceptos Básicos de Airflow
Laboratorio Práctico 1: Airflow 101 - Construyendo tu Primer Pipeline de Datos
Airflow - XCom y Variables
Mejores Prácticas para Escribir DAGs en Airflow
Laboratorio Práctico 2: Airflow 101 - Mejores Prácticas
Airflow - API de Taskflow
Ejemplo de Ramas en Airflow
Tarea de Programación Calificada 4: Construyendo un Pipeline de Datos Avanzado con Controles de Calidad de Datos
Orquestación en AWS
CURSO 3 -Almacenamiento y Consultas de Datos
Este curso tiene 3 módulos y te permitirá aprender sobre los ingredientes básicos y procesos utilizados para almacenar datos físicamente en disco y en memoria. Explorarás diferentes sistemas de almacenamiento, como el almacenamiento de objetos, bloques y archivos, así como las bases de datos que se construyen sobre estos conceptos. Además, aprenderás a usar el lenguaje Cypher para consultar una base de datos de grafos en Neo4j y realizar búsquedas de similitud vectorial, una función clave en la IA generativa y los modelos de lenguaje grandes.
Explorarás la evolución de las abstracciones de almacenamiento de datos, desde los almacenes de datos, los lakes de datos hasta los lakehouses de datos, comparando las ventajas y desventajas de cada uno. Con práctica, diseñarás un data lake simple utilizando Amazon Glue, y construirás un lakehouse de datos usando AWS LakeFormation y Apache Iceberg.
En la última semana, aprenderás cómo funcionan las consultas internamente, practicarás la escritura de consultas SQL avanzadas, compararás el rendimiento de consultas en almacenamiento orientado a filas versus columnas, y realizarás consultas en streaming utilizando Apache Flink
Semana 1 - Ingredientes de Almacenamiento y Sistemas de Almacenamiento
Exploración Profunda del Almacenamiento de Datos
Bienvenida al Curso 3
Plan de Estudios del Programa
Visión General del Curso 3
Ingredientes Básicos del Almacenamiento: Componentes Físicos del Almacenamiento de Datos
Ingredientes Básicos del Almacenamiento: Procesos Necesarios para el Almacenamiento de Datos
Algoritmos de Compresión
Opciones de Almacenamiento en la Nube: Almacenamiento de Bloques, Objetos y Archivos
Niveles de Almacenamiento: Datos Calientes, Tibios y Fríos
Sistemas de Almacenamiento Distribuido
Métodos de Particionado de Bases de Datos/Sharding
Recorrido por el Laboratorio: Comparación de Opciones de Almacenamiento en la Nube
Laboratorio Práctico: Comparación de Opciones de Almacenamiento en la Nube
Almacenamiento en Bases de Datos
Cómo las Bases de Datos Almacenan Datos
Almacenamiento en Filas vs. Columnas
El Formato Parquet
Bases de Datos de Columnas Amplias
Bases de Datos de Grafos
Bases de Datos Vectoriales
Algoritmo ANN: Mundo Pequeño Navegable Jerárquicamente (HNSW)
Neo4j y el Lenguaje de Consultas Cypher
Tarea de Programación Calificada 1: Bases de Datos de Grafos y Búsqueda Vectorial con Neo4j
Semana 2 - Abstracciones de Almacenamiento
Almacenes de Datos y Data Lakes
Almacén de Datos - Ideas Arquitectónicas Clave
Almacenes de Datos Modernos en la Nube
Data Lakes - Ideas Arquitectónicas Clave
Data Lakes de Próxima Generación
Laboratorio Práctico: Data Lake Simple con AWS Glue
Data Lakehouses
La Arquitectura del Data Lakehouse
Implementación del Data Lakehouse
Arquitectura del Lakehouse en AWS
Implementando un Lakehouse en AWS
Laboratorio - Construyendo un Data Lakehouse con AWS Lake Formation y Apache Iceberg
Semana 3 - Consultas
Consultas por Lotes
El Ciclo de Vida de una Consulta
Consultas SQL Avanzadas
Exploración Profunda de los Índices
Recuperando Solo los Datos que Necesitas
La Declaración JOIN
Consultas de Agregación
Amazon Redshift - Almacén de Datos en la Nube
Laboratorio Práctico: Comparando el Rendimiento de Consultas entre Bases de Datos Orientadas a Filas y Columnas
Estrategias Adicionales de Consultas
Consultas en Streaming
Consultas en Datos de Streaming
Desplegar una Aplicación con el Servicio Gestionado de Amazon para Apache Flink
Desplegar un Cuaderno de Estudio con el Servicio Gestionado de Amazon para Apache Flink
Laboratorio Práctico: Consultas en Streaming con Apache Flink
CURSO 4 -Modelado, Transformación y Entrega de Datos
Este curso está dividido en 4 módulos, donde aprenderás a modelar, transformar y entregar datos para casos de uso tanto de análisis como de machine learning. Explorarás diversas técnicas de modelado de datos para análisis por lotes, incluyendo normalización, esquema en estrella, data vault, y una tabla grande. Utilizarás dbt para transformar un conjunto de datos basado en un esquema en estrella y una tabla grande, y compararás los enfoques de modelado de datos de Inmon vs Kimball para almacenes de datos.
También modelarás y transformarás un conjunto de datos tabular para propósitos de machine learning, además de trabajar con datos no estructurados como imágenes y texto. Explorarás marcos de procesamiento distribuido como Hadoop MapReduce y Spark, y realizarás procesamiento en streaming. Identificarás diferentes formas de entregar datos para análisis y machine learning, incluyendo el uso de vistas y vistas materializadas, y describirás cómo una capa semántica construida sobre tu modelo de datos puede apoyar los objetivos del negocio.
En la última semana del curso, completarás un proyecto final en el que construirás un pipeline de datos de extremo a extremo, que abarcará todas las etapas del ciclo de vida de la ingeniería de datos para entregar datos que proporcionen valor al negocio.
Semana 1 - Modelado de Datos y Transformaciones para Analítica
Introducción al Modelado de Datos para Análisis
Modelado de Datos Conceptual, Lógico y Físico
Normalización
Laboratorio Práctico: Normalización de Datos
Modelado Dimensional - Esquema en Estrella
Técnicas de Modelado de Datos
Enfoques de Modelado de Datos Inmon VS Kimball para Almacenes de Datos
Ejercicio: Del Modelo Normalizado al Esquema en Estrella
Data Vault
One Big Table
Transformación de Datos con dbt
Semana 2 - Modelado de Datos y Transformaciones para Machine Learning
Modelado y Procesamiento de Datos Tabulares para Aprendizaje Automático
Resumen de Aprendizaje Automático
Modelado de Datos para Algoritmos Tradicionales de Aprendizaje Automático
Demostración: Procesamiento de Datos Tabulares con Scikit-Learn
Modelado y Procesamiento de Datos No Estructurados para Aprendizaje Automático
Modelado de Datos de Imágenes para Algoritmos de Aprendizaje Automático
Ejemplo de Código: Preprocesamiento de Imágenes Usando TensorFlow
Preprocesamiento de Textos para Análisis y Clasificación de Textos
Vectorización y Embedding de Textos
Semana 3 - Transformaciones de Datos y Consideraciones Técnicas
Transformaciones por Lotes
Patrones y Casos de Uso de Transformaciones por Lotes
Marco de Procesamiento Distribuido - Hadoop
Marco de Procesamiento Distribuido - Spark
DataFrames en Spark
Demostración: Trabajando con DataFrames en Spark Usando Python
Demostración: Trabajando con Spark SQL
Amazon EMR
Tarea de Programación Evaluada 3: Transformaciones de Datos con Apache Spark
Consideraciones Técnicas
Transformaciones en Streaming
Procesamiento en Streaming
Laboratorio Práctico: Captura de Cambios en los Datos con Flink y Debezium
Semana 4 - Entrega de Datos
Servir Datos para Análisis y Aprendizaje Automático
Servir Datos para Análisis y Aprendizaje Automático
Vistas y Vistas Materializadas
Laboratorio Práctico: Visualización de Datos con DBT y Superset
Proyecto Final del Curso
Resumen de los Conceptos del Programa
Tarea de Programación Evaluada 4: Proyecto Final Parte 1 - ETL y Modelado de Datos
Tarea de Programación Evaluada 5: Proyecto Final Parte 2 - Calidad de Datos, Orquestación y Visualización
Resumen del contenido
Este curso forma parte de la temporada 2025
DeepLearning.AI Data Engineering Professional Certificate
Aprende los principios de la ingeniería de datos efectiva.
Desarrolla tus habilidades en el campo de alta demanda de la ingeniería de datos y descubre cómo puedes generar valor real para el negocio aplicando un conjunto básico de principios y estrategias para desarrollar sistemas de datos.
No te pierdas esta formación destacada
Centro de Graduados
de la Facultad de Ingeniería UBA