Data Engineering

Profesional Certificate

No te quedes afuera del curso OnLine

los martes de 19 a 21

hora Argentina GMT-3

Primer clase:

martes 11 de febrero

Aprende los principios de la ingeniería de datos efectiva. Desarrolla tus habilidades como ingeniero de datos, impulsa los objetivos organizacionales mediante la ingesta, transformación, almacenamiento y distribución de datos a los interesados, y haz crecer tu carrera en un campo de alta demanda.

- ARANCEL: U$S 199 -

DeepLearning.AI Data Engineering Professional Certificate

ORGANIZA

Centro de Graduados de Ingeniería de la Universidad de Buenos Aires

CONTENIDO

Este curso forma parte

de la temporada 2025

DeepLearning.AI Data Engineering Professional Certificate

Aprende los principios de la ingeniería de datos efectiva.

Desarrolla tus habilidades en el campo de alta demanda de la ingeniería de datos y descubre cómo puedes generar valor real para el negocio aplicando un conjunto básico de principios y estrategias para desarrollar sistemas de datos.

AGENDA

Curso OnLine

los martes de 19 a 21

hora Argentina GMT-3

Comienza: Martes 11 de febrero

LAS INSCRIPCIONES CIERRAN EN...

Lo que aprenderás:

Desarrolla un modelo mental para el campo de la ingeniería de datos en su totalidad, incluyendo el ciclo de vida de la ingeniería de datos y sus corrientes subyacentes.

Aprende un marco de trabajo para abordar cualquier proyecto de ingeniería de datos en el que trabajes, de modo que puedas generar valor empresarial con los datos de manera efectiva.

Desarrolla tus habilidades en las cinco etapas del ciclo de vida de la ingeniería de datos: generación, ingestión, almacenamiento, transformación y entrega de datos.

Aprende los principios de una buena arquitectura de datos y aplícalos para construir sistemas de datos en la nube de AWS.

Certificado Profesional - Serie de 4 cursos

El Certificado Profesional en Ingeniería de Datos de DeepLearning.AI es un programa en línea integral dirigido a ingenieros de datos y profesionales que buscan comenzar o avanzar en sus carreras.

Las organizaciones, independientemente de su tamaño o sector, están capturando y generando datos a un ritmo acelerado. En estas organizaciones, cada equipo (desde ejecutivos hasta ventas, marketing, finanzas, operaciones, productos, ingeniería y atención al cliente) puede obtener información y valor a partir de los datos. Ya sea que el caso de uso final sea ciencia de datos, aprendizaje automático o análisis, la ingeniería de datos permite convertir los datos en valor para el negocio. Por esta razón, el rol de ingeniero de datos es uno de los trabajos más demandados en tecnología hoy en día.

A lo largo de este programa, aprenderás los fundamentos de la ingeniería de datos mientras adquieres experiencia práctica en el diseño e implementación de arquitecturas de datos utilizando AWS y herramientas de código abierto.

Impartido por el experto de la industria Joe Reis, coautor del libro Fundamentals of Data Engineering, este certificado te proporciona las habilidades y conocimientos necesarios para destacar en este campo de alta demanda. El enfoque incluye la ingestión, procesamiento, transformación, almacenamiento y entrega de datos a los interesados, impulsando los objetivos organizacionales y comerciales. Los laboratorios prácticos fueron desarrollados en asociación con AWS y Factored.AI, ofreciendo una experiencia auténtica en la construcción de sistemas de datos en la nube.

Con este certificado, contarás con las herramientas para avanzar en tu carrera como ingeniero de datos.

CURSO 1 - Introducción a la Ingeniería de Datos

Comprender el ciclo de vida de la ingeniería de datos y sus componentes clave.

Recopilar las necesidades de los interesados y traducirlas en requisitos del sistema.

Diseñar e implementar pipelines de datos por lotes y en tiempo real en AWS.

CURSO 2 - Sistemas de Origen, Ingestión de Datos y Pipelines

Traducir las necesidades de los interesados en requisitos del sistema.

Implementar procesos de ingestión de datos por lotes y en tiempo real en AWS.

Integrar aspectos como la seguridad, gestión de datos, DataOps y orquestación en los sistemas que construyas.

CURSO 3 - Almacenamiento y Consultas de Datos

Diseñar arquitecturas de almacenamiento para distintos casos de uso y seleccionar las tecnologías adecuadas.

Practicar patrones comunes de consultas y mejorar el rendimiento de las consultas y el valor de los sistemas de datos.

CURSO 4 - Modelado, Transformación y Entrega de Datos

Modelar y transformar datos para satisfacer las necesidades de los interesados.

Procesar datos tanto para análisis como para pipelines de machine learning utilizando marcos de procesamiento distribuido y no distribuido.

TEMARIO COMPLETO

CURSO 1 - Introducción a la Ingeniería de Datos

Semana 1: Introducción a los fundamentos y la importancia de la ingeniería de datos.

Introducción a la Ingeniería de Datos

Bienvenida a la Ingeniería de Datos

Plan de Estudios del Programa

Agradecimientos

Visión General del Curso 1

Definición de Ingeniería de Datos

Breve Historia de la Ingeniería de Datos

El Ingeniero de Datos entre Otros Interesados

Valor Empresarial

Requisitos del Sistema

Conversación con Sol Rashidi

Conversación con Jordan Morrow

Conversación sobre la Recopilación de Requisitos

Traducir las Necesidades de los Interesados en Requisitos Específicos

Pensando como un Ingeniero de Datos

¿Tienes preguntas, problemas o ideas? ¡Únete a nuestro Foro!

Ingeniería de Datos en la Nube

Ingeniería de Datos en la Nube

Conoce a Morgan Willis

Introducción a la Nube de AWS

Regiones y Zonas de Disponibilidad de AWS

Introducción a los Servicios Básicos de AWS

Cómputo - Amazon Elastic Compute Cloud (EC2)

Redes - Nube Privada Virtual (VPC) y Subredes

Seguridad - Modelo de Responsabilidad Compartida de AWS

Crear una Cuenta de AWS

Recorrido por la Consola de Administración de AWS

Semana 2: Exploración del ciclo de vida de la ingeniería de datos y las tecnologías asociadas.

El Ciclo de Vida de la Ingeniería de Datos

Visión General de la Semana 2

Generación de Datos en los Sistemas de Origen

Ingesta

Almacenamiento

Consultas, Modelado y Transformación

Las Corrientes Subyacentes del Ciclo de Vida de la Ingeniería de Datos

Introducción a las Corrientes Subyacentes

Seguridad

Gestión de Datos

Arquitectura de Datos

DataOps

Orquestación

Ingeniería de Software

Ejemplos Prácticos en AWS

Introducción a la Lección

El Ciclo de Vida de la Ingeniería de Datos en AWS

Las Corrientes Subyacentes en AWS

[IMPORTANTE] Directrices antes de comenzar los laboratorios en este curso

Nota sobre el inicio del laboratorio

Recorrido por el Laboratorio - Introducción

Recorrido por el Laboratorio - Configuración del Laboratorio

Recorrido por el Laboratorio - Vista previa del contenido del laboratorio

Tarea de Programación Calificada 1: Un Ejemplo del Ciclo de Vida de la Ingeniería de Datos

Semana 3: Diseño de arquitecturas de datos y evaluación de herramientas según requisitos específicos.

Arquitectura de Datos

Visión General de la Semana 3

¿Qué es la Arquitectura de Datos?

[Opcional] Ley de Conway

Principios de una Buena Arquitectura de Datos

Arquitecturando Siempre

Cuando Fallan tus Sistemas

Arquitecturas en Lote

Arquitecturas en Streaming

Arquitectura para el Cumplimiento

Elegir las Tecnologías Correctas

Elegir Herramientas y Tecnologías

Ubicación

Monolito vs Sistemas Modulares

Optimización de Costos y Valor Empresarial

Construir vs Comprar

Opciones de Cómputo: Servidor, Contenedor y Sin Servidor

Cómo las Corrientes Subyacentes Impactan tus Decisiones

Investigando tu Arquitectura en AWS

Introducción al Marco de AWS Well-Architected

El Marco Well-Architected de AWS

Recorrido por el Laboratorio - Introducción al Laboratorio

Recorrido por el Laboratorio - Monitoreo de la Aplicación Web

Recorrido por el Laboratorio - Aplicando los Principios de una Buena Arquitectura de Datos

Tarea de Programación Calificada 2: Buena Arquitectura de Datos

Semana 4: Traducir Requisitos a Arquitectura

Practicar la recopilación de necesidades de los interesados y traducirlas en requisitos del sistema. Elegir herramientas y tecnologías adecuadas basadas en los requisitos del sistema.

Diseñar un sistema de datos de extremo a extremo que incluya un componente por lotes y uno en tiempo real para entrenar un sistema de recomendaciones de productos.

Entregar recomendaciones de productos a una plataforma de ventas.

Objetivos de Aprendizaje:

Diseñar una arquitectura de datos en AWS basada en los requisitos de los interesados.

Implementar un pipeline por lotes y en tiempo real en AWS.

Gestión de Interesados y Recopilación de Requisitos

Visión General de la Semana 4

Requisitos

Conversación con Matt Housley

Conversación con el CTO

Conversación con Marketing

Desglosando la Conversación con Marketing

Conversación con el Ingeniero de Software

Documentar Requisitos No Funcionales

Resumen de la Recopilación de Requisitos

Traducir Requisitos a Arquitectura

Ejercicio de Recopilación de Requisitos

Seguimiento de la Conversación con el Científico de Datos

Transcripción de la Conversación con el Científico de Datos

Conclusiones de la Conversación

Detalles Opcionales del Sistema de Recomendación

Reflexión: Extracción de Requisitos Funcionales y No Funcionales

Servicios de AWS para Pipelines por Lotes

Servicios de AWS para Pipelines en Streaming

Servicios de AWS para Satisfacer tus Requisitos

Elegir Herramientas y Tecnologías para tus Pipelines de Datos

Recorrido por el Laboratorio - Implementando el Pipeline por Lotes

Recorrido por el Laboratorio - Configuración de la Base de Datos Vectorial

Recorrido por el Laboratorio - Implementando el Pipeline en Streaming

Tarea de Programación Calificada 3: Construir Pipelines de Datos por Lotes y en Streaming de Extremo a Extremo Basados en los Requisitos de los Interesados

CURSO 2 - Sistemas de Origen, Ingestión de Datos y Pipelines

Son 4 módulos que exploran diversos aspectos clave en la creación de pipelines de datos.

Semana 1 - Trabajando con Sistemas de Origen

Aprenderás sobre los sistemas de origen con los que los ingenieros de datos suelen interactuar y cómo conectarte a estos sistemas. También aprenderás a resolver problemas comunes de conectividad de bases de datos.

Introducción a los Sistemas de Origen

Bienvenida al Curso 2

Plan de Estudios del Programa

Visión General del Curso 2

Diferentes Tipos de Sistemas de Origen

Bases de Datos Relacionales

Consultas SQL

[IMPORTANTE] Directrices antes de comenzar los laboratorios en este curso

Laboratorio Práctico 1: Interacción con una Base de Datos Relacional Usando SQL

Bases de Datos NoSQL

Cumplimiento ACID en Bases de Datos

Recorrido por el Laboratorio - Interactuando con una Base de Datos NoSQL de Amazon DynamoDB

Laboratorio Práctico 2: Interacción con una Base de Datos NoSQL de Amazon DynamoDB

Almacenamiento de Objetos

Laboratorio Práctico 3: Interacción con el Almacenamiento de Objetos de Amazon S3

Registros

Sistemas de Streaming

Conexión a Sistemas de Origen

Visión General de la Lección

Conexión a Sistemas de Origen

[Opcional] Conectarse a una Base de Datos MySQL de Amazon RDS

Conceptos Básicos de IAM y Permisos

Conceptos Básicos de AWS IAM

Conceptos Básicos de Redes en la Nube

Visión General de Redes AWS - VPCs y Subredes

Redes AWS - Puerta de Enlace de Internet y NAT Gateway

Redes AWS - Tablas de Rutas

Redes AWS - ACLs de Red y Grupos de Seguridad

[Opcional] Visión General de Redes AWS - VPC

Recorrido por el Laboratorio - Solución de Problemas de Conectividad de Bases de Datos en AWS

Tarea de Programación Calificada 1: Solución de Problemas de Conectividad de Bases de Datos en AWS

Semana 2 - Ingestión de Datos

Este módulo profundiza en los patrones de ingestión por lotes y en tiempo real. Identificarás los casos de uso y consideraciones para cada uno, y construirás pipelines tanto por lotes como en streaming.

Resumen de Ingesta de Datos

Visión General de la Semana 2

Ingesta de Datos en un Continuum

Herramientas para Procesamiento por Lotes y en Streaming

Ingesta por Lotes

Conversación con un Analista de Marketing

ETL vs. ELT

Resumen de las Diferencias: ETL vs. ELT

API REST

Recorrido por el Laboratorio - Procesamiento por Lotes para Obtener Datos de una API

Tarea de Programación Calificada 2: Procesamiento de Datos por Lotes desde una API

Ingesta en Streaming

Conversación con un Ingeniero de Software

Detalles de Ingesta en Streaming

Detalles de Kinesis Data Streams

¿Qué es la Captura de Datos de Cambios (CDC)?

Resumen: Consideraciones Generales para Elegir Herramientas de Ingesta

Recorrido por el Laboratorio - Ingesta en Streaming

Laboratorio Práctico: Ingesta en Streaming

Semana 3 - DataOps

Explorarás prácticas de automatización DataOps como la aplicación de CI/CD para el código de datos y la infraestructura. También aprenderás a monitorizar y asegurar la calidad de los datos.

DataOps - Automatización

Visión General de la Semana 3

Automatización de DataOps

Infraestructura como Código

Terraform - Creación de una Instancia EC2

Terraform - Definición de Variables y Salidas

Terraform - Definición de Fuentes de Datos y Módulos

Ejemplo Adicional de Configuración en Terraform - Ejercicio

Recorrido por el Laboratorio - Implementando DataOps con Terraform

Laboratorio Práctico 1: Implementando DataOps con Terraform

DataOps - Observabilidad

Observabilidad de Datos

Monitoreo de la Calidad de los Datos

Great Expectations - Componentes Principales

Great Expectations - Ejemplo de Flujo de Trabajo

Tarea de Programación Calificada 3: Prueba de la Calidad de los Datos con Great Expectations

Amazon CloudWatch

Laboratorio Práctico 2: Implementando el Monitoreo con Amazon CloudWatch

Semana 4 - Orquestación, Monitoreo y Automatización de Pipelines de Datos

Aprenderás sobre las herramientas de orquestación como Airflow para automatizar y monitorear pipelines de datos, así como las mejores prácticas en la creación de DAGs.

Este curso está diseñado para brindarte una comprensión práctica y técnica en la gestión de datos en AWS y la creación de pipelines efectivos.

Resumen de la Orquestación

Antes de la Orquestación

Evolución de las Herramientas de Orquestación

Fundamentos de la Orquestación

Airflow

Airflow - Componentes Principales

Airflow - La Interfaz de Usuario de Airflow

Airflow - Creación de un DAG

Notas Adicionales sobre Conceptos Básicos de Airflow

Laboratorio Práctico 1: Airflow 101 - Construyendo tu Primer Pipeline de Datos

Airflow - XCom y Variables

Mejores Prácticas para Escribir DAGs en Airflow

Laboratorio Práctico 2: Airflow 101 - Mejores Prácticas

Airflow - API de Taskflow

Ejemplo de Ramas en Airflow

Tarea de Programación Calificada 4: Construyendo un Pipeline de Datos Avanzado con Controles de Calidad de Datos

Orquestación en AWS

CURSO 3 -Almacenamiento y Consultas de Datos

Este curso tiene 3 módulos y te permitirá aprender sobre los ingredientes básicos y procesos utilizados para almacenar datos físicamente en disco y en memoria. Explorarás diferentes sistemas de almacenamiento, como el almacenamiento de objetos, bloques y archivos, así como las bases de datos que se construyen sobre estos conceptos. Además, aprenderás a usar el lenguaje Cypher para consultar una base de datos de grafos en Neo4j y realizar búsquedas de similitud vectorial, una función clave en la IA generativa y los modelos de lenguaje grandes.

Explorarás la evolución de las abstracciones de almacenamiento de datos, desde los almacenes de datos, los lakes de datos hasta los lakehouses de datos, comparando las ventajas y desventajas de cada uno. Con práctica, diseñarás un data lake simple utilizando Amazon Glue, y construirás un lakehouse de datos usando AWS LakeFormation y Apache Iceberg.

En la última semana, aprenderás cómo funcionan las consultas internamente, practicarás la escritura de consultas SQL avanzadas, compararás el rendimiento de consultas en almacenamiento orientado a filas versus columnas, y realizarás consultas en streaming utilizando Apache Flink

Semana 1 - Ingredientes de Almacenamiento y Sistemas de Almacenamiento

Exploración Profunda del Almacenamiento de Datos

Bienvenida al Curso 3

Plan de Estudios del Programa

Visión General del Curso 3

Ingredientes Básicos del Almacenamiento: Componentes Físicos del Almacenamiento de Datos

Ingredientes Básicos del Almacenamiento: Procesos Necesarios para el Almacenamiento de Datos

Algoritmos de Compresión

Opciones de Almacenamiento en la Nube: Almacenamiento de Bloques, Objetos y Archivos

Niveles de Almacenamiento: Datos Calientes, Tibios y Fríos

Sistemas de Almacenamiento Distribuido

Métodos de Particionado de Bases de Datos/Sharding

Recorrido por el Laboratorio: Comparación de Opciones de Almacenamiento en la Nube

Laboratorio Práctico: Comparación de Opciones de Almacenamiento en la Nube

Almacenamiento en Bases de Datos

Cómo las Bases de Datos Almacenan Datos

Almacenamiento en Filas vs. Columnas

El Formato Parquet

Bases de Datos de Columnas Amplias

Bases de Datos de Grafos

Bases de Datos Vectoriales

Algoritmo ANN: Mundo Pequeño Navegable Jerárquicamente (HNSW)

Neo4j y el Lenguaje de Consultas Cypher

Tarea de Programación Calificada 1: Bases de Datos de Grafos y Búsqueda Vectorial con Neo4j

Semana 2 - Abstracciones de Almacenamiento

Almacenes de Datos y Data Lakes

Almacén de Datos - Ideas Arquitectónicas Clave

Almacenes de Datos Modernos en la Nube

Data Lakes - Ideas Arquitectónicas Clave

Data Lakes de Próxima Generación

Laboratorio Práctico: Data Lake Simple con AWS Glue

Data Lakehouses

La Arquitectura del Data Lakehouse

Implementación del Data Lakehouse

Arquitectura del Lakehouse en AWS

Implementando un Lakehouse en AWS

Laboratorio - Construyendo un Data Lakehouse con AWS Lake Formation y Apache Iceberg

Semana 3 - Consultas

Consultas por Lotes

El Ciclo de Vida de una Consulta

Consultas SQL Avanzadas

Exploración Profunda de los Índices

Recuperando Solo los Datos que Necesitas

La Declaración JOIN

Consultas de Agregación

Amazon Redshift - Almacén de Datos en la Nube

Laboratorio Práctico: Comparando el Rendimiento de Consultas entre Bases de Datos Orientadas a Filas y Columnas

Estrategias Adicionales de Consultas

Consultas en Streaming

Consultas en Datos de Streaming

Desplegar una Aplicación con el Servicio Gestionado de Amazon para Apache Flink

Desplegar un Cuaderno de Estudio con el Servicio Gestionado de Amazon para Apache Flink

Laboratorio Práctico: Consultas en Streaming con Apache Flink

CURSO 4 -Modelado, Transformación y Entrega de Datos

Este curso está dividido en 4 módulos, donde aprenderás a modelar, transformar y entregar datos para casos de uso tanto de análisis como de machine learning. Explorarás diversas técnicas de modelado de datos para análisis por lotes, incluyendo normalización, esquema en estrella, data vault, y una tabla grande. Utilizarás dbt para transformar un conjunto de datos basado en un esquema en estrella y una tabla grande, y compararás los enfoques de modelado de datos de Inmon vs Kimball para almacenes de datos.

También modelarás y transformarás un conjunto de datos tabular para propósitos de machine learning, además de trabajar con datos no estructurados como imágenes y texto. Explorarás marcos de procesamiento distribuido como Hadoop MapReduce y Spark, y realizarás procesamiento en streaming. Identificarás diferentes formas de entregar datos para análisis y machine learning, incluyendo el uso de vistas y vistas materializadas, y describirás cómo una capa semántica construida sobre tu modelo de datos puede apoyar los objetivos del negocio.

En la última semana del curso, completarás un proyecto final en el que construirás un pipeline de datos de extremo a extremo, que abarcará todas las etapas del ciclo de vida de la ingeniería de datos para entregar datos que proporcionen valor al negocio.

Semana 1 - Modelado de Datos y Transformaciones para Analítica

Introducción al Modelado de Datos para Análisis

Modelado de Datos Conceptual, Lógico y Físico

Normalización

Laboratorio Práctico: Normalización de Datos

Modelado Dimensional - Esquema en Estrella

Técnicas de Modelado de Datos

Enfoques de Modelado de Datos Inmon VS Kimball para Almacenes de Datos

Ejercicio: Del Modelo Normalizado al Esquema en Estrella

Data Vault

One Big Table

Transformación de Datos con dbt

Semana 2 - Modelado de Datos y Transformaciones para Machine Learning

Modelado y Procesamiento de Datos Tabulares para Aprendizaje Automático

Resumen de Aprendizaje Automático

Modelado de Datos para Algoritmos Tradicionales de Aprendizaje Automático

Demostración: Procesamiento de Datos Tabulares con Scikit-Learn

Modelado y Procesamiento de Datos No Estructurados para Aprendizaje Automático

Modelado de Datos de Imágenes para Algoritmos de Aprendizaje Automático

Ejemplo de Código: Preprocesamiento de Imágenes Usando TensorFlow

Preprocesamiento de Textos para Análisis y Clasificación de Textos

Vectorización y Embedding de Textos

Semana 3 - Transformaciones de Datos y Consideraciones Técnicas

Transformaciones por Lotes

Patrones y Casos de Uso de Transformaciones por Lotes

Marco de Procesamiento Distribuido - Hadoop

Marco de Procesamiento Distribuido - Spark

DataFrames en Spark

Demostración: Trabajando con DataFrames en Spark Usando Python

Demostración: Trabajando con Spark SQL

Amazon EMR

Tarea de Programación Evaluada 3: Transformaciones de Datos con Apache Spark

Consideraciones Técnicas

Transformaciones en Streaming

Procesamiento en Streaming

Laboratorio Práctico: Captura de Cambios en los Datos con Flink y Debezium

Semana 4 - Entrega de Datos

Servir Datos para Análisis y Aprendizaje Automático

Servir Datos para Análisis y Aprendizaje Automático

Vistas y Vistas Materializadas

Laboratorio Práctico: Visualización de Datos con DBT y Superset

Proyecto Final del Curso

Resumen de los Conceptos del Programa

Tarea de Programación Evaluada 4: Proyecto Final Parte 1 - ETL y Modelado de Datos

Tarea de Programación Evaluada 5: Proyecto Final Parte 2 - Calidad de Datos, Orquestación y Visualización

Resumen del contenido

Este curso forma parte de la temporada 2025

DeepLearning.AI Data Engineering Professional Certificate

Aprende los principios de la ingeniería de datos efectiva.

Desarrolla tus habilidades en el campo de alta demanda de la ingeniería de datos y descubre cómo puedes generar valor real para el negocio aplicando un conjunto básico de principios y estrategias para desarrollar sistemas de datos.

No te pierdas esta formación destacada

Centro de Graduados

de la Facultad de Ingeniería UBA