Data Engineering
Carrera profesional de Data Engineering para equipos que construyen plataformas de datos corporativas: Python, SQL, pandas, streaming con Kafka, orquestación con Airflow, transformación con dbt, procesamiento distribuido con PySpark y Databricks para implantar data lakehouses y pipelines ETL/ELT robustos.
¿Prefieres verlo en directo? Agenda una demo sin compromiso.
Cursos incluidos en esta carrera
Los cursos se adaptan en duración y profundidad según el nivel y los objetivos de tu equipo.
La carrera de Data Engineering forma profesionales capaces de diseñar, construir y operar plataformas de datos a escala empresarial. A lo largo de varios cursos certificados con un enfoque práctico, adquirirás las competencias necesarias para dominar todo el ciclo de vida del dato: desde la ingesta y el almacenamiento hasta la transformación, la orquestación y la búsqueda avanzada.
La carrera arranca con los lenguajes fundamentales del ingeniero de datos, Python y SQL, con NumPy y pandas como herramientas transversales de manipulación, y progresa hacia bases de datos NoSQL (MongoDB, Redis), streaming de eventos con Apache Kafka, orquestación de pipelines con Apache Airflow, transformación de datos con dbt, procesamiento distribuido con PySpark y Databricks, búsqueda y analítica con Elasticsearch, y contenedores con Docker para la infraestructura de desarrollo y despliegue.
Público objetivo
Esta carrera está diseñada para:
- Equipos de datos e IT de consultoras, banca, seguros, retail y telecomunicaciones que construyen y operan plataformas de datos corporativas con pipelines ETL/ELT y data lakehouses.
- Desarrolladores backend que quieren especializarse en el diseño y construcción de pipelines de datos y arquitecturas data-driven.
- Analistas de datos y científicos de datos que necesitan comprender la infraestructura subyacente y construir sus propios flujos ETL/ELT robustos.
- Administradores de bases de datos que buscan ampliar su perfil hacia la ingeniería de datos moderna con herramientas de streaming, orquestación y big data.
- Profesionales IT que desean orientar su carrera hacia uno de los perfiles más demandados del mercado tecnológico.
Estructura
La carrera se organiza con una progresión de fundamentos a especialización:
- Python: lenguaje base para scripting, procesamiento de datos y desarrollo de pipelines.
- NumPy: computación numérica con arrays multidimensionales, base del stack científico de Python.
- pandas: manipulación y análisis de datos tabulares, herramienta central del trabajo diario del ingeniero de datos.
- SQL: consultas, modelado relacional, optimización y gestión de bases de datos.
- MongoDB: base de datos documental NoSQL, modelado flexible y agregaciones.
- Redis: almacén clave-valor en memoria, caché, colas y estructuras de datos especializadas.
- Apache Kafka: streaming de eventos, productores, consumidores, topics y Connect.
- Apache Airflow: orquestación de workflows, DAGs, operadores, scheduling y monitorización.
- dbt: transformación de datos en el warehouse, modelos, tests, documentación y linaje.
- PySpark / Apache Spark: procesamiento distribuido, DataFrames, Spark SQL y optimización.
- Databricks: plataforma unificada de data lakehouse, notebooks, Delta Lake y MLflow.
- Elasticsearch: motor de búsqueda y analítica, indexación, queries y agregaciones.
- Docker: contenedores para entornos de desarrollo, testing y despliegue de servicios de datos.
Objetivos de aprendizaje
Al completar esta carrera, serás capaz de:
- Dominar Python y SQL como lenguajes fundamentales para la manipulación y consulta de datos.
- Modelar y gestionar datos en bases relacionales y NoSQL (MongoDB, Redis) según los requisitos del proyecto.
- Diseñar arquitecturas de streaming de eventos con Apache Kafka para procesamiento en tiempo real.
- Orquestar pipelines ETL/ELT complejos con Apache Airflow, incluyendo scheduling, reintentos y alertas.
- Implementar transformaciones de datos reproducibles y testeables con dbt en entornos de data warehouse.
- Procesar grandes volúmenes de datos con PySpark y operar plataformas data lakehouse con Databricks.
- Construir soluciones de búsqueda y analítica avanzada con Elasticsearch.
- Containerizar servicios de datos con Docker para garantizar entornos reproducibles y desplegables.
Stack técnico esperado en proyectos 2026
- Lenguajes: Python 3.13, SQL, Scala 3 (en Spark legacy).
- Frameworks: Apache Kafka 3.7, Apache Airflow 2.10, dbt 1.9, Apache Spark 3.5 (PySpark).
- Plataformas: Databricks (con Unity Catalog), Snowflake, BigQuery, Redshift, Starburst.
- Bases de datos: PostgreSQL 16, MongoDB 7, Redis 7, Elasticsearch 8.
- Streaming: Kafka Connect, ksqlDB, Flink 1.20, Kafka Streams.
- Lakehouse: Delta Lake 3, Apache Iceberg 1.7, Apache Hudi 1.0.
- Orquestación: Airflow 2.10, Prefect 3, Dagster 1.9.
- Infraestructura: Docker, Kubernetes, AWS S3, Azure ADLS, GCP GCS.
- Observabilidad: dbt tests, Great Expectations, Soda, Monte Carlo.
Diseñamos esta carrera para tu equipo
Propuesta concreta: modalidad (teleformación, aula virtual o plan mixto), alcance, calendario, evaluación y evidencias FUNDAE exportables. Damos de alta a tu equipo, configuramos plataforma con tus dominios y entregamos certificados verificables e informes para tu entidad organizadora.
¿Prefieres verlo en directo? Agenda una demo sin compromiso.
Sin permanencia · Sin coste de setup · Evidencias FUNDAE exportables