Saltar al contenido principal
Carrera profesional Varios cursos incluidos320h Ciencia de Datos Backend Bases de Datos Big Data DevOps

Data Engineering

Carrera profesional de Data Engineering para equipos que construyen plataformas de datos corporativas: Python, SQL, pandas, streaming con Kafka, orquestación con Airflow, transformación con dbt, procesamiento distribuido con PySpark y Databricks para implantar data lakehouses y pipelines ETL/ELT robustos.

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

La carrera de Data Engineering forma profesionales capaces de diseñar, construir y operar plataformas de datos a escala empresarial. A lo largo de varios cursos certificados con un enfoque práctico, adquirirás las competencias necesarias para dominar todo el ciclo de vida del dato: desde la ingesta y el almacenamiento hasta la transformación, la orquestación y la búsqueda avanzada.

La carrera arranca con los lenguajes fundamentales del ingeniero de datos, Python y SQL, con NumPy y pandas como herramientas transversales de manipulación, y progresa hacia bases de datos NoSQL (MongoDB, Redis), streaming de eventos con Apache Kafka, orquestación de pipelines con Apache Airflow, transformación de datos con dbt, procesamiento distribuido con PySpark y Databricks, búsqueda y analítica con Elasticsearch, y contenedores con Docker para la infraestructura de desarrollo y despliegue.

Público objetivo

Esta carrera está diseñada para:

  • Equipos de datos e IT de consultoras, banca, seguros, retail y telecomunicaciones que construyen y operan plataformas de datos corporativas con pipelines ETL/ELT y data lakehouses.
  • Desarrolladores backend que quieren especializarse en el diseño y construcción de pipelines de datos y arquitecturas data-driven.
  • Analistas de datos y científicos de datos que necesitan comprender la infraestructura subyacente y construir sus propios flujos ETL/ELT robustos.
  • Administradores de bases de datos que buscan ampliar su perfil hacia la ingeniería de datos moderna con herramientas de streaming, orquestación y big data.
  • Profesionales IT que desean orientar su carrera hacia uno de los perfiles más demandados del mercado tecnológico.

Estructura

La carrera se organiza con una progresión de fundamentos a especialización:

  1. Python: lenguaje base para scripting, procesamiento de datos y desarrollo de pipelines.
  2. NumPy: computación numérica con arrays multidimensionales, base del stack científico de Python.
  3. pandas: manipulación y análisis de datos tabulares, herramienta central del trabajo diario del ingeniero de datos.
  4. SQL: consultas, modelado relacional, optimización y gestión de bases de datos.
  5. MongoDB: base de datos documental NoSQL, modelado flexible y agregaciones.
  6. Redis: almacén clave-valor en memoria, caché, colas y estructuras de datos especializadas.
  7. Apache Kafka: streaming de eventos, productores, consumidores, topics y Connect.
  8. Apache Airflow: orquestación de workflows, DAGs, operadores, scheduling y monitorización.
  9. dbt: transformación de datos en el warehouse, modelos, tests, documentación y linaje.
  10. PySpark / Apache Spark: procesamiento distribuido, DataFrames, Spark SQL y optimización.
  11. Databricks: plataforma unificada de data lakehouse, notebooks, Delta Lake y MLflow.
  12. Elasticsearch: motor de búsqueda y analítica, indexación, queries y agregaciones.
  13. Docker: contenedores para entornos de desarrollo, testing y despliegue de servicios de datos.

Objetivos de aprendizaje

Al completar esta carrera, serás capaz de:

  • Dominar Python y SQL como lenguajes fundamentales para la manipulación y consulta de datos.
  • Modelar y gestionar datos en bases relacionales y NoSQL (MongoDB, Redis) según los requisitos del proyecto.
  • Diseñar arquitecturas de streaming de eventos con Apache Kafka para procesamiento en tiempo real.
  • Orquestar pipelines ETL/ELT complejos con Apache Airflow, incluyendo scheduling, reintentos y alertas.
  • Implementar transformaciones de datos reproducibles y testeables con dbt en entornos de data warehouse.
  • Procesar grandes volúmenes de datos con PySpark y operar plataformas data lakehouse con Databricks.
  • Construir soluciones de búsqueda y analítica avanzada con Elasticsearch.
  • Containerizar servicios de datos con Docker para garantizar entornos reproducibles y desplegables.

Stack técnico esperado en proyectos 2026

  • Lenguajes: Python 3.13, SQL, Scala 3 (en Spark legacy).
  • Frameworks: Apache Kafka 3.7, Apache Airflow 2.10, dbt 1.9, Apache Spark 3.5 (PySpark).
  • Plataformas: Databricks (con Unity Catalog), Snowflake, BigQuery, Redshift, Starburst.
  • Bases de datos: PostgreSQL 16, MongoDB 7, Redis 7, Elasticsearch 8.
  • Streaming: Kafka Connect, ksqlDB, Flink 1.20, Kafka Streams.
  • Lakehouse: Delta Lake 3, Apache Iceberg 1.7, Apache Hudi 1.0.
  • Orquestación: Airflow 2.10, Prefect 3, Dagster 1.9.
  • Infraestructura: Docker, Kubernetes, AWS S3, Azure ADLS, GCP GCS.
  • Observabilidad: dbt tests, Great Expectations, Soda, Monte Carlo.

Diseñamos esta carrera para tu equipo

Propuesta concreta: modalidad (teleformación, aula virtual o plan mixto), alcance, calendario, evaluación y evidencias FUNDAE exportables. Damos de alta a tu equipo, configuramos plataforma con tus dominios y entregamos certificados verificables e informes para tu entidad organizadora.

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Sin permanencia · Sin coste de setup · Evidencias FUNDAE exportables