Saltar al contenido principal
Apache Airflow
Curso completo Nivel medio certificado-completo-apache-airflow

Apache Airflow

Apache Airflow ·Big Data·DevOps

Curso completo de Apache Airflow para profesionales de datos que quieren dominar la orquestación de pipelines de extremo a extremo. Diseñas DAGs y operadores, paso de información entre tareas, integraciones con Spark y dbt, seguridad, monitorización, testing y despliegue en CI/CD. Al terminar entregas plataformas de orquestación versionadas y auditables, y te incorporas con autonomía a equipos de datos en proyectos empresariales o consultoras.

Evidencias FUNDAE Activación guiada Evaluación con IA Sin permanencia

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Formación corporativa: este curso se activa bajo pedido para tu organización. Adaptamos temario, calendario y modalidad (teleformación, aula virtual o mixto).

Contenido del curso

Orquesta pipelines de datos y workflows empresariales.

9 módulos 43 lecciones 3 ejercicios evaluados por IA 9 tests
  • Introducción a Apache Airflow Lección
  • Concepto de DAG en Airflow Lección
  • Arquitectura de Apache Airflow Lección
  • Tipos de Executor en Airflow Lección
  • Test de fundamentos de Apache Airflow Test

Detalles del curso

Público objetivo

  • Data Engineers que orquestan pipelines ETL/ELT en infraestructuras de datos modernas.
  • Ingenieros de software que automatizan procesos y flujos de trabajo dependientes entre sí.
  • DevOps Engineers que operan plataformas de datos y necesitan dominar la orquestación con Airflow.
  • Arquitectos de datos que diseñan plataformas empresariales con scheduling y monitorización.

Contenido del certificado

Módulo 1: Fundamentos de Airflow (base conceptual y arquitectura) Qué es Apache Airflow, origen en Airbnb, orquestación vs automatización (introducción) Concepto de DAG, tareas, dependencias y ejecución (modelo de datos) Arquitectura: Scheduler, Webserver, Executor, Metadata DB y Workers (componentes) Tipos de Executor: SequentialExecutor, LocalExecutor, CeleryExecutor, KubernetesExecutor (ejecución) Airflow fundamentos test Módulo 2: Instalación y entorno de trabajo (setup práctico) Instalación con pip: constraints, variables de entorno y configuración básica (instalación pip) Airflow en Docker Compose: imagen oficial, servicios, volúmenes y primer arranque (contenedores) Airflow con Helm en Kubernetes: chart oficial, configuración y despliegue (Kubernetes) Configuración: airflow.cfg, variables de entorno, connections y pools (configuración) Primer DAG: crear, registrar y ejecutar un flujo básico en la interfaz web (primer DAG) Airflow instalación test Módulo 3: DAGs en profundidad (definición y planificación) Estructura de un DAG: default_args, schedule, start_date, catchup, tags (definición) Dependencias entre tareas: set_upstream, set_downstream, operador >> y << (dependencias) Scheduling: expresiones cron, timetables, data intervals y execution date (planificación) Catchup, backfill y reruns: reprocesamiento de ejecuciones pasadas (reprocesamiento) DAGs dinámicos: generación programática de tareas y DAGs con bucles y factories (dinamismo) Airflow dags código Airflow dags test Módulo 4: Operadores (tipos de tareas) BashOperator: ejecutar comandos y scripts de shell (operador Bash) PythonOperator: ejecutar funciones Python con parámetros (operador Python) Providers: operadores para AWS (S3, Glue), GCP (BigQuery, GCS) y Azure (operadores cloud) Operadores de bases de datos: PostgresOperator, MySqlOperator, SqliteOperator (operadores SQL) Operadores personalizados: crear operadores propios extendiendo BaseOperator (custom operators) Airflow operadores código Airflow operadores test Módulo 5: Sensores y hooks (espera y conexión) Sensores: concepto, modo poke vs reschedule, timeout y soft_fail (fundamentos) FileSensor, HttpSensor, ExternalTaskSensor y SqlSensor (sensores comunes) Hooks: conexión a sistemas externos, BaseHook y hooks de providers (hooks) Deferrable Operators y async sensors: liberar worker slots durante la espera (operadores diferidos) Airflow sensores hooks test Módulo 6: XCom y TaskFlow API (comunicación entre tareas) XCom: xcom_push, xcom_pull, paso de datos entre tareas con limitaciones (XCom básico) TaskFlow API: decorador @task, paso implícito de datos, Python nativo (TaskFlow) Múltiples salidas, tipado y TaskGroups para organizar DAGs complejos (TaskFlow avanzado) Dynamic Task Mapping: expand() para generar tareas dinámicamente en runtime (mapeo dinámico) Airflow xcom taskflow código Airflow xcom taskflow test Módulo 7: Integraciones con el ecosistema de datos (conexiones externas) Airflow con bases de datos: PostgreSQL, MySQL, conexiones JDBC y SQL (bases de datos) Airflow con almacenamiento cloud: S3, GCS, Azure Blob Storage (almacenamiento) Airflow con Apache Spark: SparkSubmitOperator y PySpark (procesamiento distribuido) Airflow con dbt: BashOperator, DbtCloudRunJobOperator y Cosmos (transformación) Airflow con APIs REST: SimpleHttpOperator y HttpHook para servicios externos (APIs) KubernetesPodOperator: ejecutar contenedores aislados como tareas (Kubernetes) Airflow integraciones test Módulo 8: Seguridad y producción (operación empresarial) RBAC: roles, permisos, DAG level access y autenticación (control de acceso) Secrets backends: HashiCorp Vault, AWS Secrets Manager, GCP Secret Manager (secretos) Logging: configuración de logs, remote logging en S3/GCS, log rotation (registros) Monitorización: métricas con StatsD/Prometheus, health checks, Grafana dashboards (observabilidad) SLAs, alertas por email, callbacks on_failure y on_success, notificaciones Slack (alertas) Tuning: paralelismo, pools, priority weights, concurrencia y buenas prácticas (rendimiento) Airflow seguridad producción test Módulo 9: CI/CD y testing (calidad y despliegue) Testing de DAGs: validación de estructura, unit tests con pytest, DAG integrity tests (testing) CI/CD para Airflow: pipelines con GitHub Actions, validación y linting (integración continua) Astro CLI: desarrollo local, testing y despliegue con Astronomer (herramientas) Servicios gestionados: Amazon MWAA, Google Cloud Composer, Astronomer (plataformas cloud) Airflow cicd testing test Proyecto integrador y test global del curso Airflow test global

Este curso completo de Apache Airflow recorre la plataforma de orquestación de principio a fin: desde los fundamentos de DAGs y la arquitectura del sistema hasta el despliegue en producción con CI/CD y servicios gestionados, pasando por operadores, sensores, hooks, TaskFlow API, integraciones con el ecosistema de datos (Spark, dbt, bases de datos, almacenamiento cloud), seguridad RBAC, monitorización con Prometheus/Grafana y buenas prácticas de rendimiento.

Objetivos de aprendizaje

  • Diseñar y gestionar DAGs complejos con dependencias, scheduling, TaskFlow API y Dynamic Task Mapping.
  • Utilizar operadores, sensores y hooks para integrar Airflow con bases de datos, almacenamiento cloud, Spark y dbt.
  • Configurar seguridad RBAC, secrets backends, logging y monitorización para operación en producción.
  • Implementar pipelines de CI/CD para validar y desplegar DAGs de forma automatizada.

Otros cursos de Apache Airflow

Especialización ·Nivel medio

Apache Airflow - Fundamentos

Curso de fundamentos de Apache Airflow para profesionales de datos que dan sus primeros pasos en orquestación de pipelines. Comprendes la arquitectura, escribes DAGs idempotentes con dependencias y planificación claras, y usas los operadores principales para integrar Python, bases de datos y servicios externos. Al terminar construyes y mantienes flujos ETL/ELT versionados, y te incorporas con autonomía a equipos analíticos de proyectos empresariales.

Especialización ·Nivel medio

Apache Airflow - Módulos avanzados

Curso avanzado de Apache Airflow para profesionales de datos que ya dominan los fundamentos. Trabajas con sensores y hooks para esperar eventos externos, paso de información entre tareas con XCom y TaskFlow API, e integraciones con el resto del ecosistema analítico. Al terminar construyes pipelines más expresivos y desacoplados, y te incorporas con autonomía a equipos que orquestan plataformas de datos en proyectos empresariales.

Especialización ·Nivel medio

Apache Airflow - Seguridad, producción, CI/CD y testing

Curso de Apache Airflow centrado en llevar pipelines a producción con garantías. Trabajas con control de acceso, gestión de secretos, logging remoto, monitorización y alertas de SLA, y completas el ciclo con testing de DAGs y CI/CD. Al terminar entregas plataformas de orquestación auditables y desplegables de forma repetible, listas para equipos enterprise donde la fiabilidad del scheduler es crítica para el negocio.

Llave en mano para empresas

¿Formación para tu equipo en esta tecnología?

Tú nos dices a quién formar y nosotros configuramos la plataforma con tu marca, damos de alta a tu gente, evaluamos las entregas con IA y te entregamos los certificados y los informes técnicos para tu gestor FUNDAE. Catálogo amplio con teleformación, aula virtual o mixto. Sin permanencia, sin coste de setup.

¿Prefieres verlo en directo? Agenda una demo.

Preguntas frecuentes

¿Apache Airflow es bonificable por FUNDAE para mi empresa?
Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.
¿En qué modalidades se imparte Apache Airflow?
En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.
¿Se adapta Apache Airflow al nivel de mi equipo?
Sí. Adaptamos temario, calendario y modalidad al nivel y al stack del equipo, con ejercicios evaluados por IA y certificado verificable.
¿Cuánto tarda en activarse para mi empresa?
La activación corporativa estándar es rápida, sin coste de setup ni permanencia.