Saltar al contenido principal
Apache Airflow
19 € 30h Nivel medio

Apache Airflow

Curso completo de Apache Airflow para profesionales de datos que quieren dominar la orquestación de pipelines de extremo a extremo. Diseñas DAGs y operadores, paso de información entre tareas, integraciones con Spark y dbt, seguridad, monitorización, testing y despliegue en CI/CD. Al terminar entregas plataformas de orquestación versionadas y auditables, y te incorporas con autonomía a equipos de datos en proyectos empresariales o consultoras.

Certificado incluido Ejercicios evaluados por IA Acceso permanente Sin contrato ni cuotas

Estructura del curso

  • Introducción a Apache Airflow Lección
  • Concepto de DAG en Airflow Lección
  • Arquitectura de Apache Airflow Lección
  • Tipos de Executor en Airflow Lección
  • Test de fundamentos de Apache Airflow Test

Detalles del curso

Público objetivo

  • Data Engineers que orquestan pipelines ETL/ELT en infraestructuras de datos modernas.
  • Ingenieros de software que automatizan procesos y flujos de trabajo dependientes entre sí.
  • DevOps Engineers que operan plataformas de datos y necesitan dominar la orquestación con Airflow.
  • Arquitectos de datos que diseñan plataformas empresariales con scheduling y monitorización.

Contenido del certificado

Módulo 1: Fundamentos de Airflow (base conceptual y arquitectura) Qué es Apache Airflow, origen en Airbnb, orquestación vs automatización (introducción) Concepto de DAG, tareas, dependencias y ejecución (modelo de datos) Arquitectura: Scheduler, Webserver, Executor, Metadata DB y Workers (componentes) Tipos de Executor: SequentialExecutor, LocalExecutor, CeleryExecutor, KubernetesExecutor (ejecución) Airflow fundamentos test Módulo 2: Instalación y entorno de trabajo (setup práctico) Instalación con pip: constraints, variables de entorno y configuración básica (instalación pip) Airflow en Docker Compose: imagen oficial, servicios, volúmenes y primer arranque (contenedores) Airflow con Helm en Kubernetes: chart oficial, configuración y despliegue (Kubernetes) Configuración: airflow.cfg, variables de entorno, connections y pools (configuración) Primer DAG: crear, registrar y ejecutar un flujo básico en la interfaz web (primer DAG) Airflow instalación test Módulo 3: DAGs en profundidad (definición y planificación) Estructura de un DAG: default_args, schedule, start_date, catchup, tags (definición) Dependencias entre tareas: set_upstream, set_downstream, operador >> y << (dependencias) Scheduling: expresiones cron, timetables, data intervals y execution date (planificación) Catchup, backfill y reruns: reprocesamiento de ejecuciones pasadas (reprocesamiento) DAGs dinámicos: generación programática de tareas y DAGs con bucles y factories (dinamismo) Airflow dags código Airflow dags test Módulo 4: Operadores (tipos de tareas) BashOperator: ejecutar comandos y scripts de shell (operador Bash) PythonOperator: ejecutar funciones Python con parámetros (operador Python) Providers: operadores para AWS (S3, Glue), GCP (BigQuery, GCS) y Azure (operadores cloud) Operadores de bases de datos: PostgresOperator, MySqlOperator, SqliteOperator (operadores SQL) Operadores personalizados: crear operadores propios extendiendo BaseOperator (custom operators) Airflow operadores código Airflow operadores test Módulo 5: Sensores y hooks (espera y conexión) Sensores: concepto, modo poke vs reschedule, timeout y soft_fail (fundamentos) FileSensor, HttpSensor, ExternalTaskSensor y SqlSensor (sensores comunes) Hooks: conexión a sistemas externos, BaseHook y hooks de providers (hooks) Deferrable Operators y async sensors: liberar worker slots durante la espera (operadores diferidos) Airflow sensores hooks test Módulo 6: XCom y TaskFlow API (comunicación entre tareas) XCom: xcom_push, xcom_pull, paso de datos entre tareas con limitaciones (XCom básico) TaskFlow API: decorador @task, paso implícito de datos, Python nativo (TaskFlow) Múltiples salidas, tipado y TaskGroups para organizar DAGs complejos (TaskFlow avanzado) Dynamic Task Mapping: expand() para generar tareas dinámicamente en runtime (mapeo dinámico) Airflow xcom taskflow código Airflow xcom taskflow test Módulo 7: Integraciones con el ecosistema de datos (conexiones externas) Airflow con bases de datos: PostgreSQL, MySQL, conexiones JDBC y SQL (bases de datos) Airflow con almacenamiento cloud: S3, GCS, Azure Blob Storage (almacenamiento) Airflow con Apache Spark: SparkSubmitOperator y PySpark (procesamiento distribuido) Airflow con dbt: BashOperator, DbtCloudRunJobOperator y Cosmos (transformación) Airflow con APIs REST: SimpleHttpOperator y HttpHook para servicios externos (APIs) KubernetesPodOperator: ejecutar contenedores aislados como tareas (Kubernetes) Airflow integraciones test Módulo 8: Seguridad y producción (operación empresarial) RBAC: roles, permisos, DAG level access y autenticación (control de acceso) Secrets backends: HashiCorp Vault, AWS Secrets Manager, GCP Secret Manager (secretos) Logging: configuración de logs, remote logging en S3/GCS, log rotation (registros) Monitorización: métricas con StatsD/Prometheus, health checks, Grafana dashboards (observabilidad) SLAs, alertas por email, callbacks on_failure y on_success, notificaciones Slack (alertas) Tuning: paralelismo, pools, priority weights, concurrencia y buenas prácticas (rendimiento) Airflow seguridad producción test Módulo 9: CI/CD y testing (calidad y despliegue) Testing de DAGs: validación de estructura, unit tests con pytest, DAG integrity tests (testing) CI/CD para Airflow: pipelines con GitHub Actions, validación y linting (integración continua) Astro CLI: desarrollo local, testing y despliegue con Astronomer (herramientas) Servicios gestionados: Amazon MWAA, Google Cloud Composer, Astronomer (plataformas cloud) Airflow cicd testing test Proyecto integrador y test global del curso Airflow test global

Este curso completo de Apache Airflow recorre la plataforma de orquestación de principio a fin: desde los fundamentos de DAGs y la arquitectura del sistema hasta el despliegue en producción con CI/CD y servicios gestionados, pasando por operadores, sensores, hooks, TaskFlow API, integraciones con el ecosistema de datos (Spark, dbt, bases de datos, almacenamiento cloud), seguridad RBAC, monitorización con Prometheus/Grafana y buenas prácticas de rendimiento.

Objetivos de aprendizaje

  • Diseñar y gestionar DAGs complejos con dependencias, scheduling, TaskFlow API y Dynamic Task Mapping.
  • Utilizar operadores, sensores y hooks para integrar Airflow con bases de datos, almacenamiento cloud, Spark y dbt.
  • Configurar seguridad RBAC, secrets backends, logging y monitorización para operación en producción.
  • Implementar pipelines de CI/CD para validar y desplegar DAGs de forma automatizada.

Antes de comprar

¿Cuánto dura el acceso?

Acceso permanente. El curso queda asociado a tu cuenta para siempre, con todas las lecciones, ejercicios y certificado.

¿Incluye certificado?

Sí. Al superar el curso recibes un certificado con QR público verificable. La URL del certificado es pública: puedes compartirla en LinkedIn o con un empleador sin que necesiten una cuenta CertiDevs.

¿Puedo pedir factura con NIF?

Sí. En el proceso de compra puedes indicar datos de facturación con NIF español o europeo. Stripe emite la factura electrónica automáticamente.

¿Hay devolución?

Sí. Devolución íntegra dentro de los 14 días naturales desde la compra siempre que no se haya consumido el contenido. Escríbenos a hola@certidevs.com con el correo de tu cuenta y procesamos el reembolso.

¿Te lo paga tu empresa o lo quieres para tu equipo? Tenemos modelos corporativos sin permanencia.

Ver propuesta para empresas