MLOps (Machine Learning Operations) es el conjunto de prácticas, herramientas y principios que permiten llevar modelos de machine learning desde la experimentación hasta la producción de forma fiable, reproducible y escalable. Mientras que construir un modelo en un notebook es relativamente accesible, desplegarlo en producción, monitorizarlo y mantenerlo actualizado requiere una disciplina específica que combina ingeniería de software, ingeniería de datos y ciencia de datos. MLOps aborda exactamente este reto, proporcionando un marco de trabajo para automatizar y operacionalizar todo el ciclo de vida del machine learning.
Este curso cubre el espectro completo de MLOps, desde los fundamentos teóricos y los niveles de madurez hasta la implementación práctica con herramientas de referencia del ecosistema. Aprenderás a diseñar pipelines de datos robustos, gestionar experimentos con MLflow, registrar y versionar modelos, desplegar con contenedores y serverless, implementar CI/CD específico para ML y monitorizar modelos en producción para detectar data drift y concept drift. El itinerario incluye además un módulo dedicado a LLMOps, la extensión de MLOps para operaciones con modelos de lenguaje grandes.
La formación combina teoría con ejercicios prácticos que reproducen escenarios reales de empresas que operan modelos de ML en producción. Cada módulo introduce las herramientas estándar de la industria (MLflow, DVC, Feast, Docker, Kubernetes, GitHub Actions) y las plataformas cloud principales (AWS SageMaker, GCP Vertex AI, Azure ML), proporcionándote las competencias necesarias para implementar MLOps en cualquier entorno empresarial.
Qué incluye este itinerario
- Fundamentos: principios MLOps, ciclo de vida ML, DevOps vs MLOps, niveles de madurez y roles de equipo.
- Pipelines de datos: diseño de pipelines, feature engineering, validación de datos, feature stores y versionado con DVC.
- Experimentación: experiment tracking con MLflow, hyperparameter tuning con Optuna, reproducibilidad y comparación de experimentos.
- Registro de modelos: model registry, MLflow Model Registry, model cards y lineage end-to-end.
- Despliegue: model serving (REST, gRPC, batch), contenedores Docker, serverless y estrategias de rollout.
- CI/CD para ML: testing de modelos, validación automática, GitHub Actions y canary deployments.
- Monitorización: data drift, concept drift, degradación de rendimiento, dashboards con Grafana y reentrenamiento automático.
- LLMOps: gestión de prompts, evaluación de LLMs, guardrails, tracking de costes.
- Infraestructura: AWS SageMaker, GCP Vertex AI, Azure ML, Kubernetes para ML y comparativa de plataformas.
Público objetivo
- Data scientists que quieren llevar sus modelos más allá del notebook y desplegarlos en producción.
- ML engineers que buscan sistematizar y automatizar el ciclo de vida completo de machine learning.
- DevOps engineers que necesitan adaptar sus prácticas de CI/CD al mundo del machine learning.
- Tech leads y CTOs que deben definir la estrategia de MLOps para sus organizaciones.
Prerrequisitos: conocimientos de Python, experiencia básica con machine learning (entrenamiento de modelos, métricas de evaluación), familiaridad con Git y conceptos básicos de Docker.
Pipeline MLOps completo
El siguiente diagrama resume el ciclo productivo que cubre el curso, desde la ingesta de datos hasta el reentrenamiento automático disparado por monitorización.
flowchart LR
A[Ingesta de datos] --> B[Feature engineering]
B --> C[Entrenamiento]
C --> D[Evaluación]
D --> E[Model Registry]
E --> F[Despliegue]
F --> G[Monitorización]
G --> H{Drift o degradación}
H -- si --> C
H -- no --> G
Herramientas por fase del ciclo de vida
Cada fase del pipeline MLOps tiene herramientas de referencia. El curso utiliza las más consolidadas del ecosistema 2026 y presenta alternativas según el stack del equipo.
flowchart TB
subgraph Datos
DVC[DVC 3.x]
Feast[Feast / Tecton]
GE[Great Expectations]
end
subgraph Experimentacion
MLflow[MLflow 2.x]
WandB[Weights and Biases]
Neptune[Neptune]
ClearML[ClearML]
end
subgraph Orquestacion
ZenML[ZenML]
Metaflow[Metaflow]
Kubeflow[KubeFlow Pipelines]
end
subgraph Serving
BentoML[BentoML]
Seldon[Seldon Core]
KServe[KServe]
end
subgraph Monitorizacion
Evidently[Evidently AI]
Arize[Arize AI]
Fiddler[Fiddler AI]
end
Datos --> Experimentacion --> Orquestacion --> Serving --> Monitorizacion
Diseño de sistemas ML: online vs batch vs streaming
El modo de servir un modelo determina la infraestructura, la latencia aceptable y los patrones de monitorización. El curso cubre los tres modelos de serving y cuándo elegir cada uno.
flowchart TD
Sistema[Sistema ML] --> Online[Inferencia online]
Sistema --> Batch[Inferencia batch]
Sistema --> Streaming[Inferencia streaming]
Sistema --> Edge[Inferencia en edge]
Online --> REST[REST / gRPC<br>latencia menor a 100 ms]
Batch --> Jobs[Jobs programados<br>Airflow / Prefect]
Streaming --> Kafka[Kafka / Flink<br>eventos en tiempo real]
Edge --> Mobile[TensorFlow Lite<br>ONNX Runtime]
Patrones de despliegue: canary, blue-green y shadow
Las estrategias de rollout reducen el riesgo de publicar un modelo nuevo al permitir comparación lado a lado o reversión rápida.
flowchart LR
Trafico[Tráfico de producción] --> Router{Router de despliegue}
Router -- 90 por ciento --> Stable[Modelo estable v1]
Router -- 10 por ciento --> Canary[Canary v2]
Router -- espejo --> Shadow[Shadow v3<br>respuestas no se devuelven]
Stable --> Metricas[Metricas online]
Canary --> Metricas
Shadow --> Comparador[Comparador offline]
Detección de drift: datos frente a modelo
El drift es la principal causa de degradación en producción. El curso diferencia data drift (cambia la entrada) de concept drift (cambia la relación entrada-salida) y cubre técnicas estadísticas y de monitorización.
flowchart TB
Baseline[Baseline de entrenamiento] --> Comparador
Produccion[Ventana de producción] --> Comparador
Comparador --> Data{Data drift<br>PSI / KS test}
Comparador --> Concept{Concept drift<br>error condicional}
Data -- supera umbral --> Alerta[Alerta Evidently / Arize]
Concept -- supera umbral --> Alerta
Alerta --> Accion[Reentrenar / rollback / investigar]
Reentrenamiento automático y retraining triggers
Un sistema MLOps maduro no espera a que el equipo detecte la caída de métricas: el pipeline se autoreentrena cuando el drift o la degradación superan umbrales configurados.
flowchart LR
Monitor[Monitor de drift y metricas] --> Trigger{Umbral superado}
Trigger -- no --> Monitor
Trigger -- si --> Pipeline[Pipeline CI/CD de entrenamiento]
Pipeline --> Train[Entrenamiento automático]
Train --> Validar[Validación contra baseline]
Validar --> OK{Metricas OK}
OK -- si --> Promover[Promover alias production<br>canary deploy]
OK -- no --> Alertar[Alertar al equipo ML]
Stack tecnológico MLOps 2026
Este curso utiliza las herramientas de referencia del ecosistema actual y presenta alternativas comerciales y open source para que el equipo elija según su stack.
Versionado de datos y feature stores
- DVC 3.x: versionado de datos y pipelines reproducibles con dvc.yaml sobre remotes S3, GCS o Azure Blob.
- Feast: feature store open source con offline store en Parquet o BigQuery y online store en Redis o DynamoDB.
- Tecton: feature store comercial con SLA empresarial y transformaciones en streaming.
- Great Expectations: validación de datos y documentación automática de expectativas.
Experiment tracking y model registry
- MLflow 2.x: tracking, registry con aliases production y staging, y model serving integrado.
- Weights and Biases: tracking premium con visualización colaborativa y sweeps de hiperparámetros.
- Neptune: tracking para equipos de investigación con metadata store avanzado.
- ClearML: plataforma integrada con orquestación, tracking y despliegue.
Orquestación y pipelines ML
- ZenML: framework Python-first para pipelines reproducibles con stacks intercambiables.
- Metaflow: herramienta de Netflix para data scientists con foco en productividad y escalabilidad.
- KubeFlow Pipelines: pipelines nativos en Kubernetes con componentes reutilizables.
- Prefect y Dagster: orquestadores modernos con soporte de pipelines de datos y ML.
Serving y despliegue
- BentoML: empaquetado y serving de modelos con API REST, gRPC y soporte multi-framework.
- Seldon Core: serving avanzado en Kubernetes con inference graphs y explainers.
- KServe: serving serverless en Kubernetes con autoscaling a cero y canary nativos.
- NVIDIA Triton: serving optimizado para GPU con batching dinámico y concurrencia.
Monitorización y observabilidad ML
- Evidently AI: reportes open source de data drift, target drift y calidad de modelo.
- Arize AI: plataforma SaaS de monitorización ML con root cause analysis.
- Fiddler AI: monitorización con explicabilidad y fairness integrados.
- WhyLabs: monitorización de data quality con agentes ligeros y profiles estadísticos.
Plataformas cloud ML end-to-end
- AWS SageMaker: plataforma completa con Studio, Pipelines, Feature Store y endpoints gestionados.
- GCP Vertex AI: Pipelines, AutoML, Feature Store, Model Registry y Model Monitoring nativos.
- Azure Machine Learning: workspace integrado con GitHub Actions y Azure DevOps.
- Databricks Machine Learning: entorno unificado con Unity Catalog, MLflow gestionado y serving.
LLMOps
- LangSmith: plataforma de observabilidad y evaluación de aplicaciones LLM construidas con LangChain.
- Langfuse: alternativa open source con tracing, evaluaciones y gestión de prompts.
- Helicone: proxy de observabilidad para llamadas a APIs de LLM con analíticas de coste.
- Arize Phoenix: observabilidad open source para pipelines RAG y agentes LLM.