Observabilidad y SRE
Carrera profesional de Observabilidad y Site Reliability Engineering para equipos que operan sistemas distribuidos críticos: instrumentación con OpenTelemetry, métricas y dashboards con Grafana, logs y búsqueda con Elasticsearch, orquestación con Kubernetes, contenedores Docker, infraestructura como código con Terraform y cloud en AWS para garantizar SLOs, reducir MTTR y prevenir incidentes en banca, seguros, energía y consultoras.
¿Prefieres verlo en directo? Agenda una demo sin compromiso.
Cursos incluidos en esta carrera
Los cursos se adaptan en duración y profundidad según el nivel y los objetivos de tu equipo.
La carrera de Observabilidad y Site Reliability Engineering está diseñada para equipos que operan sistemas distribuidos críticos en producción. A lo largo de varios cursos certificados con un enfoque práctico, dominarás las competencias del SRE moderno: instrumentación de servicios, gestión de métricas y trazas, explotación de logs, operación de clústeres Kubernetes, automatización de infraestructura y aplicación de prácticas Google SRE como SLOs, SLIs, error budgets y runbooks.
La carrera parte de los fundamentos operativos con Bash para scripting de sistemas, Docker para containerización y Kubernetes para orquestación. Avanza hacia el núcleo de la observabilidad con OpenTelemetry como estándar de instrumentación, Grafana para dashboards y alertas, y Elasticsearch para centralización y análisis de logs. Completa el perfil con Terraform para infraestructura como código, AWS para servicios cloud y GitHub Actions para automatizar despliegues seguros.
Público objetivo
Esta carrera está diseñada para:
- Equipos de operaciones y SRE de banca, seguros, energía, telecomunicaciones y consultoras que deben garantizar disponibilidad y rendimiento de plataformas críticas.
- Ingenieros DevOps que quieren evolucionar hacia un perfil SRE centrado en fiabilidad, observabilidad y gestión de incidentes.
- Administradores de sistemas que buscan modernizar su perfil hacia la operación de sistemas distribuidos, Kubernetes y cloud.
- Desarrolladores backend que necesitan instrumentar correctamente sus servicios y comprender el ciclo de vida operativo de las aplicaciones.
- Responsables de plataformas internas que definen estándares de observabilidad, alertado y fiabilidad para toda la organización.
Estructura
La carrera se organiza con un enfoque operativo y práctico:
- Bash: scripting para automatización operativa, auditoría, gestión de logs y respuesta a incidentes en sistemas Linux.
- Docker: containerización de aplicaciones, imágenes optimizadas, redes, volúmenes y preparación de servicios para producción.
- Kubernetes: orquestación de contenedores, deployments, servicios, ingress, RBAC, autoscaling y operación de clústeres.
- OpenTelemetry: estándar de instrumentación para trazas distribuidas, métricas y logs, con exporters y pipelines para backends modernos.
- Grafana: construcción de dashboards operativos, configuración de alertas, visualización de métricas y trazas, y diseño de paneles SRE.
- Elasticsearch: ingestión, indexación y consulta de logs a escala, con búsqueda avanzada y análisis para troubleshooting.
- Terraform: infraestructura como código, módulos reutilizables, gestión de estado y despliegue repetible en cloud.
- AWS: servicios cloud fundamentales, CloudWatch, IAM, VPC y buenas prácticas para cargas de trabajo de alta disponibilidad.
- GitHub Actions: pipelines CI/CD con pruebas, despliegue controlado y promoción entre entornos para operaciones fiables.
Objetivos de aprendizaje
Al completar esta carrera, serás capaz de:
- Automatizar tareas operativas y respuesta a incidentes mediante scripts Bash robustos.
- Empaquetar, desplegar y operar aplicaciones containerizadas con Docker y Kubernetes.
- Instrumentar servicios con OpenTelemetry para obtener trazas distribuidas, métricas y logs coherentes.
- Diseñar dashboards operativos y sistemas de alertas en Grafana alineados con SLOs y error budgets.
- Centralizar y analizar logs a escala con Elasticsearch para reducir el tiempo de diagnóstico de incidentes.
- Definir infraestructura como código reutilizable con Terraform y gestionar estados de forma segura.
- Operar cargas críticas en AWS aplicando buenas prácticas de red, identidad, monitorización y disponibilidad.
- Construir pipelines GitHub Actions que integren pruebas, despliegues graduales y controles operativos.
- Aplicar prácticas Google SRE: definición de SLIs, SLOs, error budgets, postmortems y runbooks en el día a día del equipo.
Stack técnico esperado en proyectos 2026
- Instrumentación: OpenTelemetry SDKs (Java, Python, Node, Go), OTel Collector.
- Métricas: Prometheus 2.55, Mimir, Thanos, VictoriaMetrics.
- Trazas: Tempo, Jaeger 2, Honeycomb.
- Logs: Loki, Elasticsearch 8.x / OpenSearch 2.x, Splunk.
- Visualización: Grafana 11, Kibana, Datadog, New Relic.
- Alertado: Alertmanager, PagerDuty, Opsgenie.
- Contenedores: Docker 24, Kubernetes 1.30, Helm 3.
- IaC: Terraform 1.9, Crossplane.
- Cloud: AWS (CloudWatch, X-Ray), Azure Monitor, GCP Operations.
- Chaos engineering: LitmusChaos, Chaos Mesh, Gremlin.
Diseñamos esta carrera para tu equipo
Propuesta concreta: modalidad (teleformación, aula virtual o plan mixto), alcance, calendario, evaluación y evidencias FUNDAE exportables. Damos de alta a tu equipo, configuramos plataforma con tus dominios y entregamos certificados verificables e informes para tu entidad organizadora.
¿Prefieres verlo en directo? Agenda una demo sin compromiso.
Sin permanencia · Sin coste de setup · Evidencias FUNDAE exportables