Carrera profesional Varios cursos incluidos280h Ciencia de Datos DevOps Backend Bases de Datos Big Data

Observabilidad y SRE

Carrera profesional de Observabilidad y Site Reliability Engineering para equipos que operan sistemas distribuidos críticos: instrumentación con OpenTelemetry, métricas y dashboards con Grafana, logs y búsqueda con Elasticsearch, orquestación con Kubernetes, contenedores Docker, infraestructura como código con Terraform y cloud en AWS para garantizar SLOs, reducir MTTR y prevenir incidentes en banca, seguros, energía y consultoras.

Solicitar esta carrera para mi equipo Probar la plataforma

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Teleformación Aula virtual FUNDAE LTI / SCORM

Cursos incluidos en esta carrera

Bash

Docker

Kubernetes: Orquestación de contenedores

Los cursos se adaptan en duración y profundidad según el nivel y los objetivos de tu equipo.

La carrera de Observabilidad y Site Reliability Engineering está diseñada para equipos que operan sistemas distribuidos críticos en producción. A lo largo de varios cursos certificados con un enfoque práctico, dominarás las competencias del SRE moderno: instrumentación de servicios, gestión de métricas y trazas, explotación de logs, operación de clústeres Kubernetes, automatización de infraestructura y aplicación de prácticas Google SRE como SLOs, SLIs, error budgets y runbooks.

La carrera parte de los fundamentos operativos con Bash para scripting de sistemas, Docker para containerización y Kubernetes para orquestación. Avanza hacia el núcleo de la observabilidad con OpenTelemetry como estándar de instrumentación, Grafana para dashboards y alertas, y Elasticsearch para centralización y análisis de logs. Completa el perfil con Terraform para infraestructura como código, AWS para servicios cloud y GitHub Actions para automatizar despliegues seguros.

Público objetivo

Esta carrera está diseñada para:

Equipos de operaciones y SRE de banca, seguros, energía, telecomunicaciones y consultoras que deben garantizar disponibilidad y rendimiento de plataformas críticas.
Ingenieros DevOps que quieren evolucionar hacia un perfil SRE centrado en fiabilidad, observabilidad y gestión de incidentes.
Administradores de sistemas que buscan modernizar su perfil hacia la operación de sistemas distribuidos, Kubernetes y cloud.
Desarrolladores backend que necesitan instrumentar correctamente sus servicios y comprender el ciclo de vida operativo de las aplicaciones.
Responsables de plataformas internas que definen estándares de observabilidad, alertado y fiabilidad para toda la organización.

Estructura

La carrera se organiza con un enfoque operativo y práctico:

Bash: scripting para automatización operativa, auditoría, gestión de logs y respuesta a incidentes en sistemas Linux.
Docker: containerización de aplicaciones, imágenes optimizadas, redes, volúmenes y preparación de servicios para producción.
Kubernetes: orquestación de contenedores, deployments, servicios, ingress, RBAC, autoscaling y operación de clústeres.
OpenTelemetry: estándar de instrumentación para trazas distribuidas, métricas y logs, con exporters y pipelines para backends modernos.
Grafana: construcción de dashboards operativos, configuración de alertas, visualización de métricas y trazas, y diseño de paneles SRE.
Elasticsearch: ingestión, indexación y consulta de logs a escala, con búsqueda avanzada y análisis para troubleshooting.
Terraform: infraestructura como código, módulos reutilizables, gestión de estado y despliegue repetible en cloud.
AWS: servicios cloud fundamentales, CloudWatch, IAM, VPC y buenas prácticas para cargas de trabajo de alta disponibilidad.
GitHub Actions: pipelines CI/CD con pruebas, despliegue controlado y promoción entre entornos para operaciones fiables.

Objetivos de aprendizaje

Al completar esta carrera, serás capaz de:

Automatizar tareas operativas y respuesta a incidentes mediante scripts Bash robustos.
Empaquetar, desplegar y operar aplicaciones containerizadas con Docker y Kubernetes.
Instrumentar servicios con OpenTelemetry para obtener trazas distribuidas, métricas y logs coherentes.
Diseñar dashboards operativos y sistemas de alertas en Grafana alineados con SLOs y error budgets.
Centralizar y analizar logs a escala con Elasticsearch para reducir el tiempo de diagnóstico de incidentes.
Definir infraestructura como código reutilizable con Terraform y gestionar estados de forma segura.
Operar cargas críticas en AWS aplicando buenas prácticas de red, identidad, monitorización y disponibilidad.
Construir pipelines GitHub Actions que integren pruebas, despliegues graduales y controles operativos.
Aplicar prácticas Google SRE: definición de SLIs, SLOs, error budgets, postmortems y runbooks en el día a día del equipo.

Stack técnico esperado en proyectos 2026

Instrumentación: OpenTelemetry SDKs (Java, Python, Node, Go), OTel Collector.
Métricas: Prometheus 2.55, Mimir, Thanos, VictoriaMetrics.
Trazas: Tempo, Jaeger 2, Honeycomb.
Logs: Loki, Elasticsearch 8.x / OpenSearch 2.x, Splunk.
Visualización: Grafana 11, Kibana, Datadog, New Relic.
Alertado: Alertmanager, PagerDuty, Opsgenie.
Contenedores: Docker 24, Kubernetes 1.30, Helm 3.
IaC: Terraform 1.9, Crossplane.
Cloud: AWS (CloudWatch, X-Ray), Azure Monitor, GCP Operations.
Chaos engineering: LitmusChaos, Chaos Mesh, Gremlin.

Diseñamos esta carrera para tu equipo

Propuesta concreta: modalidad (teleformación, aula virtual o plan mixto), alcance, calendario, evaluación y evidencias FUNDAE exportables. Damos de alta a tu equipo, configuramos plataforma con tus dominios y entregamos certificados verificables e informes para tu entidad organizadora.

Solicitar un itinerario a medida Probar la plataforma

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Sin permanencia · Sin coste de setup · Evidencias FUNDAE exportables