Tiempo Medio de Recuperación (MTTR)
MTTR (Tiempo Medio de Recuperación)
MTTR mide la rapidez con la que un equipo restaura el servicio después de un incidente o degradación.
Reducir el MTTR requiere claridad (triaje), velocidad (contención) y reversión segura (preparación para el rollback).
Reducir el MTTR
- Instrumentar señales que aceleren el diagnóstico (registros/métricas/rastreos).
- Mantener actualizados los runbooks de respuesta a incidentes.
- Definir disparadores de rollback y practicar los rollbacks.
- Utilizar post-mortems para mejorar los controles y prevenir repeticiones.
Ver también
Runbook de Respuesta a Incidentes Runbook de Rollback Observabilidad Preparación para el Rollback Plantilla de Post-mortemPreguntas Frecuentes
¿Qué es exactamente el MTTR?
El tiempo promedio para restaurar el servicio después de un incidente o degradación, medido desde la detección hasta la recuperación.
¿Qué es lo que más reduce el MTTR?
Un triaje claro, una fuerte observabilidad y rutas de rollback practicadas con disparadores definidos.
¿Cómo ayudan los runbooks?
Reducen la carga cognitiva bajo presión y aseguran pasos consistentes, verificación y captura de evidencia.
¿Cómo medimos el MTTR de manera justa?
Utilice definiciones consistentes de gravedad de incidentes y marcas de tiempo (detectar, mitigar, resolver). Evite mezclar categorías no relacionadas.
¿Cuál es la mejora más rápida?
Mejorar la calidad de las alertas + definir un flujo de triaje simple + añadir una ruta de rollback segura.