Tempo Medio di Recupero (MTTR)
MTTR (Tempo Medio di Ripristino)
MTTR misura la velocità con cui un team ripristina il servizio dopo un incidente o un degrado.
Ridurre l'MTTR richiede chiarezza (triage), velocità (contenimento) e inversione sicura (prontezza al rollback).
Ridurre l'MTTR
- Strumentare segnali che accelerano la diagnosi (log/metriche/tracce).
- Mantenere aggiornati i runbook di risposta agli incidenti.
- Definire i trigger di rollback e praticare i rollback.
- Utilizzare i postmortem per migliorare i controlli e prevenire le ripetizioni.
Vedi anche
Runbook di Risposta agli Incidenti Runbook di Rollback Osservabilità Prontezza al Rollback Modello di PostmortemFAQ
Cos'è esattamente l'MTTR?
Il tempo medio per ripristinare il servizio dopo un incidente o un degrado, misurato dal rilevamento al ripristino.
Cosa riduce maggiormente l'MTTR?
Triage chiaro, forte osservabilità e percorsi di rollback praticati con trigger definiti.
Come aiutano i runbook?
Riducono il carico cognitivo sotto pressione e garantiscono passaggi coerenti, verifica e acquisizione delle prove.
Come misuriamo l'MTTR in modo equo?
Utilizzare definizioni di gravità degli incidenti e timestamp coerenti (rilevare, mitigare, risolvere). Evitare di mescolare categorie non correlate.
Qual è il miglioramento più rapido?
Migliorare la qualità degli avvisi + definire un semplice flusso di triage + aggiungere un percorso di rollback sicuro.