Temps Moyen de Rétablissement (MTTR)
MTTR (Délai moyen de récupération)
Le MTTR mesure la rapidité avec laquelle une équipe rétablit un service après un incident ou une dégradation.
La réduction du MTTR exige de la clarté (triage), de la rapidité (confinement) et une capacité de retour en arrière sûre (préparation au rollback).
Réduire le MTTR
- Instrumenter les signaux qui accélèrent le diagnostic (logs/métriques/traces).
- Maintenir les runbooks de réponse aux incidents à jour.
- Définir les déclencheurs de rollback et pratiquer les rollbacks.
- Utiliser les post-mortems pour améliorer les contrôles et prévenir les récidives.
Voir aussi
Runbook de réponse aux incidents Runbook de rollback Observabilité Préparation au rollback Modèle de post-mortemFAQ
Qu'est-ce que le MTTR exactement ?
Le temps moyen pour restaurer un service après un incident ou une dégradation, mesuré de la détection à la récupération.
Qu'est-ce qui réduit le plus le MTTR ?
Un triage clair, une observabilité robuste et des chemins de rollback pratiqués avec des déclencheurs définis.
Comment les runbooks aident-ils ?
Ils réduisent la charge cognitive sous pression et garantissent des étapes cohérentes, la vérification et la capture de preuves.
Comment mesurer le MTTR équitablement ?
Utiliser des définitions de gravité d'incident et des horodatages cohérents (détection, atténuation, résolution). Éviter de mélanger des catégories non liées.
Quelle est l'amélioration la plus rapide ?
Améliorer la qualité des alertes + définir un flux de triage simple + ajouter un chemin de rollback sûr.