Runbook de Pico de Costos
Manual de Ejecución para Picos de Costo
- Congelar cambios y actualizaciones de enrutamiento
- Identificar los principales llamadores y generadores de tokens
- Aplicar presupuestos/límites de tasa/almacenamiento en caché
- Verificar que el costo por tarea regrese a la línea base
- Capturar evidencia y actualizar controles
Relacionado
Control de Picos de Costo (LLMOps) Costo por Tarea Manual de Ejecución para Reversión de IAPreguntas Frecuentes
¿Cuál es el paso de contención inmediato?
Congelar los cambios de enrutamiento/prompt y aplicar presupuestos o límites para detener el gasto descontrolado.
¿Cómo encontramos la causa rápidamente?
Identificar los principales llamadores, prompts con alto consumo de tokens y patrones de reintento; comparar con la línea base.
¿Cuándo revertimos?
Si las señales de costo superan los umbrales y la verificación confirma una regresión en el comportamiento de enrutamiento/prompt.
¿Qué evidencia debemos capturar?
Versiones de enrutamiento, versiones de prompt, principales puntos finales, gráficos de costo por tarea y acciones tomadas.
¿Cuál es el paso de prevención?
Añadir puertas de presupuesto + despliegue canario + alertas de monitoreo para el costo unitario.