Runbook de Pico de Costos

Pasos para diagnosticar y reducir picos de costo de LLM rápida y seguramente.
Publicado:
Admin User
Updated:
published

Manual de Ejecución para Picos de Costo

  • Congelar cambios y actualizaciones de enrutamiento
  • Identificar los principales llamadores y generadores de tokens
  • Aplicar presupuestos/límites de tasa/almacenamiento en caché
  • Verificar que el costo por tarea regrese a la línea base
  • Capturar evidencia y actualizar controles

Relacionado

Control de Picos de Costo (LLMOps) Costo por Tarea Manual de Ejecución para Reversión de IA

Preguntas Frecuentes

¿Cuál es el paso de contención inmediato?
Congelar los cambios de enrutamiento/prompt y aplicar presupuestos o límites para detener el gasto descontrolado.

¿Cómo encontramos la causa rápidamente?
Identificar los principales llamadores, prompts con alto consumo de tokens y patrones de reintento; comparar con la línea base.

¿Cuándo revertimos?
Si las señales de costo superan los umbrales y la verificación confirma una regresión en el comportamiento de enrutamiento/prompt.

¿Qué evidencia debemos capturar?
Versiones de enrutamiento, versiones de prompt, principales puntos finales, gráficos de costo por tarea y acciones tomadas.

¿Cuál es el paso de prevención?
Añadir puertas de presupuesto + despliegue canario + alertas de monitoreo para el costo unitario.