Enrutamiento de Modelo
Enrutamiento de Modelos
El enrutamiento de modelos elige qué modelo o ruta usar basándose en la tarea, el riesgo, el costo y la latencia.
El enrutamiento empresarial está controlado por políticas, presupuestos y señales de monitoreo.
Ver también
Controles de Costo y Latencia Estrategia de Respaldo (LLMOps) Control de Picos de Costo (LLMOps)Preguntas Frecuentes
¿Qué es el enrutamiento de modelos?
Seleccionar un modelo/ruta basándose en los requisitos de tarea, riesgo, costo y latencia.
¿Cómo controlamos el riesgo de enrutamiento?
Políticas, presupuestos, lanzamientos canary y disparadores de reversión basados en monitoreo.
¿Cuál es un modo de fallo común?
Cambios de enrutamiento sin líneas base de evaluación o monitoreo de costos.
¿Cómo manejamos los respaldos?
Definir el comportamiento de tiempo de espera y degradación; registrar y medir las tasas de respaldo.
¿Cuál es la primera mejora?
Crear un enrutamiento de 2 niveles (rápido/barato vs alta calidad) con reglas de tarea claras.