Sesión 6: Escalado, costos y diseño de producto
Escalado y costos en sistemas con LLMs
- Gestión de tokens: Limitar el tamaño de los prompts y respuestas para controlar costos.
- Caching y batching: Reutilizar respuestas y agrupar solicitudes para eficiencia.
- SLA y latencia: Garantizar tiempos de respuesta y disponibilidad.
- Costos por llamadas: Cada request a un LLM tiene un costo, planifica el presupuesto.
- Diseño económico: Balancea calidad, velocidad y costo según el caso de uso.
Ejemplo de plan de costos:
Caso: Asistente de soporte 24/7
- Estima número de usuarios y consultas por día.
- Calcula tokens promedio por consulta.
- Multiplica por el costo por token del proveedor.
- Considera estrategias de caching y límites de uso.
Práctica: Elabora un plan de costos para un caso de uso real.