Sesión 6: Escalado, costos y diseño de producto

Escalado y costos en sistemas con LLMs

Gestión de tokens: Limitar el tamaño de los prompts y respuestas para controlar costos.
Caching y batching: Reutilizar respuestas y agrupar solicitudes para eficiencia.
SLA y latencia: Garantizar tiempos de respuesta y disponibilidad.
Costos por llamadas: Cada request a un LLM tiene un costo, planifica el presupuesto.
Diseño económico: Balancea calidad, velocidad y costo según el caso de uso.

Ejemplo de plan de costos:
Caso: Asistente de soporte 24/7
- Estima número de usuarios y consultas por día.
- Calcula tokens promedio por consulta.
- Multiplica por el costo por token del proveedor.
- Considera estrategias de caching y límites de uso.

Práctica: Elabora un plan de costos para un caso de uso real.

Video: Escalado y diseño de producto

Quiz interactivo

Experimenta con diseño de producto