Sesión 4: RLHF, fine-tuning y calibración de modelos
¿Qué es RLHF?
- RLHF (Reinforcement Learning from Human Feedback): Técnica para ajustar modelos usando retroalimentación humana, mejorando la alineación con valores y preferencias.
- Fine-tuning: Ajuste del modelo con datos adicionales, puede combinarse con RLHF.
- Calibración: Ajustar la salida del modelo para que sea más confiable y predecible.
- ¿Cuándo es necesario? Cuando se requiere alineación fina, reducción de sesgos o adaptación a dominios específicos.
- Costes y ética: RLHF es costoso (anotadores humanos, infraestructura) y plantea retos éticos (sesgos, transparencia).
Ejemplo de experimento RLHF (alto nivel):
1. Entrena un modelo base.
2. Recoge respuestas y pide a humanos que las califiquen.
3. Ajusta el modelo usando esas calificaciones como señal de recompensa.
4. Evalúa mejoras en alineación y seguridad.
Práctica: Analiza un caso de uso y diseña un experimento RLHF a alto nivel.