Avanzado - Sesión 4 | PromptingAcademy

¿Qué es RLHF?

RLHF (Reinforcement Learning from Human Feedback): Técnica para ajustar modelos usando retroalimentación humana, mejorando la alineación con valores y preferencias.
Fine-tuning: Ajuste del modelo con datos adicionales, puede combinarse con RLHF.
Calibración: Ajustar la salida del modelo para que sea más confiable y predecible.
¿Cuándo es necesario? Cuando se requiere alineación fina, reducción de sesgos o adaptación a dominios específicos.
Costes y ética: RLHF es costoso (anotadores humanos, infraestructura) y plantea retos éticos (sesgos, transparencia).

Ejemplo de experimento RLHF (alto nivel):
1. Entrena un modelo base.
2. Recoge respuestas y pide a humanos que las califiquen.
3. Ajusta el modelo usando esas calificaciones como señal de recompensa.
4. Evalúa mejoras en alineación y seguridad.

Práctica: Analiza un caso de uso y diseña un experimento RLHF a alto nivel.

Sesión 4: RLHF, fine-tuning y calibración de modelos

¿Qué es RLHF?

Video: RLHF y calibración de modelos

Quiz interactivo

Experimenta con RLHF y calibración