[ad_1]
En el aprendizaje por refuerzo a partir de la retroalimentación humana, la optimización a menudo se realiza utilizando un modelo de recompensa entrenado para predecir las preferencias humanas. Dado que el modelo de recompensa es un proxy incompleto, optimizar excesivamente su valor de acuerdo con la ley de Goodhart puede degradar el rendimiento de la verdad básica. Este efecto se ha observado comúnmente, pero no se ha medido cuidadosamente debido al esfuerzo que implica recopilar datos sobre preferencias humanas. En este trabajo, utilizamos una configuración sintética en la que un modelo de recompensa fijo «estándar de oro» desempeña el papel de humanos y proporciona etiquetas utilizadas para entrenar un modelo de recompensa proxy. Examinamos cómo cambia la evaluación del modelo de recompensa de oro cuando optimizamos frente al modelo de recompensa proxy utilizando aprendizaje por refuerzo o muestreo del mejor de n. Observamos que esta relación sigue una forma funcional diferente dependiendo del método de optimización y que en ambos casos sus coeficientes escalan suavemente con el número de parámetros del modelo de recompensa. También estudiamos el impacto del tamaño del conjunto de datos del modelo de recompensa, la cantidad de parámetros de política y modelo de recompensa, y el coeficiente de penalización de KL agregado a la recompensa en la configuración de aprendizaje por refuerzo en esta relación. Examinamos las implicaciones de estos resultados empíricos para las consideraciones teóricas de la dirección de la IA.
[ad_2]