Un reciente informe de Wired ha revelado una peculiar instrucción incorporada en Codex CLI, una herramienta de codificación basada en inteligencia artificial. La indicación establece que el modelo no debe mencionar criaturas como goblins, gremlins o trolls a menos que sea absolutamente relevante para la consulta del usuario.
OpenAI se pronunció sobre este tema en un blog titulado "De dónde vinieron los goblins". En su publicación, se explica que el comportamiento del modelo se deriva de varios incentivos, incluyendo la personalización de la personalidad "nerd". La empresa reconoce que, sin darse cuenta, se otorgaron altas recompensas por el uso de metáforas relacionadas con criaturas, lo que provocó que el lenguaje del modelo incluyera referencias a goblins de forma incontrolada.
A pesar de que se intentó limitar este rasgo a una pequeña peculiaridad del "nerd", el blog aclara que el aprendizaje por refuerzo no garantiza que los comportamientos aprendidos se mantengan dentro de los límites deseados. Como resultado, las conversaciones de GPT, incluso sin la personalidad "nerd", fueron afectadas por esta tendencia a mencionar goblins.
Además, se ofrece un comando que permite eliminar la restricción contra la mención de goblins para aquellos que disfrutan de esta peculiaridad. Este fenómeno resalta cómo las señales de recompensa pueden influir en el comportamiento de los modelos de manera inesperada.