OpenAI ha publicado esta semana un estudio importante que realiza un análisis sistemático de las causas fundamentales del fenómeno ilusión relacionado con los modelos de lenguaje de gran tamaño. Este estudio señala que los procesos actuales de entrenamiento y evaluación tienden a recompensar las conjeturas del modelo, en lugar de fomentar el reconocimiento de su incertidumbre, lo cual es un factor principal que lleva a la inteligencia artificial a generar información errónea con excesiva confianza.
Las ilusiones de la IA se refieren a afirmaciones que el modelo genera con confianza, las cuales parecen razonables pero son incorrectas en realidad. Este problema se ha convertido en un obstáculo para que los usuarios confíen plenamente en los sistemas de IA. OpenAI define claramente la ilusión como Situaciones en las que el modelo genera respuestas irreales con confianza., y este fenómeno sigue existiendo incluso con modelos recientes como el GPT-5.
En el estudio, el primer autor del artículo, Adam Tauman Kalai, realizó una serie de pruebas y descubrió que diferentes chatbots, al ser preguntados sobre el título de su tesis doctoral, respondieron con confianza pero erróneamente, lo que revela la universalidad de este problema.
El equipo de OpenAI ha descubierto que los métodos de evaluación actuales establecen incentivos erróneos, lo que es parte de la razón por la cual el fenómeno de la alucinación persiste. Los investigadores señalan que la mayoría de los métodos para evaluar el rendimiento de los modelos incentivan a estos a hacer conjeturas en lugar de enfrentar honestamente la incertidumbre.
Esto es similar a un examen de opciones múltiples: si no se sabe la respuesta pero se adivina al azar, todavía hay una oportunidad de acertar; mientras que elegir no responder garantiza cero puntos. Por lo tanto, cuando el modelo es evaluado únicamente en función de la precisión, se fomenta la adivinanza, en lugar de admitir No sé..
Investigaciones muestran que, entre miles de preguntas de prueba, los modelos que adoptan una estrategia de adivinanza finalmente superan a los modelos que optan por aceptar con cautela la incertidumbre en la clasificación. OpenAI menciona que renunciar a una respuesta es parte de un indicador de humildad, y la humildad es uno de los valores fundamentales de la compañía.
A pesar de que los fenómenos de alucinación siguen presentes, el último modelo de OpenAI, GPT-5, ha logrado avances significativos en la reducción de estas alucinaciones. Según los datos de la tarjeta del sistema de GPT-5, la tasa de alucinaciones de este nuevo modelo ha disminuido en aproximadamente un 26% en comparación con GPT-4o, y ha mostrado un rendimiento excepcional en varias evaluaciones.
En las pruebas de LongFact-Concepts y LongFact-Objects, la tasa de alucinaciones de GPT-5 fue de solo 0.7% y 0.8%, notablemente inferior al 4.5% y 5.1% de OpenAI o3. En escenarios de alto riesgo como consultas médicas, la tasa de alucinaciones de GPT-5 es de solo 1.6%, lo que demuestra su ventaja en este campo.
OpenAI ha propuesto una solución sencilla: la penalización por errores de confianza debería ser mayor que la penalización por la incertidumbre, y además, se deben otorgar puntos por expresar adecuadamente la incertidumbre. El equipo de investigación enfatiza que simplemente aumentar la percepción de tests de incertidumbre no es suficiente; también es necesario actualizar los métodos de evaluación que actualmente se utilizan de manera generalizada.
El artículo señala que, si los principales indicadores de evaluación continúan premiando las suposiciones afortunadas del modelo, este aprenderá constantemente ese comportamiento de suposición. Por otro lado, modificar los indicadores de evaluación puede ampliar el uso de técnicas para reducir ilusiones.
La investigación también ha analizado los mecanismos por los cuales se generan las alucinaciones durante el proceso de pre-entrenamiento. OpenAI explica que los modelos de lenguaje aprenden a predecir la siguiente palabra en una vasta cantidad de textos, a diferencia del aprendizaje automático tradicional, donde cada oración no tiene etiquetas claras de verdadero/falso, y el modelo solo puede ver ejemplos positivos de un lenguaje fluido.
El equipo de investigación lo explica a través de una analogía con el reconocimiento de imágenes: si se etiquetan fotos con las fechas de cumpleaños de las mascotas, aunque el algoritmo sea altamente avanzado, los errores surgirán debido a la aleatoriedad de las fechas. De manera similar, en ejemplos como la ortografía y la puntuación, que siguen patrones consistentes, estos errores disminuyen a medida que aumenta la cantidad de datos; sin embargo, hechos aleatorios y poco frecuentes, como los cumpleaños de las mascotas, no pueden preverse únicamente a través de patrones, lo que lleva a la aparición de ilusiones.
Al mismo tiempo, OpenAI está reestructurando su equipo de comportamiento de modelos, un grupo de investigación de aproximadamente 14 personas encargado de dar forma a la interacción entre los modelos de IA y los humanos. Según un memorando interno, el equipo de comportamiento de modelos se incorporará al equipo de entrenamiento posterior y reportará al supervisor de entrenamiento posterior, Max Schwarzer.
La fundadora del equipo, Joanne Jang, lanzará un nuevo proyecto llamado OAI Labs, que se centrará en inventar y diseñar nuevos prototipos de interfaz para la colaboración entre humanos y AI. El equipo ha trabajado en dar forma a las características de personalidad de los modelos y en reducir comportamientos de adulación, abordando al mismo tiempo cuestiones como el sesgo político.
Este estudio proporciona una base teórica importante para comprender el problema de las alucinaciones en AI, lo que ayudará a impulsar mejoras en los estándares de evaluación de modelos en toda la industria. OpenAI ha declarado que continuará esforzándose para reducir aún más la tasa de error de confianza en las salidas de los modelos de lenguaje.
Los expertos de la industria consideran que, gracias a la mejora en los métodos de evaluación y la aplicación de nuevas tecnologías, el problema de las alucinaciones en la inteligencia artificial tiene esperanza de ser controlado de manera más eficaz, lo que a su vez aumentará la confianza y la utilidad que los usuarios tienen en los sistemas de IA.



