OpenAI reconoce que sus modelos de razonamiento más recientes, o3 y o4-mini, presentan mayores errores
Según las propias pruebas de OpenAI, sus modelos de razonamiento más recientes, o3 y o4-mini, presentan alucinaciones significativamente mayores que o1.
El system card de OpenAI detalla los resultados de la evaluación PersonQA, diseñada para detectar alucinaciones (resultados incorrectos o engañosos que generan los modelos de IA). Según los resultados de esta evaluación, la tasa de alucinaciones de o3 es del 33 % y la de o4-mini del 48 %, casi la mitad de las veces. En comparación, la tasa de alucinaciones de o1 es del 16 %, lo que significa que o3 alucinó aproximadamente el doble.
La system card indicó que o3 «tiende a hacer más afirmaciones en general, lo que resulta en afirmaciones más precisas, así como en afirmaciones más inexactas o alucinadas». Sin embargo, OpenAI desconoce la causa subyacente y simplemente afirma: «Se necesita más investigación para comprender la causa de este resultado». Los modelos de razonamiento de OpenAI se presentan como más precisos que sus modelos sin razonamiento, como GPT-4o y GPT-4.5, porque utilizan más computación para «dedicar más tiempo a pensar antes de responder», como se describe en el anuncio de o1. En lugar de depender principalmente de métodos estocásticos para proporcionar una respuesta, los modelos de la serie o están entrenados para «refinar su proceso de pensamiento, probar diferentes estrategias y reconocer sus errores».
Sin embargo, la tarjeta de sistema para GPT-4.5, publicada en febrero, muestra una tasa de alucinaciones del 19% en la evaluación PersonQA. La misma tarjeta también lo compara con GPT-4o, que tuvo una tasa de alucinaciones del 30 %.
Vía – Mashable