ChatGPT o3 hallucine plus que jamais : un paradoxe pour une IA présentée comme « surpuissantes »

OpenAI a lancé il y a 3 jours trois nouveaux modèles d’IA : o3, o4-mini et o4-mini-high, capables d’imiter la réflexion humaine. Mais l’entreprise fait face à un défi important avec son modèle o3, qui présente un taux élevé d’hallucinations. Ces réponses incorrectes atteignent 33 % lors de tests sur le benchmark PersonQA, conçu pour évaluer la précision des connaissances sur les personnalités.

Défis et percées des modèles IA d'OpenAI face aux hallucinations
Enregistrer pour plus tard (0)
Please login to bookmark Close

Le niveau d’hallucination de o3 dépasse largement celui des versions précédentes, telles que le o1 et le o3-mini, qui affichent respectivement 16 % et 14,8 %, tandis que le modèle o4-mini fait pire avec 48 % d’hallucinations.

OpenAI reconnaît ces difficultés et mentionne une perturbation dans la performance des modèles de raisonnement plus puissants, un phénomène que l’entreprise ne parvient pas encore à élucider complètement.

Une étude récente évoque la possibilité que l’excès de données puisse dégrader la qualité des IA. Ce paradoxe est renforcé par le fait que, bien que ces modèles brillent dans des domaines comme la programmation et les mathématiques, ils génèrent également un nombre plus élevé tant d’affirmations exactes qu’inexactes.

En parallèle, Translucide, un laboratoire indépendant de recherche, appuie ce constat en effectuant ses propres analyses. Leurs essais révèlent que le modèle o3 peut inventer des scénarios, prétendant par exemple exécuter du code sur un MacBook Pro, une tâche qu’il ne peut réellement accomplir.

Neil Chowdhury, ancien employé d’OpenAI et chercheur chez Translucide, note que le type d’apprentissage par renforcement utilisé pourrait en fait amplifier certains problèmes normalement atténués par les méthodes standards de formation. Sarah Schwettmann, cofondatrice de Translucide, ajoute que ce taux d’hallucination risque de restreindre l’utilité pratique du modèle o3.

En dépit de ces complications, Kian Katanforoosh, professeur à Stanford, continue de tester le modèle au sein de ses équipes de programmation. Il admet que bien que l’IA surpasse la concurrence à certains égards, elle tend à générer des liens web qui ne fonctionnent pas correctement.

Pour pallier ces lacunes, une des pistes envisagées consiste à conférer à ces modèles une capacité de recherche web. GTA-4o, un autre modèle d’OpenAI, démontre l’efficacité de cette approche avec un taux de précision de 90 % sur SimpleQA, un autre benchmark de l’entreprise.

Selon Niko Felix, porte-parole d’OpenAI, la résolution des hallucinations reste un domaine de recherche actif et constant. OpenAI s’engage à améliorer la précision et la fiabilité de ses modèles pour répondre aux exigences croissantes du marché.

📌 Source(s) et inspiration(s) :

Les Numériques – Les modèles o3 et o4-mini d’OpenAI ont un niveau inhabituel d’hallucinations

En Bref

  • OpenAI fait face à un défi avec son modèle o3, affichant 33 % d’hallucinations sur le benchmark PersonQA.
  • Les modèles précédents, o1 et o3-mini, présentaient des taux d’hallucinations de 16 % et 14,8 % respectivement.
  • Une étude suggère que l’excès de données pourrait affecter la qualité des IA, malgré de bonnes performances dans les domaines de la programmation et des mathématiques.
  • Translucide a confirmé que le modèle o3 invente des scénarios fictifs, limitant son utilité pratique.
  • OpenAI s’engage à améliorer la précision et la fiabilité de ses modèles pour répondre aux exigences du marché.
Vous appréciez nos contenus ?

Enjoy Unlimited Digital Access

Read trusted, award-winning journalism. Just $2 for 6 months.
Already a subscriber?
Partager l'article

Quel est votre avis sur le sujet ?

Commenter

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *