Une étude révèle que plus de 60 % des réponses des outils d’IA générative sont incorrectes, avec Grok-3 affichant un taux d’erreur de 94 %. Les versions payantes offrent plus de réponses correctes mais aussi des erreurs plus fréquentes, remettant en question leur fiabilité pour la recherche d’actualités.
De plus en plus, la recherche d’information en ligne prend une nouvelle dimension avec l’utilisation croissante des outils d’intelligence artificielle générative. Toutefois, la question de leur fiabilité reste en suspens.
Une étude détaillée menée par Klaudia Jaźwińska et Aisvarya Chandrasekar du Tow Center for Digital Journalism de Columbia a mis en lumière des résultats préoccupants concernant cette technologie.
Les chercheuses ont évalué huit outils d’IA générative, incluant ChatGPT Search, Perplexity, et Gemini, pour déterminer leur capacité à attribuer correctement des métadonnées comme l’URL, le titre, l’éditeur original et la date à des articles d’actualité.
Un protocole simple a été établi : elles ont sélectionné des extraits d’articles provenant de sites prestigieux comme le Wall Street Journal et National Geographic, pour les soumettre ensuite à ces outils d’IA. Les résultats ont révélé que plus de 60 % des réponses étaient incorrectes.
Selon un article publié par le Columbia Journalism Review, chaque plateforme a montré des variations dans le taux d’erreur. Par exemple, Perplexity a répondu de façon incorrecte à 37 % des requêtes, tandis que Grok-3 a atteint un taux d’erreur alarmant de 94 %. Seul Copilot a refusé de répondre à plus de questions qu’il n’a fourni de mauvaises réponses.
Une autre facette intéressante concerne la comparaison entre les versions gratuites et payantes de certains outils, comme Grok et Perplexity. Les versions payantes ont répondu correctement à un plus grand nombre de questions que leurs homologues gratuits, mais elles ont également montré des taux d’erreur plus élevés. Cela met en évidence la complexité de ces outils, sur lesquels l’amélioration de la précision demeure un enjeu majeur.
Les outils de recherche basés sur l’IA utilisent des robots d’indexation similaires à ceux des moteurs de recherche traditionnels. Cependant, trois d’entre eux, dont DeepSeek et Grok, n’ont pas divulgué publiquement le nom de leurs robots, compliquant ainsi la tâche des éditeurs pour bloquer leur accès.
Pourtant, même lorsque les robots sont connus, certains outils parviennent à contourner ces restrictions. Par exemple, Perplexity Pro a correctement identifié des articles malgré une interdiction d’accès, mettant ainsi en question l’efficacité de ces interdictions.
L’étude a également révélé que même avec un partenariat officiel avec une société d’IA, la qualité de la citation des sources n’était pas nécessairement améliorée. Certains outils orientaient les utilisateurs vers des versions syndiquées des articles, plutôt que vers les sources originales, compromettant ainsi la fiabilité de l’information.
Cette étude soulève donc d’importantes questions sur l’avenir des outils d’IA en matière de recherche d’information et la nécessité de développements supplémentaires pour garantir leur fiabilité.
📌 Source(s) et inspiration(s) :
Next INpact – Les outils de recherche en ligne basés sur l’IA générative sont nuls pour citer l’actu
En Bref
- Plus de 60 % des réponses des outils d’IA générative évalués étaient incorrectes.
- Grok-3 a affiché un taux d’erreur alarmant de 94 %.
- Les versions payantes de certains outils ont montré un meilleur taux de réponses correctes, mais aussi des taux d’erreur plus élevés.
- Certains outils contournent les restrictions d’accès, remettant en question leur efficacité.
- Les partenariats avec des sociétés d’IA n’améliorent pas toujours la qualité de la citation des sources.