High-Tech

Pourquoi ChatGPT se trompe une fois sur deux en cas d’urgence médicale ?

8 min de lecture
IA erreur urgences médicales

© Unsplash

Le 7 janvier 2026, OpenAI a lancé aux États-Unis ChatGPT Health, une expérience pensée pour guider des utilisateurs sur le niveau d’urgence de leurs symptômes. Quelques semaines plus tard, deux études publiées en février 2026 ont mis des chiffres sur ce que beaucoup soupçonnaient déjà en tapant leurs maux dans un chatbot entre deux notifications: en matière de diagnostic ou de triage, l’IA peut se tromper, et parfois lourdement.

Sur des situations de grande urgence, ChatGPT Health a recommandé un niveau d’urgence insuffisant dans 51,6% des cas, suggérant un simple rendez-vous médecin plutôt qu’une orientation vers les urgences. Dans une autre étude, lorsque des participants jouaient des scénarios de symptômes et interrogeaient ChatGPT, la proposition de diagnostic n’était correcte que dans 37% des cas. Dit autrement: même si ces outils ont l’air sûrs d’eux, ils restent surprenamment fragiles dès qu’on sort du laboratoire.

À LIRE AUSSI Des fuites sur Luigi’s Mansion annonce un jeu de Switch 2 et un film animé
Des fuites sur Luigi’s Mansion annonce un jeu de Switch 2 et un film animé

Le paradoxe, c’est que ces usages explosent. OpenAI a indiqué qu’en janvier 2026, environ 40 millions d’utilisateurs quotidiens interrogeaient ChatGPT sur des sujets de santé. On comprend la tentation: c’est immédiat, c’est lisible, et ça ne vous met pas en attente avec une musique de standard. Mais les données récentes rappellent pourquoi demander un diagnostic médical à une IA grand public peut devenir une mauvaise idée, surtout quand la situation est urgente.

Quand l’IA sous-estime l’urgence,

L’étude portant sur ChatGPT Health s’est appuyée sur 960 requêtes couvrant 30 situations cliniques, avec des variations dans la manière de décrire les symptômes (données subjectives ou plus objectives), et des paramètres comme le sexe, l’origine ethnique ou l’accès aux soins. Le résultat le plus marquant concerne la catégorie où l’on n’a pas le droit à l’à-peu-près: les cas où il faut aller aux urgences.

Dans ces situations de grande urgence, l’outil a sous-recommandé l’urgence dans 51,6% des cas, préférant orienter vers un rendez-vous médical classique. Sur mobile, entre deux messages, ce genre de réponse peut donner une fausse sensation de sécurité et pousser à attendre, alors que le temps compte. Et c’est là que le côté très “réponse propre et structurée” des chatbots devient un piège: plus c’est fluide, plus cela semble fiable.

À LIRE AUSSI Offensive stratégique dans les data centers américains : l’initiative de Max Hervé George
Offensive stratégique dans les data centers américains : l’initiative de Max Hervé George

Des performances inégales selon les scénarios

L’étude met aussi en évidence une réalité moins visible quand on ne retient qu’un chiffre global: l’IA peut être très bonne sur certains tableaux, et déroutante sur d’autres. Sur des urgences telles que l’AVC, l’anaphylaxie, la méningite ou la dissection aortique, ChatGPT Health a été correct dans 100% des cas testés. Sur le papier, c’est rassurant.

Mais l’autre colonne du tableau calme vite l’enthousiasme. L’exacerbation de l’asthme donne lieu à 84,8% d’erreurs. Et l’étude signale une confusion possible entre acidocétose diabétique et simple hyperglycémie, avec une recommandation de consultation non urgente. On se retrouve face à un outil qui peut réussir un cas emblématique et échouer sur un cas pourtant fréquent, ce qui rend l’expérience imprévisible pour un usage grand public.

À LIRE AUSSI Pourquoi le prix des PlayStation 5 a-t-il encore augmenté de 100 euros !?
Pourquoi le prix des PlayStation 5 a-t-il encore augmenté de 100 euros !?

Le diagnostic “à la maison” échoue souvent parce que l’humain ne sait pas quoi décrire

Une seconde étude, basée sur 1 300 participants au Royaume-Uni, a évalué l’autodiagnostic à partir de 10 scénarios fictifs validés par des médecins. Les participants devaient interroger ChatGPT comme le ferait une personne inquiète devant des symptômes. Verdict: 37% de diagnostics corrects avec ChatGPT, contre 45% avec une recherche en ligne classique (moteurs et informations de santé), dans ce cadre précis.

Le détail est encore plus parlant: lorsque les symptômes étaient listés “proprement” par des médecins, l’IA pouvait grimper à 95% de réussite. Autrement dit, l’IA n’est pas seulement limitée par son modèle, elle est limitée par notre façon de lui parler. Dans l’étude, les participants oubliaient des précisions, posaient des questions fermées, se focalisaient sur une piste (par exemple le stress) ou choisissaient mal parmi des suggestions. Le maillon faible, très souvent, devient l’interface humaine.

Sur des sujets sensibles comme le suicide, l’incohérence devient un danger

Les résultats rapportent aussi des réponses imprévisibles concernant les idées suicidaires. Dans certains cas, l’outil ne perçoit pas le risque, y compris lorsque la volonté est formulée de façon claire, avec un exemple du type “envisage prendre des comprimés”. À l’inverse, il détecterait mieux le risque si la formulation est plus vague.

À LIRE AUSSI Mario Bros Wonder sur Switch 2, le jeu vaut-il la peine ?
Mario Bros Wonder sur Switch 2, le jeu vaut-il la peine ?

Plus problématique encore, l’outil peut omettre des éléments d’orientation comme un numéro d’aide psychologique. Dans un premier contact, quand une personne cherche un repère rapide, ce type d’oubli n’est pas un simple “bug”: c’est une brèche de sécurité. Et certaines observations soulignent une incohérence dérangeante: des alertes d’urgence peuvent être plus fréquentes dans des situations à faible risque que dans des situations à haut risque. Ce n’est pas le genre de loterie qu’on veut dans une conversation de santé.

Plus de données ne veut pas forcément dire de meilleures réponses

Instinctivement, on se dit qu’il suffit de donner plus d’informations à l’IA pour qu’elle se trompe moins. L’étude sur ChatGPT Health nuance ce réflexe: l’ajout de données dites objectives améliore les performances dans plusieurs cas, mais dans les urgences, le taux de réponses correctes peut diminuer. Cela ressemble à un effet secondaire de la complexité: plus on charge la description, plus l’outil peut mal pondérer ce qui compte.

À noter aussi: les chercheurs n’ont pas observé de biais lié à l’origine ethnique ou à l’assurance dans ce cadre de test. C’est un point important, mais qui ne change pas le cœur du sujet: même sans biais démographique détecté, l’outil peut se tromper sur l’urgence elle-même, et c’est là que le risque se concentre.

Pourquoi il ne faut pas demander un diagnostic médical à une IA ?

Ces résultats ne signifient pas que l’IA est inutile en santé. Ils rappellent surtout que les IA généralistes, même “spécialisées” via une interface, ne sont pas calées sur la réalité d’un échange médical: questions de relance, examen, chronologie, signaux faibles. Et même quand elles affichent un ton assuré, elles peuvent produire une recommandation trop faible (attendre au lieu d’aller aux urgences) ou trop forte (surévaluer des cas non urgents, avec 64,8% de surévaluation sur des situations non urgentes dans l’étude).

Pour garder le meilleur de ces outils sans tomber dans le piège, une règle simple aide: utiliser l’IA comme un assistant de préparation, pas comme un verdict. Concrètement, elle peut servir à structurer des informations avant un rendez-vous, à clarifier des termes, ou à lister des éléments à surveiller. Mais elle ne doit pas se substituer à une décision d’orientation en cas de symptômes inquiétants.

  • Éviter de demander un diagnostic définitif, surtout si la situation semble urgente.
  • Privilégier une aide pour organiser les symptômes: début, durée, intensité, facteurs aggravants.
  • Ne jamais retarder une prise en charge si une urgence est possible, même si l’IA “rassure”.
  • Se méfier des réponses très lisses: la forme ne garantit pas la fiabilité.

Les autorités de santé, en France, ont d’ailleurs engagé une évaluation de l’usage direct par les patients et encadrent l’usage chez les soignants lorsqu’il reste raisonné. Le message sous-jacent est cohérent avec les chiffres de février 2026: l’IA peut briller sur des QCM ou des scénarios bien cadrés, puis trébucher dès qu’on lui demande de gérer la vraie vie, avec ses zones grises et ses détails manquants.

À mesure que des millions de personnes intègrent ces chatbots dans leurs réflexes de santé, la question n’est plus seulement technologique. Elle devient culturelle: apprendre à reconnaître ce que l’IA sait faire, et surtout ce qu’elle ne sait pas garantir. En attendant des évaluations de sécurité plus systématiques, le bon usage ressemble moins à un “médecin de poche” qu’à un outil de prise de notes sophistiqué, pratique, mais à garder à sa place.

🙂 Vous avez aimé cet article ?
Suivez WorldOfGeek sur Google Actualités pour retrouver nos prochains articles directement dans votre fil. C'est gratuit et ça mange pas de pain 🥖.
Photo de Augustin Pointillart

Augustin Pointillart

Rédacteur / Pro Gamer
Salut les Geeks, je m'appelle Augustin et je suis un rédacteur passionné de WoG. L'univers des jeux vidéos et des mangas à bercer toute ma vie, et aujourd'hui j'essaye de vous faire partager ma passion à travers mes articles.
Pour aller plus loin