20 février 2026
4 min
Bienvenue sur LeFil.vet
L'accès au site web nécessite d'être identifié.
Merci de saisir vos identifiants de connexion.
Indiquez votre email dans le champ ci-dessous.
Vous recevrez un email avec vos identifiants de connexion.
L'autodiagnostic (de qualité) par ChatGPT, ce n'est pas pour tout de suite. Mais le développement de ce type d'outil d'intelligence artificielle (IA) dans les domaines de la santé va croissant. Et les auteurs d'une étude révélant le manque actuel de fiabilité pour un usage grand public appellent législateurs et développeurs à « considérer les tests auprès d'utilisateurs humains comme base pour une meilleure évaluation des capacités interactives, avant tout déploiement futur ». L'objectif de ces outils est effectivement de favoriser l'autoévaluation de l'état de santé des individus et de fournir des conseils personnalisés dans la prise en charge des maladies chroniques, sans l'intervention systématique d'un professionnel de santé.
Cette étude relève du domaine de la santé humaine. Mais ses conclusions sont probablement transposables à la médecine vétérinaire. Publiée en libre accès dans Nature Medicine, elle a été réalisée par une équipe de chercheurs britanniques (de l'Université d'Oxford notamment).
Trois médecins ont élaboré 10 scénarios pathologiques, de maladies courantes, dont la crédibilité a été testée et validée par 4 autres médecins. La description était précise, sur les caractéristiques du patient, son environnement de vie, l'historique médical, les signes cliniques présentés…
Les près de 3 000 participants, recrutés dans le grand public (adultes, anglophones), ont été répartis en 2 groupes, assistés ou non par un « grand modèle de langage » (LLM) dans le diagnostic de leur maladie (sans savoir lequel) : GPT-4o (OpenAI), Llama 3 (Meta) ou Command R+ (Cohere). Dans le groupe témoin, ils s'informaient sur leurs troubles de la manière de leur choix, comme ils l'auraient fait face à de réels symptômes (en pratique, un moteur de recherche, des sites d'informations médicales).
À l'issu des recherches ou des dialogues, le participant répondait à 2 questions :
Les participants commentaient également l'expérimentation, et, le cas échéant, leur confiance dans l'outil (le recommanderaient-il à leur entourage ?). Car l'objectif de ces outils d'IA, dont l'usage serait régulé, est d'apporter une assistance aux citoyens dans leur troubles de santé.
Les résultats sont globalement décevants. Avec l'assistance d'un modèle, les participants ont été capables de proposer un bon diagnostic à moins de 34,5 %. Et la bonne marche à suivre à 44,2 %.
Surtout, ils ont été moins performants que les participants du groupe témoin dans la détermination du diagnostic (voir graphique en illustration principale).
Dans les deux groupes, l'urgence de la situation était globalement sous-estimée, ce qui serait problématique en situation réelle.
L'analyse des transcriptions (dialogues avec les outils d'IA) a montré que les « patients » ne fournissaient pas toujours des informations exhaustives. De ce fait aussi, dans certains cas, l'outil interprétait mal la question de l'utilisateur. Des réponses différentes à des descriptions cliniques pourtant très similaires ont également été observées.
De plus, dans environ 66 à 73 % des cas, le modèle a correctement suggéré le diagnostic du scénario à un moment des échanges : l'utilisateur ne l'a donc pas toujours retenu.
Les interactions avec l'outil n'étaient donc pas optimales. Et il conviendrait que les modèles apprennent davantage à réagir au mode d'interrogation d'un public novice (au travers de questions comme : « ces symptômes peuvent-ils être liés au stress ? »). D'autant plus qu'ici, les scénarios retenus correspondaient à des maladies courantes, avec des signes cliniques compréhensibles et descriptibles par les participants. Dans la « vraie vie », ces maladies et ces symptômes pourront être plus atypiques. Et l'utilisateur plus stressé.
Testés seuls, avec les mêmes scénarios, et répondant directement aux mêmes questions finales, sans interaction humaine, les modèles étaient parvenus à un bon diagnostic dans 90,8 à 99,2 % des cas suivant l'outil. Et ils avaient proposé la bonne conduite à tenir dans 48,8 à 64,7 % des cas (voir graphique plus haut).
Par ailleurs, ces modèles proposent plusieurs hypothèses diagnostiques (2,21 en moyenne), ce qui oblige l'utilisateur à arbitrer lui-même.
Ces outils sont donc théoriquement performants, mais leur utilisation comme aide aboutit à des résultats de qualité très inférieure. Concrètement : de bonnes performances techniques ne suffisent pas à être performant dans l'usage attendu.
En effet, l'objectif de ces outils est d'être utilisés comme assistance, par le personnel soignant (le praticien en médecine vétérinaire) ou, comme évalué ici, par le patient (propriétaire), c'est-à-dire des personnes sans expertise médicale particulière.
En pratique, les outils actuellement disponibles n'apparaissent pas suffisamment aboutis. Pour un déploiement performant et sûr, au-delà de la programmation et l'entraînement des modèles, les auteurs de l'étude recommandent de mener des tests d'efficacité avec une population diversifiée de patients réels. En effet, les simulations réalisées par ailleurs dans cette étude, avec des patients théoriques (modélisés par IA…), ont abouti à de meilleures performances des modèles que face aux vrais utilisateurs : la machine ne copie – heureusement – pas bien l'humain.
20 février 2026
4 min
19 février 2026
3 min
18 février 2026
3 min
17 février 2026
6 min
16 février 2026
4 min