titre_lefil
Proplan

30 juin 2026

Biais cognitifs, biais algorithmiques : quand l'IA hérite de nos angles morts en endocrinologie

par Mathieu Lamant

Temps de lecture  5 min

Mathieu Lamant d'après Savvidis C. et al., WJM, 2026.
Mathieu Lamant d'après Savvidis C. et al., WJM, 2026.
 

L'aide au diagnostic par intelligence artificielle (IA) progresse vite en endocrinologie. Pour une endocrinopathie peu fréquente et de présentation polymorphe comme le syndrome de Cushing, l'argument intuitif séduit : confier à un algorithme la mise en cohérence d'examens cliniques, biochimiques et d'imagerie devrait raccourcir l'errance diagnostique.

Une revue bibliographique parue en 2026 dans World Journal of Methodology rappelle toutefois que ces outils n'arrivent pas vierges : ils héritent des raccourcis cognitifs (heuristics) de leurs concepteurs et des distorsions inscrites dans les jeux de données. Le constat éclaire la situation vétérinaire, où l'hyperadrénocorticisme canin (HAC) compte parmi les premières endocrinopathies dotées d'algorithmes d'aide diagnostique.

Un terrain particulièrement propice aux biais

Le syndrome de Cushing humain est rare (avec une incidence de 1,8 à 4,5 cas par million de personnes et par an) et ses signes ressemblent à ceux de maladies métaboliques fréquentes : obésité abdominale, hypertension, intolérance au glucose. Le délai moyen entre les premiers signes et le diagnostic atteint 34 mois. Cette configuration – maladie peu fréquente mimant des affections banales – favorise toutes les erreurs cognitives décrites en sciences de la décision : ancrage sur un diagnostic plus probable, biais de disponibilité au profit des affections « du quotidien », clôture prématurée du raisonnement.

L'hyperadrénocorticisme canin présente une physionomie comparable. Polyuro-polydipsie, polyphagie, alopécie symétrique, abdomen distendu et hépatomégalie évoquent des troubles bien plus prévalents – diabète sucré, traitements stéroïdiens, dermatoses – dont la fréquence ancre la pensée. En Angleterre, un modèle entraîné sur les données du programme VetCompass prédit la décision finale du vétérinaire avec une sensibilité de 71 %. Plus récemment, un algorithme publié par une équipe coréenne, entraîné sur des paramètres usuels (hémogramme, biochimie, analyse urinaire), a atteint 88,5 % d'exactitude chez 305 chiens, dont 152 atteints de HAC, avec une sensibilité de 83,3 % et une spécificité de 93,5 %. Des performances prometteuses, à lire à travers la grille critique que propose la revue humaine.

Quand le modèle de langage hérite des raccourcis du clinicien

Les grands modèles de langage (large language models, LLM) sont entraînés sur d'immenses corpus médicaux humains. Ils en absorbent les schémas de raisonnement, mais malheureusement aussi les biais. Face à des vignettes cliniques contenant des indices distracteurs vers un diagnostic banal, leur performance chute, par un mécanisme apparenté au biais d'ancrage : un premier diagnostic erroné continue d'influencer le raisonnement aval. La revue décrit également un biais de suggestibilité, par lequel un utilisateur insistant amène le modèle à se rallier à une hypothèse incorrecte.

Pour le vétérinaire qui interroge un assistant conversationnel sur un chien polyuro-polydipsique, la conséquence est tangible. Si le motif initial évoque d'abord un diabète sucré ou un traitement par des glucocorticoïdes, l'assistant fermera le raisonnement autour de cette hypothèse et minorera un HAC sous-jacent. Le format de la question façonne la réponse, et avec elle la suite des examens proposés.

Les biais propres aux algorithmes structurés

L'apprentissage automatique (machine learning) entraîné sur des données structurées – résultats biologiques, paramètres d'imagerie, comptes rendus – ajoute ses propres distorsions.

Les auteurs de la revue identifient d'abord le biais de spectre : les modèles développés en centres de référés voient surtout des formes franches, et leurs performances se dégradent face aux présentations frustes des consultations en structure généraliste.

Vient ensuite le biais d'exclusion de variables démographiques, écartées au nom de l'optimisation statistique alors qu'elles pèsent en pratique sur la présentation clinique.

S'y ajoute le biais de mesure. En effet, la variabilité des dosages de cortisol entre méthodes – immunoenzymologie versus chromatographie liquide couplée à la spectrométrie de masse – compromet la transférabilité d'un modèle d'un laboratoire à un autre. En contexte canin, un algorithme entraîné sur des cortisolémies issues d'un automate donné peut être déstabilisé par des valeurs produites par un autre appareil.

Enfin, les sous-types rares – sécrétion ectopique d'ACTH chez l'homme, formes adrénales versus hypophysaires chez le chien – souffrent de faibles effectifs, ce qui fragilise les modèles de diagnostic différentiel. D'autres travaux explorent des variables différentes – métabolites urinaires analysés par arbre de décision ou analyse globale des métabolites sériques par résonance magnétique nucléaire – pour distinguer l'hyperadrénocorticisme des affections mimétiques.

Rendre l'IA endocrinienne auditable

Les auteurs de la revue plaident alors pour une exigence de transparence accrue. Ils renvoient à deux cadres de référence émergents : DECIDE-AI, qui encadre l'évaluation clinique précoce des systèmes d'aide à la décision, et STARD-AI, qui actualise les standards de publication des études d'exactitude diagnostique. Tous deux imposent une description fine des données d'entraînement, des protocoles d'acquisition et des analyses de biais. Des outils d'explicabilité comme SHAP (SHapley Additive exPlanations) permettent en parallèle d'attribuer à chaque variable son poids dans la décision algorithmique, rendant visible ce qui demeurerait, sinon, une boîte noire.

Perspectives pour le vétérinaire praticien

L'IA ne tend pas à remplacer la décision du vétérinaire, elle l'éclaire. Encore faut-il en connaître les angles morts. Trois réflexes méritent d'être conservés :

  • D'abord, formuler aux assistants conversationnels des questions neutres, sans cadrage diagnostique implicite, pour limiter l'ancrage ;
  • Ensuite, considérer qu'un outil annoncé à 90 % d'exactitude sur une cohorte de référés ne livrera pas les mêmes performances en clientèle généraliste ;
  • Enfin, exiger des éditeurs de logiciels la documentation des populations d'entraînement, des méthodes de dosage de référence et des analyses de biais.

L'algorithme demeure un outil parmi d'autres ; la valeur ajoutée du vétérinaire reste de poser la bonne question avant de chercher la bonne réponse.