Domaine et contexte scientifiques :
Le diagnostic assisté par ordinateur à pour objectif de réduire les erreurs humaines et de fournir des résultats cohérents et reproductibles, améliorant ainsi la qualité globale des soins dans le domaine de la neurologie grâce, par exemple, à une détection plus précoce des troubles cérébraux et à des diagnostics plus précis. Cependant, le développement d'un outil de diagnostic assisté par ordinateur performant peut se heurter à plusieurs difficultés. Il faut notamment disposer d'une grande base de données suffisamment diverse pour entraîner efficacement les algorithmes d'IA et garantir la précision et la fiabilité de l'outil dans des contextes cliniques réels. Dans un domaine critique comme la santé, la décision d’un tel outil doit également pouvoir être expliquée afin d’assurer la transparence et la confiance dans le système.
Mots-clefs :
réseaux de neurones, explicabilité, graphes, diagnostic
Objectifs de la thèse :
L’objectif pour ce projet est de mettre sur pied un modèle de diagnostic des pathologies cérébrales à partir de données multimodales IRM et cliniques. Le modèle sera générique et pourra donc être appliqué au diagnostic de différentes pathologies cérébrales (sclérose en plaques, Alzheimer, commotions cérébrales,...). Le modèle devra aussi à la fois être explicable et interprétable. Pour cela, nous développerons des approches par graphes permettant de décomposer le problème afin de pouvoir mieux l’expliquer. L'apprentissage du réseau de neurone nécessitera la mise en place d’une grande base de données normatives issue de l’agrégation de différentes bases d'ores et déjà à notre disposition.
Verrous scientifiques :
Si de nombreuses méthodes d'apprentissage ont été proposées pour le diagnostic, ce projet comporte d’importants verrous que peu de chercheurs peuvent surmonter. Nous en voyons principalement cinq(5).
- Développement d'un modèle prédictif explicable : Créer un modèle de diagnostic qui non seulement prédit avec précision mais est également explicable et transparent, facilitant ainsi la confiance et l'adoption par les professionnels de santé. Il doit également tenir compte de co-variables en tout genre comme l’âge, le sexe, des antécédents médicaux et des tests cognitifs. C’est la raison pour laquelle nous souhaitons explorer les réseaux de neurones par graph ainsi que les approches de type “dropout variationnel” [4][5].
- Métriques quantitatives : les métriques de diffusion ne sont pas des mesures quantitatives. Bien qu’elles aient été amplement démontrées sensibles à des atteintes à l’intégrité de la matière blanche [2], les mesures de diffusion prises isolément chez un seul sujet (même très malade) ne peuvent servir à diagnostiquer une maladie comme le ferait une mesure de diabète et de cholestérol. Or, nous croyons que cet important verrou peut être résolu grâce à l’utilisation d’une base de données normative.
- Harmonisation des données : il faut assurer la compatibilité et la comparabilité des données recueillies de différentes sources, malgré les variations potentielles dans les protocoles d'IRM et les conditions d'imagerie. Pour ce faire, cela requiert une étape d’harmonisation souvent sujette à des erreurs [1]. Ici aussi, le projet Acuity a donné naissance à une méthode d’harmonisation de données de diffusion particulièrement efficace du nom de ClinicalComBAT[3]. Cette méthode est opérationnelle à ce jour.
- Accès à des données normatives : pour obtenir une base de données normative, il faut avoir accès à des données d’IRM de diffusion d’un grand nombre de personnes ne souffrant d’aucune maladies neuro-dégénératives connues, d’âge et de sexe différent. Bien que de telles bases de données existent (UkBiobank, TractoInferno, HCP, etc) certains sont payantes (e.g. UkBiobank) et d’autres requièrent des autorisations pour y avoir accès (e.g. TackTBI). De plus, traiter un grand nombre de données de diffusion est particulièrement difficile considérant qu’un pipeline de diffusion typique prend jusqu’à 12 heures pour traiter les données d’un seul sujet. Or, suite à un projet de 3 ans du nom de “Acuity”, l’équipe de l’Université de Sherbrooke dispose de données normatives prêtes à être utilisées.
- Accès à des données de patients malades : Collecter suffisamment de données IRM de patients atteints de maladies spécifiques telles que la maladie d'Alzheimer, la sclérose en plaques, et la maladie de Parkinson pour tester et affiner le modèle diagnostic. Or, suite au même projet “Acuity”, l’équipe de l’Université de Sherbrooke dispose de données de différentes pathologies comme l’Alzheimer, la schizophrénie, la sclérose en plaques et les commotions cérébrales.
Contributions originales attendues :
La construction d’une base de données référence harmonisée contenant des métriques de diffusion mesurées dans 30 à 40 régions de la matière blanche. Le développement d’une méthode, basée sur les réseaux de neurones par graphe, de sélection de région et de métrique issues des IRM de diffusion et des données cliniques permettant de diagnostiquer les pathologies cérébrales. Programme de recherche et démarche scientifique proposée :
La thèse porte sur le développement de techniques d’apprentissage appliquées au diagnostic et au pronostic de maladies cérébrales comme l’Alzheimer, la sclérose en plaques et les commotions cérébrales. L’objectif pour ce projet est de mettre sur pied un modèle possédant les caractéristiques suivantes :
- être suffisamment générique pour s’adapter à différentes maladies;
- pouvoir incorporer autant des données médicales tabulaires (âge, sexe, antécédents médicaux, tests cognitifs, etc.) que des images;
- effectuer des prédictions facilement interprétables par un expert (donc éviter l’effet “boîte noire” des réseaux de neurones modernes);
- s’appuyer sur des bases de données normatives.
Pour ce faire, des images par résonance magnétique de diffusion acquises chez plus de 40,000 sujets souffrant (ou non) d’une maladie cérébrale seront utilisées. À l’aide d’un algorithme d’harmonisation développé à l’Université de Sherbrooke, la personne doctorante devra construire une base de données de référence harmonisée contenant des métriques de diffusion mesurées dans 30 à 40 régions de la matière blanche. Par la suite, à l’aide de réseaux de neurones par graphe et du dropout variationnel, il faudra élaborer une méthode permettant de sélectionner un nombre limité de régions et de métriques de diffusion caractéristiques d’une maladie. Pour ce graphe, chaque région du cerveau est un nœud dont le vecteur de caractéristiques est constitué des données de diffusion normalisées et le nœud général est constitué d’un vecteur de données médicales. La personne doctorante devra également explorer la possibilité d’apprendre le poids des connexions entre les régions du cerveau afin de mieux comprendre leur interaction. À noter qu’aucune étude de ce type n’a été menée dans le passé. Les données utilisées pour ce projet proviennent de nombreuses bases de données comme ADNI (Alzheimer), PPMI (Parkinson), MyeloInferno (Sclérose en plaques), UkBiobank (sujets CAMCAN (sujets sains), NIMH (sujets sains), TractTBI (commotions cérébrales), MRN (Schizophrenie), et Panthéra (sujets sains). Les données de diffusion ont déjà été traitées et un module d’assurance qualité a été utilisé pour retirer les résultats erronés. Aussi, la méthode d’harmonisation du nom de ClinicalCombat, est parfaitement opérationnelle. Par conséquent, la personne doctorante sera prête à travailler dès le jour 1. À noter que divers intervenants en santé du Centre Hospitalier Universitaires de Sherbrooke et de Montréal seront également impliqués
Profil du candidat recherché (prérequis) :
- Formation apprentissage/mathématiques appliqués/science de données
- Capacité à travailler dans un environnement pluridisciplinaire (ingénieurs/chercheurs en
science de données/médecins)
- Autonomie
- De bonnes capacités de rédaction et de présentation des travaux sont attendues.
Références bibliographiques sur le sujet de thèse :
[1] Kim et al. Empirical assessment of the assumptions of ComBat with diffusion tensor imaging, Journal of Medical Imaging, Vol. 11, Issue 2, 024011 (April 2024)
[2] Kamagata et al. Diffusion Magnetic Resonance Imaging-Based Biomarkers for Neurodegenerative Diseases, Int J Mol Sci. 2021 May; 22(10): 5216.
[3] Descoteaux et al. “Harmonization of diffusion MRI is crucial for white matter tract normative assessment in ADNI” AAIC 2024
[4] Tran et al Enhancing Neural Network Explainability with Variational Autoencoders, AIAA 2021-1886
[5] Agarwal et al Evaluating explainability for graph neural networks, Scientific Data volume 10, Article number: 144 (2023)