Apprentissage profond pour l’épidémiologie moléculaire

Résultats scientifiques écologie évolutive & Biodiversité

Des chercheurs ont publié dans Nature Communications un article portant sur l’utilisation de l’apprentissage profond (deep learning) pour quantifier la dynamique des flambées épidémiques, à partir de phylogénies de souches pathogènes prélevées dans la population hôte. La difficulté des modèles imposait jusqu’alors des calculs complexes et des données limitées. Ici, un réseau de neurones est utilisé pour apprendre à prédire en quelques secondes les paramètres épidémiologiques, à partir de simulations.

L’épidémiologie moléculaire se base sur la phylogénie de souches de pathogènes (par exemple souches du VIH) prélevées dans la population hôte (par exemple un pays ou un groupe de risque donné). Cette phylogénie est construite par des méthodes maintenant classiques, à partir des séquences génétiques du virus ou de la bactérie étudiés. Chaque feuille de la phylogénie correspond à une souche prélevée chez un patient donné, et chaque nœud de l’arbre correspond à la transmission du pathogène d’un patient à un autre patient. A l’aide des dates de prélèvement des souches, on peut dater l’ensemble des nœuds (ou transmissions) de l’arbre. Ces données d’acquisition facile grâce aux méthodes modernes de séquençage, sont plus riches que les classiques données de prévalence, puisqu’elles nous renseignent sur les transmissions entre patients (Figure 1). Elles sont très utilisées pour étudier la diffusion des épidémies, par exemple d’Ebola ou du SARS-CoV-2, ou encore de la tuberculose. Elles permettent notamment d’étudier la diffusion des épidémies d’une région à l’autre, à quelle vitesse les patients sont échantillonnés et traités, ou si la transmission est plus rapide dans certaines sous-populations. Ces résultats aident à étudier les flambées épidémiques, à comparer l'impact des politiques de santé et à en concevoir de nouvelles. Ces approches ont été très utilisées pendant l’épidémie du SARS-CoV-2, avec de nombreuses phylogénies publiées dans la presse grand public et montrant l’apparition des nouveaux variants à la surface du globe.

Plus récemment s’est développé la « phylodynamique », dont l’objectif est d’intégrer les modèles épidémiologiques classiques, basés sur les données de prévalence, dans un contexte phylogénétique plus riche où l’on dispose d’arbres de transmission. La difficulté de ces approches est d’ordre mathématique. A l’exception des modèles les plus simples, on ne dispose pas d’expressions mathématiques simples pour calculer la vraisemblance des données et estimer les paramètres du modèle. Les auteurs de la publication se sont basés sur une approche radicalement différente, qui repose sur l’utilisation conjointe de simulations et d’apprentissages à l’aide de réseaux de neurones profonds. Ce type d’approche se retrouve dans des domaines bien différents, comme la prévision météorologique par exemple. Le modèle n’est pas disséqué mathématiquement, mais simplement utilisé pour simuler un grand nombre de jeux de données correspondant à différentes valeurs des paramètres. Dans un deuxième temps, une architecture neuronale est employée pour apprendre à partir des données simulées (pour lesquelles on connaît la valeur des paramètres) à prédire les valeurs des paramètres de données réelles. Ces architectures réalisent ainsi une forme d’interpolation non-linéaire entre des situations simulées connues. La phase d’apprentissage est lourde en temps de calcul, car il faut simuler de nombreuses données. Mais la phase de prédiction est extrêmement rapide, ce qui est clef ici car l’objectif majeur est la surveillance épidémique.

La difficulté de cette approche dans le cadre de l’épidémiologie moléculaire est que la donnée est une phylogénie ou un arbre. Or  les architectures neuronales usuelles proposent en entrée un vecteur (ou suite) de nombres réels, il fallait donc coder les arbres phylogéniques sous forme de vecteurs,  ce codage se prêtantau mieux à l’apprentissage. Ce travail,  au coeur de la thèse de Jakub Voznica, a consisté à tester plusieurs codages classiques, sans succès,  pour finalement proposer un nouveau codage très performant avec une architecture neuronale convolutive, d’un type proche des architectures qui ont fait le succès de l’apprentissage profond en analyse d’images. Avec ce codage et cette architecture, les résultats sont plus précis que ceux obtenus avec les méthodes Bayésiennes classiques, qui constituent la référence dans le domaine mais qui sont très lourdes en temps calcul (plusieurs jours), même avec des données limitées (quelques centaines de séquences de pathogènes). Avec l’approche publiée et implémentée dans le logiciel « PhyloDeep », il est possible d’analyser en quelques minutes des phylogénies portant sur des milliers de séquences. Ce logiciel a été appliqué avec succès à des données prélevées parmi les MSM (Men having Sex with Men, ou hommes ayant des rapports sexuels avec les hommes) de la ville de Zürich. PhyloDeep a permis de démontrer l’existence d’une sous-population (les super-spreaders), de taille limitée, mais ayant un rôle majeur dans la diffusion de l’épidémie, du fait de la fréquence et du nombre de ses partenaires.

Arbre de transmission du VIH-1 parmi les MSM de la ville de Zürich

FIGURE 1 : Arbre de transmission du VIH-1 parmi les MSM de la ville de Zürich

Phylogénie de 200 souches du VIH-1 prélevées dans la population MSM de la ville de Zürich. Chaque feuille correspond à une souche, chaque nœud de l’arbre à une transmission entre deux patients. Cet arbre est daté, l’échelle concentrique (de 0 à 40) est en mois. L’analyse visuelle de l’arbre montre que deux modes de transmissions coexistent : (1) des transmissions régulières (par exemple dans le cercle bleu) et d’autres (2) beaucoup plus rapides (par exemple dans l’ellipse rouge). PhyloDeep prédit qu’environ 8 % de la population est de type super-spreader et transmet le virus presque 10 fois plus rapidement que le reste de la population.
FIGURE 2 : Codage des arbres et apprentissage

FIGURE 2 : Codage des arbres et apprentissage

Cette figure extraite de la publication résume le codage des arbres (en haut) et le réseau neuronal convolutif (en bas) utilisé pour apprendre à partir de ce codage. Les arbres sont ainsi réordonnés (les feuilles les plus profondes sont à gauche) puis transformés en vecteurs en mesurant alternativement la distance à la racine des feuilles et des nœuds. Ce codage dit CBLV (Compact Bijective Ladderized Vector) permet de reconstruire l’arbre et ne perd donc aucune information. L’architecture prend en entrée un codage d’arbre et donne deux types de sortie, soit le meilleur modèle pour le jeu de données considéré (par exemple un modèle de type super-spreader), soit les paramètres estimés pour ces données dans le  modèle choisi par l’utilisateur. Cette architecture est une forme relativement standard de réseau convolutif, qui extrait les caractéristiques marquantes de l’arbre, suivie par un réseau classique de type multicouches (ou FFNN pour Feed Forward Neural Net).

 

Laboratoire CNRS impliqué

  • Institut de Systématique, Evolution, Biodiversité (ISYEB - CNRS/MNHN/SU/EPHE/UA)

Objectif de Développement durable

pictODD

  • Objectif 3 - Bonne santé et bien-être

Référence

Voznica J, Zhukova A, Boskova V, Saulnier E, Lemoine F, Moslonka-Lefebvre M, Gascuel O. Deep learning from phylogenies to uncover the epidemiological dynamics of outbreaks. Nat Commun. 2022 Jul 6;13(1):3896. doi: 10.1038/s41467-022-31511-0. PMID: 35794110; PMCID: PMC9258765.

Contact

Olivier Gascuel
Institut de Systématique, Evolution, Biodiversité (ISYEB - CNRS/MNHN/SU/EPHE/UA)