Découvrez HeDS : une plateforme de science des données au service de la recherche en santé de précision

Vous cherchez une plateforme qui vous aide à transformer des données de santé complexes en connaissances concrètes et réutilisables?

La plateforme Health Data Science (HeDS) a été créée pour combler des lacunes importantes dans l’écosystème de recherche, en rassemblant sous un même toit une expertise en science des données, en génomique, en IA et en thérapies à base d’ARNm. Dans cette entrevue, Mathieu Bourgey, directeur de la plateforme HeDS et de la science des données à D2R, partage la vision de HeDS, les défis qu’elle cherche à relever et la manière dont elle soutient les chercheurs et les stagiaires dans l’exploitation du plein potentiel des données en santé et en ARN.

 

Comment décririez-vous la plateforme HeDS?

Mathieu Bourgey (MB) : HeDS (pour Health Data Science) est une plateforme pour la science des données dédiée à la recherche en santé soutenue par l’initiative de l’ADN à l’ARN (D2R) et, plus récemment, par la Fondation Gates. C’est une plateforme où l’on développe des outils et des processus pour transformer les données de santé en connaissances utiles et en ressources réutilisables pour la communauté scientifique. Concrètement, ça passe par du partage d’expertise via des consultations, de la formation, des collaborations et des services. Notre expertise couvre autant la conception d’études et la biostatistique que les pipelines bioinformatiques, l’intégration ML/IA, la gestion et la mise en catalogue des données.

 

Quelles sont les priorités ou étapes de développement sur lesquelles votre équipe travaille en ce moment?

MB : La plateforme est encore toute récente, elle a été fondée en 2025, donc après le lancement, notre priorité a été de bâtir la meilleure équipe d’experts possible. Nous sommes maintenant pleinement opérationnels et prêts à avancer sur plusieurs fronts. Parmi nos objectifs, on veut offrir un soutien analytique avancé aux projets de recherche de D2R. On veut aussi mettre en place un cadre de gestion des données basé sur les principes FAIR, afin de maximiser la valeur des résultats de recherche, d’en améliorer la découvrabilité et de favoriser de nouvelles collaborations. En parallèle, on travaille aussi à traduire les découvertes génomiques en applications thérapeutiques basées sur l’ARN.

Qu’est-ce qui distingue HeDS dans l’écosystème de recherche en sciences de la vie?

MB : D’abord, nous travaillons présentement à développer un Catalogue de données qui rendra les données de D2R faciles à repérer et à consulter, tout en s’assurant que la propriété et les bénéfices principaux demeurent entre les mains du chercheur qui les a générées.

Nous créons aussi le portail DOTS‑RNA, qui permet de gérer, d’automatiser et d’optimiser des séquences thérapeutiques à base d’ARNm, comme celles utilisées dans les vaccins à ARNm. Pour appuyer ce travail, nous avons développé et intégré un jeu de données de référence qui facilite l’évaluation et l’intégration des outils les plus récents d’optimisation d’ARNm dans DOTS‑RNA.

Une autre force de HeDS, c’est notre capacité d’offrir un soutien flexible pour intégrer des méthodes de pointe en science des données dans différents domaines de recherche en santé, comme le cancer ou les maladies rares. Ça inclut des collaborations concrètes pour développer de nouvelles approches analytiques, ainsi que de la formation et du mentorat pour les étudiants et les équipes de recherche. Ces séances de mentorat représentent une occasion précieuse de transférer notre expertise directement dans les laboratoires partenaires.

Comment la plateforme utilise-t-elle l’IA et l’apprentissage machine pour accélérer la découverte?

Le fait d’être basés à Montréal nous donne déjà un avantage important, compte tenu de son écosystème en IA reconnu à l’échelle mondiale. Cela dit, d’après mon expérience, il existe encore un écart bien réel entre les développeurs de méthodes en IA et les chercheurs en santé qui produisent les données sur lesquelles ces méthodes s’appuient.

Chez HeDS, on cherche justement à combler cet écart grâce à une approche Benchmark–Déploiement–Adaptation. Plutôt que de tenter de remplacer les méthodologistes en IA, on mise sur une évaluation rigoureuse des outils existants et sur l’identification des méthodes les mieux adaptées aux données de santé du monde réel. Nos priorités sont la robustesse, notamment la capacité de généralisation et la performance zero-shot, ainsi que l’interprétabilité.

On collabore également étroitement avec des experts en IA afin que les modèles soient informés par la biologie dès le départ, ce qui permet de rapprocher plus efficacement le développement méthodologique des applications concrètes en santé.

En quoi HeDS complète-t-elle les outils et services déjà offerts par C3G?

MB : C3G est une plateforme de bioinformatique qui développe des analyses clés en main, notamment avec GenPipes, et offre des services à la communauté des sciences de la vie.  HeDS se concentre sur des projets plus larges en science des données, avec une expertise qui dépasse la bioinformatique pour inclure la biostatistique, l’intégration de l’IA, la gestion des données et plus encore.

Notre plateforme s’adresse aussi à une communauté de chercheurs très diversifiée, des biologistes, aux chimistes, aux cliniciens. Nous sommes liés à C3G et aux autres plateformes spécialisées de McGill. Donc si un projet relève davantage de l’expertise de C3G ou d’une autre plateforme, mais manque la composante science des données, nous redirigeons le chercheur vers la bonne équipe pour un soutien plus ciblé.

 

Comment le financement récent de la Fondation Gates a-t-il influencé la direction, l’ampleur ou les ambitions scientifiques de la plateforme?

MBCe financement nous a vraiment poussés à voir plus grand. Au lieu d’être seulement une plateforme locale ou nationale, HeDS s’inscrit maintenant comme un pôle international de renforcement des capacités au sein du RNA Cooperative de PATH. Ça a accéléré nos plans et nous a amenés à concevoir des outils qui sont moins spécifiques à notre contexte local et plus facilement transférables à nos partenaires à l’international.

Un enjeu important demeure l’adaptation aux infrastructures très variables de nos partenaires, notamment dans les PRFI. On privilégie donc des solutions ciblées et légères sur le plan informatique, plutôt qu’une approche unique qui ne fonctionnerait pas nécessairement partout.

Comment les stagiaires ou jeunes chercheurs peuvent-ils s’impliquer avec HeDS, et quelles opportunités cela leur offre-t-il?

MB : HeDS a été pensée pour être simple d’accès, tant pour les stagiaires que pour les chercheurs. On a mis en place un système de réservation en ligne qui permet de prendre rendez-vous gratuitement avec un membre de notre équipe. Ces rencontres servent surtout à donner des conseils rapides, faire du dépannage ou répondre à des questions plus générales.

Une autre façon simple de nous joindre est d’écrire à info@hedscenter.ca. Nous offrons aussi régulièrement des ateliers, des formations et des événements communautaires où tout le monde est bienvenu pour venir discuter avec nous.

Vous pouvez également réserver une rencontre de consultation avec un expert de l’équipe HeDS via ce lien.

Pleins feux sur la recherche: stratégies de séquençage optimales pour la détection des variants du génome humain

Vous planifiez un projet de séquençage? Une étude récente publiée dans Genome Biology propose un cadre pratique pour choisir les bonnes technologies selon votre budget et vos objectifs de recherche.

Identifier avec précision chaque variation génétique du génome humain est essentiel, tant pour la recherche que pour les applications cliniques. Cette étude de Genome Biology réunit l’expertise du Centre canadien de génomique computationnelle (C3G), Robert Eveleigh, Jose Hector Galvez, Mathieu Bourgey et Guillaume Bourque, et du Laboratoire des technologies génomiques avancées, Sarah Reiling et Jiannis Ragoussis, afin d’évaluer les plateformes de séquençage et les approches de détection de variants les plus récentes, pour les petites comme pour les grandes classes de variations.

Méthodologie

En utilisant l’échantillon de référence Genome in a Bottle (GIAB) HG002, l’équipe a comparé de façon systématique les technologies à courtes lectures (SRS; Illumina, MGI) et à longues lectures (LRS; PacBio Sequel/Revio, ONT R9/R10), en se basant sur les points de référence Telomere-to-Telomere (T2T) et Clinically Medically Relevant Genes (CMRG). L’étude a couvert plusieurs profondeurs de séquençage, contextes génomiques et pipelines bioinformatiques.

Résultats

Les résultats confirment que le choix de la plateforme et du flux de travail (ou workflow) doit être guidé par les objectifs de recherche.
Les technologies SRS sont excellentes pour détecter les petites variantes dans les régions bien cartographiées, alors que les LRS, en particulier PacBio Revio, offrent une précision supérieure pour les variants structuraux et les petites variantes dans les régions complexes ou répétitives. De plus, elles atteignent un plateau de précision à des profondeurs de séquençage beaucoup plus faibles (20–45×) que les courtes lectures (>60×).

Bien que le SRS demeure un choix économique et efficace pour le génotypage à haut débit, le LRS permet la résolution nécessaire aux applications cliniques dans les zones génomiques difficiles.

Pour en savoir plus

Pour rester à jour sur les nouveaux algorithmes, technologies et pratiques d’évaluation comparative, le C3G maintient aussi un tableau de bord interactif!

Lire l’article complet

Tableau de bord d’évaluation des SNV du C3G

GenPipes en profondeur : explorer une solution logicielle du C3G pour la recherche en sciences de la vie

Découvrez l’une des solutions logicielles du C3G, sa raison d’être, ses forces, ses nouveautés et la façon dont elle continue de soutenir la communauté des sciences de la vie.

Qu’estce que GenPipes ?

Les pipelines GenPipes offrent des analyses génomiques de haute qualité, optimisées pour les environnements de calcul haute performance (HPC) et infonuagiques. Il s’agit d’une plateforme open‑source (LGPL), basée sur Python, pour gérer les flux de travail (ou workflow) de séquençage de nouvelle génération (NGS). GenPipes est largement adopté dans le domaine des sciences de la vie. Il sert les professionnels de la bio-informatique, les étudiants et les chercheurs travaillant sur un large éventail d’analyses génomiques, et offre une documentation complète expliquant en détail chaque pipeline ainsi que ses résultats pour les utilisateurs.

Qu’estce qui distingue GenPipes des autres plateformes d’analyse ou systèmes de gestion de workflows ?

GenPipes se démarque par sa flexibilité, son évolutivité et sa grande facilité d’utilisation. La plateforme s’adapte rapidement à de nouveaux systèmes, prend en charge plusieurs ordonnanceurs de tâches et types de déploiement, et propose un vaste ensemble de pipelines prêts à l’emploi. Son intégration avec l’Alliance de recherche numérique du Canada la rend particulièrement attrayante pour les chercheurs canadiens.

GenPipes offre également une faible barrière d’entrée : les utilisateurs n’ont pas à installer de logiciels, à gérer des génomes de référence ou à configurer des ressources informatiques, ce qui leur permet de lancer leurs analyses rapidement et avec confiance !

Quels sont les pipelines de GenPipes les plus utilisés ?

Les pipelines les plus populaires sont ChIPSeq, RNASeq et DNASeq. Le pipeline DNASeq prend en charge plusieurs protocoles, ce qui le rend adapté autant aux analyses génomiques complètes standard qu’aux workflows jumelés pour la génomique du cancer.

Les pipelines génèrent plusieurs rapports et fichiers standards, tels que des BAM, des VCF, des appels de pics (peak‑calls) et des matrices d’expression.

GenPipes offretil des fonctionnalités pour aider les étudiants et les chercheurs débutants ?

Oui! Pour rendre GenPipes encore plus accessible aux nouveaux utilisateurs, nous avons développé un nouvel outil appelé le GenPipes Wizard, avec l’aide d’une excellente stagiaire du C3G, Alexa Li Kim Wa.

Le Wizard est un assistant interactif qui aide les utilisateurs à :

  • Identifier rapidement le pipeline le mieux adapté à leurs données
  • Générer automatiquement la bonne commande pour lancer leur analyse

Quelle est la version la plus récente de GenPipes ?

Nous améliorons continuellement GenPipes en fonction des commentaires des utilisateurs et de nos propres tests internes. La mise à jour majeure de l’an dernier, la version v6.1.0, a introduit de nouveaux pipelines et retiré un outil qui n’était plus utilisé.

Notre plus récente version est une mise à jour mineure, axée sur la correction de petits bogues découverts lors des tests ou signalés par des utilisateurs. Cliquez ici pour en savoir plus sur notre dernière version : v.6.1.1.

Si vous souhaitez contribuer aux futures améliorations, nous vous invitons à nous écrire : 

pipelines@computationalgenomics.ca

*Important pour les utilisateurs : Vous devriez toujours vérifier si une version est majeure, intermédiaire ou mineure. Les versions majeures peuvent briser la rétrocompatibilité (un facteur clé pour les projets de longue durée qui nécessitent des résultats comparables). Toutes les versions précédentes de GenPipes demeurent disponibles sous forme de modules, permettant de répéter une analyse avec une version antérieure au besoin.*

Abonnez‑vous à notre infolettre pour rester à jour sur les dernières versions logicielles et les services offerts par le C3G !

Plateforme bioinformatique C3G

Le Centre canadien de génomique computationnelle (C3G) offre des services d’analyse bioinformatique et de calcul haute performance à la communauté de recherche en sciences de la vie.

Continue reading

Anesthesia-related Tweets during COVID-19

Twitter has become a social media nexus for the sharing of information, and in an Anesthesia & Analgesia Journal article published in April 2021, members of C3G’s Toronto Node at SickKids examined the way Twitter was used to share anesthesia-related information during the COVID-19 pandemic.

Continue reading

Common bioinformatics software maintained by C3G

Close up 3D view of a DNA helix

There is a huge library of common bioinformatics software available on Compute Canada resources via the modules maintained by C3G staff and distributed via the CernVM-File System (CVMFS). Despite the breadth of the C3G CVMFS library, there may be times when using the provided software isn’t ideal.

Continue reading