L’une des grandes déceptions des biologistes après le séquençage du génome humain est que l’accès à ce « grand livre de la vie » et à ses quelque 22 000 gènes ne donne pas toutes les clés pour comprendre comment notre ADN, hérité de deux cellules parentales, conduit à la formation d’un individu avec toute la diversité tissulaire qui le constitue. Notre constitution complexe, mais aussi une partie de nos maladies, dépend d’un langage régulant l’expression de gènes – activés ou réprimés – dont la grammaire défie encore l’entendement humain. Dans ce domaine aussi, l’intelligence artificielle (IA), auréolée début octobre de deux prix Nobel, en physique et en chimie, semble en mesure d’apporter sa contribution. En témoigne une étude publiée le 24 octobre dans Nature.
« L’expression des gènes est régulée de différentes manières »rappelle Sager Gosai (Broad Institute, MIT et Harvard), le premier auteur de l’étude. Avec ses collègues de deux autres laboratoires américains, il s’est intéressé aux éléments dits « cis-régulateurs » (CRE). Ces petits fragments d’ADN, ou promoteurs, généralement situés en amont des gènes qu’ils régulent, sont destinés à se lier à des protéines, appelées « facteurs de transcription », qui déclenchent ou non la traduction d’un gène donné en protéine. Les chercheurs décrivent avoir conçu, grâce au machine learning – qui vise à donner aux machines la capacité « d’apprendre » grâce à des modèles mathématiques – des CRE actifs dans certaines cellules avec une plus grande spécificité que ceux trouvés dans la nature. Y compris lorsqu’ils ont été testés non seulement in vitro, mais aussi sur des animaux transgéniques, comme le poisson zèbre.
Synthétiser aléatoirement des CRE pour trouver les plus adaptés n’est pas une option : le nombre de combinaisons possibles à partir de 200 nucléotides – la longueur des séquences d’ADN testées par les chercheurs – « dépasserait celui des atomes dans l’univers observable »ils se souviennent dans Nature. Ils sont donc partis d’un puissant outil de biologie moléculaire, qui permet de tester l’activité de centaines de milliers de CRE dans différents types de cellules – en l’occurrence les cellules nerveuses, sanguines et hépatiques.
« Domaine émergent »
Ce vaste ensemble de données a été utilisé pour entraîner des réseaux neuronaux artificiels à reconnaître ceux susceptibles d’être actifs dans un type de cellule, mais pas dans les deux autres. Les chercheurs ont ensuite demandé à ces modèles de proposer de nouvelles séquences capables de réguler l’expression d’un gène dans une cellule spécifique. Ces CRE artificiels se sont révélés très efficaces.
Il vous reste 50,91% de cet article à lire. Le reste est réservé aux abonnés.