De novo protein discovery in non-model organisms

Imaginez que vous avez deux bibliothèques de livres différentes, mais qu'aucune ne possède de table des matières et que les livres sont écrits dans des langues que vous ne parlez pas. Habituellement, pour les comparer, vous auriez besoin d'un traducteur principal ou d'un guide de référence. Mais que se passerait-il si vous vouliez comparer ces bibliothèques sans rien de tout cela ?

C'est le problème que les scientifiques ont rencontré lorsqu'ils ont tenté d'étudier des plantes ne disposant pas de « génome de référence » (un plan directeur) disponible. Pour résoudre ce problème, ils ont créé un nouvel outil numérique appelé plant (qui signifie Annotation Parallèle des Transcritomes).

Voici comment cela fonctionne, en utilisant une analogie simple :

L'analogie du filtre à café
Imaginez un mélange complexe de marc de café et d'eau. Pour comprendre ce qu'il contient, vous pourriez utiliser un filtre pour séparer le liquide des solides. La méthode plant fonctionne de manière similaire, mais au lieu d'un filtre physique, elle utilise un programme informatique. Elle prend les données brutes et désordonnées du code génétique d'une plante (RNA-seq) et les « filtre » pour isoler les blocs de construction spécifiques qui composent ses protéines.

La comparaison avec les briques LEGO
Habituellement, les scientifiques comparent les plantes en examinant des gènes spécifiques, ce qui revient à essayer de comparer deux ensembles d'instructions LEGO différents utilisant des systèmes de nommage complètement distincts. Il est difficile de les faire correspondre.

Au lieu de cela, plant ignore les instructions spécifiques et examine les briques LEGO elles-mêmes (les domaines protéiques universels). Tout comme une « brique rouge 2x4 » est la même qu'elle se trouve dans un ensemble de château ou dans un ensemble de vaisseau spatial, ces blocs de construction protéiques sont universels à travers différentes espèces. En comptant combien de chaque « brique » est utilisée dans une plante par rapport à une autre, l'outil peut les comparer directement, même si les plantes appartiennent à des espèces différentes.

L'expérience
Les chercheurs ont testé cela sur plusieurs types de plantes Selaginella (un type de plante ancienne) en utilisant des données du projet « 1000 Plants ». Ils ont fait trois choses principales :

Assemblé le puzzle : Ils ont pris des données génétiques brutes et les ont assemblées comme un puzzle.
Identifié les pièces : Ils ont vérifié ces pièces contre une gigantesque base de données (Pfam) pour voir quel type de « briques LEGO » (structures protéiques) elles étaient.
Compté les pièces : Ils ont mesuré la quantité de chaque brique utilisée.

Le résultat
En combinant le « quoi » (la structure protéique) avec le « combien » (la quantité), ils ont pu voir exactement quelles structures protéiques étaient actives dans les plantes. Parce qu'ils se sont concentrés sur ces briques universelles, ils ont pu comparer les plantes équitablement, même sans plan directeur.

Ils ont également découvert certaines « briques » uniques qui n'apparaissaient que dans des espèces spécifiques et ont pu les retracer jusqu'au gène exact qui les produisait. Enfin, ils ont créé un « diagramme à bulles » coloré (un type de graphique) pour visualiser la répartition de ces parties protéiques à travers les différentes plantes, rendant facile la détection des modèles d'un coup d'œil.

En bref, cette méthode permet aux scientifiques de comparer le fonctionnement interne de différentes plantes en se concentrant sur leurs blocs de construction partagés et universels, plutôt que de se perdre dans les différences de leurs langages génétiques spécifiques.

Résumé technique : Découverte de protéines de novo chez les organismes non modèles

Articles similaires