Tout est dans les gènes: l'ADN en passe de résoudre notre problème de stockage des données

Les données forment l'ADN des économies modernes. Au sens propre et au figuré si les recherches d'un groupe de scientifiques aboutissent.

L'âge de l'information a transformé tous les aspects de notre vie.

Mais chaque innovation dans le domaine du numérique s'accompagne de son lot de problèmes. Un défi particulièrement épineux concerne le stockage des quantités faramineuses de données générées par nos appareils.

Selon l'IDC, en 2017, la demande en stockage de données a atteint 14 800 milliards de gigaoctets (14 800 exaoctets), contre 400 milliards en 2009. Et on s'attend à une hausse annuelle de 30%, une catastrophe annoncée au vu de la technologie existante. Même si le prix unitaire du stockage des données a chuté ces dernières années, la quantité incroyable d'informations générées rend l'utilisation de systèmes d'archivage électronique conventionnels plus difficile et chère, car ils occupent beaucoup de place et se détériorent avec le temps.

C'est la raison pour laquelle des scientifiques comme Nick Goldman de l'European Bioinformatics Institute (EMBL-EBI) de Cambridge, au Royaume-Uni, se penchent sur des solutions qui sortent de l'ordinaire. Comme l'ADN.

L'ADN, explique Goldman, a le potentiel de devenir un moyen incroyable pour l'enregistrement des données grâce à sa «haute densité d'encodage des informations, sa longévité et sa capacité éprouvée en tant que support d'informations.»

N'oublions pas que les pressions de sélection auxquelles l'ADN a été soumis pendant des centaines de millions d'années en ont fait un moyen particulièrement efficace de stocker la grande quantité d'informations pour produire les protéines et d'autres composés nécessaires à la formation d'organismes complexes.

Toutes ces informations sont codées dans de longues séquences hélicoïdales composées des quatre molécules qui sont à la base de l'ADN. Le principe est très similaire à celui utilisé pour Internet et tout autre support numérique, depuis les disques compacts jusqu'aux photos prises avec un smartphone, avec leurs suites de 1 et de 0.

Goldman n'a pas pensé directement à utiliser l'ADN comme support de stockage. L'idée lui est venue à l'EMBL-EBI en cataloguant toutes les données sur l'ADN générées par les scientifiques du génome du monde entier. Il s'est rendu qu'il disposait de plus d'informations génétiques qu'il n'était possible d'enregistrer.

«Je suis dans un institut où 25% du travail consiste à enregistrer sur des ordinateurs toutes les informations sur l'ADN de tous les génomes que les scientifiques du monde entier sont en train de générer. Et cela nous confronte à un problème de taille: nous recevons quotidiennement une énorme quantité d'informations», explique-t-il.

Storage-supply-Demand
Stockage-offre-demande

Après avoir beaucoup réfléchi, Goldman et ses collègues se sont rendu compte que la solution à leur problème se trouvait juste sous leur nez: l'ADN en lui-même.

Ils ont pris conscience que l'ADN n'est pas uniquement pratique pour enregistrer des informations biologiques, mais qu'il pourrait en faire de même pour  n'importe quelle autre donnée.

Goldman et son équipe se sont mis à produire des paquets de données de 180 paires de bases (l'ADN forme une unité composée de deux brins antiparallèles connectés constituant une chaîne qui ressemble à une échelle enroulée autour d'elle-même, d'où la double hélice). Parmi ces paires de bases, environ 100 servent réellement à coder les informations à enregistrer, 20 sont nécessaires pour l'indexer et le reste pour assurer le bon fonctionnement.

«Le plus difficile est de créer la première copie», explique Goldman. «Mais dès que vous l'avez, la dupliquer est un jeu d'enfants.»

Sculpture d'ADN

«À la base, cette technologie était pensée pour créer des copies de sauvegarde de données existantes dont la sécurité est primordiale», dit Goldman. Cet aspect est important, car les technologies existantes ont tendance à se détériorer avec le temps et à devenir rapidement obsolètes.

Le stockage magnétique, par exemple, se dégrade au fur et à mesure de l'avancée technologique. Le problème étant qu'il est parfois difficile de récupérer des données enregistrées sur des systèmes plus anciens. Qui a encore aujourd'hui un ordinateur capable de lire les disquettes? Ou encore une chaîne hifi avec un lecteur de cartouches à huit pistes?

L'ADN, de son côté, est présent sur terre depuis l'apparition de la vie. Donc, il ne risque pas de passer de mode.

«Il n'aime pas l'eau, car elle brise les brins. Le meilleur moyen d'éviter cela est de maintenir l'ADN à des températures négatives», indique Goldman. Protéger l'ADN de la lumière permet aussi de réduire les mutations causées par les radiations.

Mis à part cela, il a une durée de vie de plusieurs siècles.

Certains échantillons d'ADN trouvés sous la calotte polaire du Groenland sont vieux de 500 000 ans environ, et nous n'avons pas encore découvert d'ADN de dinosaure.

À cela s'ajoute que l'ADN est si performant qu'un gramme suffit pour stocker 215 millions de gigaoctets, ce qui signifie que toutes les données générées par l'homme pourraient rentrer dans le salon d'un pavillon de banlieue.

En effet, l'ADN est capable de compresser plus d'informations dans une séquence donnée que le système binaire conventionnel, car elle dispose de quatre unités différentes au lieu de deux (cf. l'illustration ci-dessous pour plus de détails).

Une possibilité fascinante, continue Goldman, consisterait à inscrire des données dans l'ADN de créatures vivantes.

Cela a déjà était réalisé à petite échelle. Par exemple, par l'artiste Eduardo Kac qui a traduit une phrase de la Genèse en ADN avant de l'implanter dans une bactérie. D'autres ont écrit leurs initiales comme marque de fabrique dans des organismes génétiquement modifiés.

Mais il est peu probable d'avoir un jour notre disque dur dans une puce autre qu'informatique. Les êtres vivants ne seront probablement jamais des supports pour enregistrer de grandes quantités de données. Alors que la plupart des organismes ont de longues séquences d'ADN «poubelle», dont les scientifiques n'ont pas encore découvert la fonction ou qui est inutile, «on ne peut pas en introduire indéfiniment dans des organismes vivants», tempère Goldman.

L'organisme pourrait alors souffrir d'un trop-plein d'ADN. À chaque division cellulaire, tout l'ADN ajouté est copié avec les informations biologiquement nécessaires, ce qui nécessite de l'énergie. Des mutations peuvent aussi se produire lors de la mitose ce qui peut altérer l'ADN encodé. Après quelques générations de cellules, la qualité des informations codées risque dans ce cas de ressembler au téléphone arabe.

Le stockage de données dans l'ADN est jusqu'à présent toujours largement confiné aux laboratoires.

«Des compagnies ont marqué leur intérêt pour utiliser cette technique, mais elles ont été effrayées par son coût», explique Goldman.

Même si la lecture et l'écriture d'informations sur l'ADN sont devenues beaucoup plus «abordables» au cours des dernières années, cela reste à des années lumières du coût du stockage informatisé conventionnel.

Un exemple pour illustrer cela: le premier séquençage complet du génome humain a coûté plusieurs milliards de dollars au début de notre millénaire. Aujourd'hui, cela coûte environ 1 000 dollars (~900 euros) et la forme la plus efficace de codage de données sur de l'ADN tourne autour de 3 500 dollars (~3 100 euros) par mégaoctet. Et vous devrez débourser encore un dixième de ce prix à chaque fois que vous souhaitez les consulter. En comparaison, 0,01 dollar permet d'acheter mille mégaoctets de stockage conventionnel de données.

storage size

Il y a aussi d'autres obstacles. Des chercheurs de l'université de Washington ont, par exemple, encodé récemment des chaînes avec un logiciel malveillant dans de l'ADN qui a été séquencé par une machine commerciale. Le logiciel a reprogrammé le séquenceur génétique avant de prendre contrôle de l'ordinateur.

Mais il y a de plus en plus de pilotes commerciaux qui réduisent le coût et démocratisent le stockage dans l'ADN. Il est de notoriété publique que Microsoft travaille sur le lancement d'ici la fin de la décennie d'un système opérationnel de stockage de données dans l'ADN. D'autres entreprises sont impliquées dans la production d'ADN, comme Twist Bioscience qui collabore avec Microsoft, DNAScript, Nuclera Nucleics, Evonetix, Helixworks et Genome Foundry, pour ne citer qu'elles.

Au train où vont les choses, le stockage dans l'ADN pourrait être démocratisé plus rapidement que la situation actuelle laisse présager.

  1. Convertir l'ADN

    converting DNA