Científicos del Instituto Tecnológico de Massachusetts (MIT), en Estados Unidos, y del Instituto Pasteur de Francia han desarrollado una técnica para reconstruir genomas completos, incluido el humano, en un ordenador personal. Esta técnica es unas cien veces más rápida que los actuales enfoques de vanguardia y utiliza una quinta parte de los recursos.

El estudio, publicado en la revista ‘Cell Systems’, permite una representación más compacta de los datos del genoma inspirada en la forma en que las palabras, en lugar de las letras, ofrecen bloques de construcción condensados para los modelos lingüísticos.

“Podemos ensamblar rápidamente genomas y metagenomas enteros, incluidos los genomas microbianos, en un modesto ordenador portátil”, afirma Bonnie Berger, profesora de matemáticas Simons en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y autora del estudio.

Proyectos de ensamblaje del genoma

Los proyectos de ensamblaje del genoma han recorrido un largo camino desde el Proyecto Genoma Humano, que terminó de ensamblar el primer genoma humano completo en 2003 con un coste de unos 2.700 millones de dólares y más de una década de colaboración internacional. Pero, aunque los proyectos de ensamblaje del genoma humano ya no duran años, siguen requiriendo varios días y una enorme potencia informática.

Para abordar el ensamblaje del genoma de forma más eficiente que las técnicas actuales, que implican la realización de comparaciones por pares entre todos los pares posibles de lecturas, Berger y sus colegas recurrieron a los modelos de lenguaje.

Partiendo del concepto de grafo de Bruijn, una estructura de datos sencilla y eficaz utilizada para el ensamblaje del genoma, los investigadores desarrollaron un grafo de Bruijn con minimizador espacial (mdBG), que utiliza secuencias cortas de nucleótidos llamadas minimizadores en lugar de nucleótidos individuales.

Software basado en mdBG

Los investigadores aplicaron su método para ensamblar datos HiFi reales (que tienen una precisión de lectura de una sola molécula casi perfecta) de moscas de la fruta Drosophila melanogaster, así como datos del genoma humano proporcionados por Pacific Biosciences (PacBio).

Cuando evaluaron los genomas resultantes, Berger y sus colegas descubrieron que su software basado en mdBG requería unas 33 veces menos tiempo y 8 veces menos hardware informático de memoria de acceso aleatorio (RAM) que otros ensambladores de genomas. Su software realizó el ensamblaje del genoma para los datos humanos HiFi 81 veces más rápido con un uso de memoria 18 veces menor que el ensamblador Peregrine y 338 veces más rápido con un uso de memoria 19 veces menor que el ensamblador hifiasm.

Berger señala que, si bien el método funciona mejor actualmente al procesar las lecturas de PacBio HiFi, que se sitúan muy por debajo de una tasa de error del 1%, es posible que pronto sea compatible con las lecturas ultralargas de Oxford Nanopore, que actualmente tienen tasas de error del 5 al 12%, pero que pronto podrían ofrecer lecturas del 4%.

“Prevemos llegar a los científicos de campo para ayudarles a desarrollar sitios de pruebas genómicas rápidas, que vayan más allá de la PCR y las matrices de marcadores, que podrían pasar por alto diferencias importantes entre los genomas”, avanza Berger.