Un equipo del Instituto de Biología Integrativa de Sistemas (UV-CSIC) ha publicado en ‘Nature Methods’ un software propio para analizar datos obtenidos por secuenciación de lectura larga del genoma. Este sistema permite descubrir nuevas moléculas de ARN y asignarles una función en la creación de tejidos, lo que «ahonda en el conocimiento de la formación del organismo y sus enfermedades».
Los responsables del hallazgo recuerdan que la complejidad de un organismo emerge de su genoma, el libro que contiene las instrucciones de su ADN para la vida. El método para leer este libro –la secuenciación– ha evolucionado hacia la lectura de fragmentos cada vez más largos del genoma.
En este campo, un grupo de investigación liderado por el Instituto de Biología Integrativa de Sistemas (I2SysBio), centro mixto de la Universitat de València (UV) y el Consejo Superior de Investigaciones Científicas (CSIC), ha mejorado un programa informático propio capaz de descubrir nuevos tránscritos -moléculas de ARN para sintetizar proteínas y crear tejidos- a partir de su secuenciación con instrumentos de lectura larga; y asignarles una función en la formación del organismo.
La secuenciación de lectura larga (long-read sequencing) es la tercera generación de métodos de secuenciación del genoma. Frente a la lectura de fragmentos cortos, que analiza unos 200 nucleótidos, los métodos de lectura larga pueden obtener lecturas 100 veces más largas, lo que deja menos huecos en la información del genoma para rellenar mediante herramientas bioinformáticas. Esta fue una de las razones para que la propia Nature Methods lo considerase ‘Método del Año 2022’.
Unos años antes, en 2018, la investigadora Ana Conesa, entonces en la Universidad de Florida, desarrolló un programa informático llamado SQANTI para analizar la información que se extraía mediante estos métodos de lectura larga. Ahora, su equipo de investigación en el I2SysBio ha publicado una mejora sustancial de este software que se puede usar libremente en los principales sistemas comerciales que emplean secuenciación de lectura larga, Pacific Biosciences (PacBio) y Oxford Nanopore Technologies (ONT).
«Las técnicas de lectura larga analizan mejor la complejidad de los tránscritos y el transcriptoma humanos», comenta Conesa. Esto identifica la porción del genoma que se lee en cada célula para dar lugar a tejidos y órganos. Así, un único gen puede dar lugar a una gran diversidad de tránscritos, mediante pequeños cambios en la estructura de ARN que codifica, y con ellos de proteínas con distintas funciones celulares. «La secuenciación de lectura corta no puede resolver este puzle. La lectura larga reconstruye mejor la complejidad funcional del transcriptoma humano, y esto es clave para estudiar determinadas enfermedades, sobre todo de tipo neurológico y cáncer», sostiene la investigadora del CSIC en un comunicado.
La versión publicada ahora -SQANTI3- soluciona algunos problemas anteriores derivados de la degradación del ARN e introduce notables mejoras. El programa es capaz de descubrir nuevos tránscritos que no estaban en las bases de datos del genoma que usan estos programas informáticos. Además, mediante técnicas de Inteligencia Artificial, el softwarepuede asignar información funcional para el nuevo tránscrito, «algo esencial para entender la complejidad funcional del organismo y de las enfermedades», remarca Conesa.
CLÚSTER DE COMPUTACIÓN
Para desarrollar este programa informático se ha usado el clúster de computación Garnatxa del I2SysBio, que dispone de 15 nodos de computación capaces de ofrecer 950 hilos de cómputo en paralelo. Además, el grupo Genómica de la Expresión Génica que dirige Ana Conesa en el I2SysBio participa en Elixir, una de las infraestructuras estratégicas para Foro Estratégico Europeo sobre Infraestructuras de Investigación (ESFRI) que permite a laboratorios de ciencias de la vida de toda Europa compartir y almacenar sus datos.
En el desarrollo de SQANTI3 han colaborado la Universidad de Florida y Pacific Biosciences.