(Noticias de Nanowerk) Para la función de muchas biomoléculas, su estructura tridimensional es crucial. Por lo tanto, los investigadores no solo están interesados en la secuencia de los componentes básicos individuales de las biomoléculas, sino también en su estructura espacial. Con la ayuda de la inteligencia artificial (IA), los bioinformáticos ya pueden predecir de forma fiable la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos. Sin embargo, para las moléculas de ARN, esta tecnología aún está en pañales.
En la revista, los investigadores de la Ruhr-Universität Bochum (RUB) describen una forma de utilizar la IA para predecir de forma fiable la estructura de ciertas moléculas de ARN a partir de su secuencia de nucleótidos. PLOS Biología Computacional («Preentrenamiento basado en convolución inversa para la identificación confiable de terminadores de transcripción intrínsecos»).

Para el trabajo, los equipos dirigidos por Vivian Brandenburg y el profesor Franz Narberhaus de la Cátedra RUB en Biología de Microorganismos cooperaron con el profesor Axel Mosig del área de competencia de Bioinformática en el Centro de Diagnóstico de Proteínas de Bochum.
El entorno celular debe ser considerado.
«El ARN a menudo solo se ve como una sustancia mensajera entre el ADN genómico y las proteínas», dice Axel Mosig. “Pero muchas moléculas de ARN asumen funciones celulares.” Su estructura espacial es importante para esto. Regiones similares en una secuencia de nucleótidos pueden agregarse para formar matrices tridimensionales.
«Identificar estas auto-similitudes en una secuencia de ARN es como un rompecabezas matemático», explica Vivian Brandenburg. Hay un modelo biofísico con algoritmos de predicción correspondientes para este rompecabezas. Sin embargo, el modelo no puede tener en cuenta el entorno celular del ARN, y esto también influye en el proceso de plegamiento. «Si el ARN estuviera aislado y flotando en una solución acuosa, el modelo podría predecir la estructura con mucha precisión», dice Brandenburg. Pero una célula viva contiene muchos otros componentes.
Aquí es donde entra en juego la inteligencia artificial. La IA puede aprender patrones sutiles del entorno celular basándose en estructuras conocidas. Luego podría incorporar estos hallazgos en sus predicciones estructurales. Sin embargo, la IA necesita suficientes datos de entrenamiento para el proceso de aprendizaje, y en la práctica en realidad falta eso.
Obtén datos de entrenamiento con un truco
Para resolver el problema de la falta de datos de entrenamiento, el equipo de Bochum usó un truco: los investigadores trabajaron con motivos estructurales de ARN conocidos. Usando una especie de marcha atrás, podrían usar los modelos de energía de estas estructuras para generar casi cualquier cantidad de secuencias de nucleótidos que se plegarían en estas estructuras tridimensionales. Con la ayuda de este llamado plegamiento inverso, los investigadores generaron muchos pares de secuencias de nucleótidos y estructuras con las que podrían entrenar a la IA.
Nuevas estructuras confiablemente predecibles
Luego, los investigadores le presentaron a la IA una nueva tarea: tenía que predecir la estructura de ciertas moléculas de ARN bacteriano. Estas moléculas, los llamados terminadores de la transcripción, son importantes señales de parada en la traducción del ADN genómico en las bacterias. Como muchas otras moléculas de ARN con funciones celulares importantes, a menudo están ocultas en el genoma y son difíciles de distinguir de las regiones con otras funciones.
La inteligencia artificial pudo reconocer y predecir de forma fiable la estructura típica de los terminadores de transcripción, que recuerda a una horquilla. El equipo de investigación pudo demostrar esto utilizando datos experimentales disponibles públicamente. «Si bien los enfoques de IA ahora son casi inevitables cuando se trata de predecir estructuras de proteínas, el desarrollo de estructuras de ARN aún está en pañales», resume Axel Mosig.