[ad_1]
La biología es un tapiz maravilloso pero delicado. En el corazón está el ADN, el maestro tejedor que codifica las proteínas y es responsable de orquestar las numerosas funciones biológicas que sustentan la vida en el cuerpo humano. Sin embargo, nuestro cuerpo se parece a un instrumento finamente afinado que fácilmente pierde su armonía. Después de todo, nos enfrentamos a un mundo natural implacable y en constante cambio: patógenos, virus, enfermedades y cáncer.
Imagínese si pudiéramos acelerar el proceso de desarrollo de vacunas o medicamentos contra patógenos emergentes. ¿Qué pasaría si tuviéramos tecnología de edición de genes capaz de producir automáticamente proteínas para corregir errores del ADN que causan cáncer? La búsqueda de proteínas que puedan unirse fuertemente a objetivos o acelerar reacciones químicas es crucial para el desarrollo de fármacos, el diagnóstico y numerosas aplicaciones industriales, pero suele ser una tarea larga y costosa.
Para mejorar nuestras habilidades de ingeniería de proteínas, los investigadores del MIT-CSAIL han desarrollado FrameDiff, una herramienta computacional para crear nuevas estructuras de proteínas que van más allá de lo que la naturaleza ha creado. El enfoque de aprendizaje automático genera «marcos» que se alinean con las propiedades inherentes de las estructuras proteicas, lo que le permite construir nuevas proteínas independientemente de los diseños preexistentes, permitiendo así estructuras proteicas sin precedentes.
“En la naturaleza, el diseño de proteínas es un proceso lento que lleva millones de años. Nuestra técnica tiene como objetivo proporcionar una respuesta para abordar los problemas creados por el hombre que están evolucionando mucho más rápido que la naturaleza», dice Jason Yim, estudiante de posgrado en MIT CSAIL y coautor principal de un nuevo artículo sobre el trabajo. «El objetivo en términos de esta nueva capacidad de generar estructuras de proteínas sintéticas abre una multitud de posibilidades mejoradas, como mejores aglutinantes. Eso significa diseñar proteínas que puedan unirse a otras moléculas de manera más eficiente y selectiva, con implicaciones de largo alcance relacionadas con la selección de fármacos y la biotecnología, donde podría conducir al desarrollo de mejores biosensores. También podría tener implicaciones para el campo de la biomedicina y más allá, y posibilidades como el desarrollo de proteínas fotosintéticas más eficientes y la creación de anticuerpos más potentes y nanopartículas diseñadas para terapia génica”.
Marco MarcoDiff
Las proteínas tienen estructuras complejas formadas por muchos átomos conectados por enlaces químicos. Los átomos clave que determinan la forma tridimensional de la proteína se denominan «columna vertebral», muy parecida a la columna vertebral de la proteína. Cada triplete de átomos a lo largo de la columna vertebral tiene el mismo patrón de enlaces y tipos de átomos. Los investigadores descubrieron que este patrón se puede utilizar para crear algoritmos de aprendizaje automático que utilicen ideas de geometría diferencial y probabilidad. Aquí es donde entran los marcos: Matemáticamente, estos tripletes se pueden modelar como cuerpos rígidos llamados «marcos» (comunes en física) que tienen posición y rotación en 3D.
Estos marcos proporcionan a cada triplete suficiente información para aprender sobre su entorno espacial. Entonces, la tarea es que un algoritmo de aprendizaje automático aprenda cómo mover cada cuadro para construir una columna vertebral de proteína. Con suerte, al aprender a construir proteínas existentes, el algoritmo se generalizará y podrá generar nuevas proteínas que nunca han existido en la naturaleza.
Al entrenar un modelo de cómo se construyen las proteínas mediante «difusión», se inyecta ruido, que desplaza aleatoriamente todos los fotogramas y desdibuja la apariencia de la proteína original. El trabajo del algoritmo es traducir y rotar cada cuadro hasta que se parezca a la proteína original. Aunque simple, el desarrollo de la difusión en marcos requiere técnicas de análisis estocástico en variedades de Riemann. En el aspecto teórico, los investigadores desarrollaron la «difusión SE(3)» para aprender distribuciones de probabilidad, que conecta de manera no trivial los componentes traslacional y rotacional de cada cuadro.
El sutil arte de la difusión
En 2021, DeepMind presentó AlphaFold2, un algoritmo de aprendizaje profundo para predecir estructuras de proteínas 3D a partir de sus secuencias. Hay dos pasos esenciales en la producción de proteínas sintéticas: generación y predicción. La generación es la creación de nuevas estructuras y secuencias de proteínas, mientras que la «predicción» es descubrir la estructura tridimensional de una secuencia. No es casualidad que AlphaFold2 también utilizara marcos para modelar proteínas. SE(3) diffusion y FrameDiff se inspiraron para avanzar en la idea de fotogramas incorporando fotogramas en modelos de difusión, una técnica de IA generativa que se ha vuelto inmensamente popular en la generación de imágenes como Midjourney.
Los marcos y principios compartidos entre la generación y la predicción de la estructura de las proteínas significaron que los mejores modelos de ambos lados eran compatibles. En colaboración con el Instituto de Diseño de Proteínas de la Universidad de Washington, la difusión SE(3) ya se está utilizando para crear y validar experimentalmente nuevas proteínas. Específicamente, combinaron la difusión SE(3) con RosettaFold2, una herramienta de predicción de la estructura de proteínas similar a AlphaFold2, lo que resultó en «RFdiffusion». Esta nueva herramienta acercó a los diseñadores de proteínas un paso más hacia la solución de problemas cruciales en biotecnología, incluido el desarrollo de aglutinantes de proteínas altamente específicos para el diseño acelerado de vacunas, la construcción de proteínas simétricas para la administración de genes y un andamiaje de motivos robusto para el diseño preciso de enzimas.
Los esfuerzos futuros para FrameDiff incluyen mejorar la generalidad de los problemas que combinan múltiples requisitos para productos biológicos como los medicamentos. Otra extensión es generalizar los modelos a todas las modalidades biológicas, incluido el ADN y las moléculas pequeñas. El equipo cree que al extender el entrenamiento de FrameDiff a conjuntos de datos más grandes y mejorar su proceso de optimización, se podrían generar estructuras fundamentales con capacidades de diseño a la par de RFdiffusion, manteniendo al mismo tiempo la simplicidad inherente de FrameDiff.
«Rechazar un modelo de predicción de estructura previamente entrenado [in FrameDiff] abre posibilidades para la creación rápida de estructuras que abarcan grandes longitudes”, afirma el biólogo computacional Sergey Ovchinnikov de la Universidad de Harvard. El enfoque innovador de los investigadores ofrece un paso prometedor hacia la superación de las limitaciones de los modelos de predicción de estructuras actuales. Aunque se trata todavía de un trabajo preliminar, es un paso alentador en la dirección correcta. Por lo tanto, gracias al trabajo pionero de este equipo de investigación del MIT, la visión del diseño de proteínas que desempeña un papel fundamental para abordar los desafíos más apremiantes de la humanidad parece volverse más tangible».
Yim coescribió el artículo con el becario postdoctoral de la Universidad de Columbia Brian Trippe, Valentin De Bortoli, investigador del Centro para la Ciencia de los Datos del Centro Nacional de Investigación Científica de Francia en París, Emile Mathieu, becario postdoctoral de la Universidad de Cambridge, y Arnaud Doucet, profesor de estadística en la Universidad de Oxford y científico investigador senior en DeepMind. Los profesores del MIT Regina Barzilay y Tommi Jaakkola asesoraron sobre la investigación.
El trabajo del equipo fue apoyado en parte por la Clínica Abdul Latif Jameel del MIT para el Aprendizaje Automático en Salud, subvenciones EPSRC y una Asociación de Prosperidad entre Microsoft Research y la Universidad de Cambridge, el Programa de Becas de Investigación para Graduados de la Fundación Nacional de Ciencias, la subvención NSF Expeditions y el aprendizaje automático. apoyos para el Consorcio de Síntesis y Descubrimiento Farmacéutico, el programa DTRA Descubrimiento de Contramedidas Médicas contra Amenazas Nuevas y Emergentes, el programa DARPA Accelerated Molecular Discovery y la subvención de Diseño Computacional de Anticuerpos Sanofi. Esta investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático en julio.
[ad_2]