[ad_1]

Para diseñar proteínas con funciones útiles, los investigadores suelen comenzar con una proteína natural que tiene una función deseada, como emitir luz fluorescente, y la someten a muchas rondas de mutación aleatoria, produciendo finalmente una versión optimizada de la proteína.

Este proceso ha producido versiones optimizadas de muchas proteínas importantes, incluida la proteína verde fluorescente (GFP). Sin embargo, crear una versión optimizada ha resultado difícil para otras proteínas. Los investigadores del MIT han desarrollado ahora un enfoque computacional que facilita la predicción de mutaciones que conducen a mejores proteínas, basándose en una cantidad relativamente pequeña de datos.

Utilizando este modelo, los investigadores crearon proteínas con mutaciones que se predijo que conducirían a versiones mejoradas de GFP y una proteína del virus adenoasociado (AAV) que se utiliza para proporcionar ADN para la terapia génica. Esperan que también pueda utilizarse para desarrollar herramientas adicionales para la investigación neurocientífica y aplicaciones médicas.

“El diseño de proteínas es un problema difícil porque el mapeo desde la secuencia del ADN hasta la estructura y función de las proteínas es muy complejo. Puede haber una proteína grande a diez cambios de distancia en la secuencia, pero cualquier cambio intermedio podría corresponder a una proteína completamente no funcional. Es como intentar encontrar el camino hacia la cuenca del río en una cadena montañosa cuando los picos escarpados del camino bloquean la vista. «El trabajo actual intenta facilitar la búsqueda del lecho del río», dice Ila Fiete, profesora de ciencias cerebrales y cognitivas en el MIT, miembro del Instituto McGovern de Investigación del Cerebro del MIT y directora del Centro de Neurociencia Computacional Integrativa K. Lisa Yang. Centro y uno de los principales líderes Autores del estudio.

Regina Barzilay, profesora distinguida de IA y salud en la Facultad de Ingeniería del MIT, y Tommi Jaakkola, profesor Thomas Siebel de ingeniería eléctrica y ciencias de la computación en el MIT, también son autores principales de un artículo de acceso abierto sobre el trabajo que se publicará presentado. en la Conferencia Internacional sobre Representaciones del Aprendizaje en mayo. Los estudiantes graduados del MIT Andrew Kirjner y Jason Yim son los autores principales del estudio. Otros autores incluyen a Shahar Bracha, postdoctorado en el MIT, y Raman Samusevich, estudiante de doctorado en la Universidad Técnica Checa.

Optimización de proteínas.

Muchas proteínas naturales tienen funciones que podrían hacerlas útiles para investigación o aplicaciones médicas, pero requieren un poco de ingeniería adicional para optimizarlas. En este estudio, los investigadores estaban inicialmente interesados ​​en desarrollar proteínas que pudieran usarse como indicadores de voltaje en células vivas. Producidas por algunas bacterias y algas, estas proteínas emiten luz fluorescente cuando se detecta un potencial eléctrico. Si estas proteínas se desarrollaran para su uso en células de mamíferos, podrían permitir a los investigadores medir la actividad neuronal sin el uso de electrodos.

Aunque se han invertido décadas de investigación en el desarrollo de estas proteínas para producir una señal fluorescente más fuerte en un tiempo más corto, no se han vuelto lo suficientemente potentes para un uso generalizado. Bracha, que trabaja en el laboratorio de Edward Boyden en el Instituto McGovern, contactó al laboratorio de Fiete para ver si podían trabajar juntos en un enfoque computacional que pudiera ayudar a acelerar el proceso de optimización de las proteínas.

«Este trabajo ilustra el azar humano que caracteriza a tantos descubrimientos científicos», dice Fiete. “Surgió del Retiro Colectivo Yang Tan, una reunión científica de investigadores de múltiples centros del MIT con diferentes misiones, unidos por el apoyo colectivo de K. Lisa Yang. Aprendimos que algunos de nuestros intereses y herramientas para modelar cómo aprenden y optimizan los cerebros podrían aplicarse a un campo completamente diferente del diseño de proteínas, como se practica en el laboratorio de Boyden”.

Para cualquier proteína que los investigadores quieran optimizar, existe un número casi infinito de secuencias posibles que podrían crearse intercambiando diferentes aminoácidos en cualquier punto de la secuencia. Debido a que hay tantas variantes posibles, es imposible probarlas todas experimentalmente. Es por eso que los investigadores han recurrido a modelos informáticos para predecir qué variantes funcionarán mejor.

En este estudio, los investigadores intentaron superar estos desafíos utilizando datos de GFP para desarrollar y probar un modelo computacional que podría predecir mejores versiones de la proteína.

Comenzaron entrenando un tipo de modelo llamado red neuronal convolucional (CNN) con datos experimentales que consistían en secuencias de GFP y su brillo, la característica que querían optimizar.

El modelo pudo crear un «panorama de aptitud física», un mapa tridimensional que muestra la aptitud de una proteína determinada y cuánto se desvía de la secuencia original, basándose en una cantidad relativamente pequeña de datos experimentales (de aproximadamente 1.000 variantes). GFP).

Estos paisajes contienen picos que representan proteínas más en forma y valles que representan proteínas menos en forma. Puede ser difícil predecir el camino que debe tomar una proteína para alcanzar el pico de su aptitud, porque una proteína a menudo debe sufrir una mutación que la hace menos apta antes de alcanzar un pico cercano de mayor aptitud. Para resolver este problema, los investigadores utilizaron una técnica computacional existente para «suavizar» el panorama del fitness.

Después de que se suavizaron estos pequeños baches en el paisaje, los investigadores volvieron a entrenar el modelo de CNN y descubrieron que podía alcanzar picos de aptitud más grandes con mayor facilidad. El modelo pudo predecir secuencias de GFP optimizadas que tenían hasta siete aminoácidos diferentes de la secuencia de proteínas con la que comenzaron, y se estimó que la mejor de estas proteínas era aproximadamente 2,5 veces mejor que la original.

«Una vez que tenemos este paisaje que representa lo que el modelo cree que está cerca, lo suavizamos y luego volvemos a entrenar el modelo en la versión más suave del paisaje», dice Kirjner. “Ahora hay un camino fluido desde el punto de partida hasta la cima, que el modelo ahora puede lograr mediante pequeñas mejoras iterativas. A menudo no es posible lo mismo con paisajes no suavizados”.

Prueba conceptual

Los investigadores también demostraron que este enfoque funcionó bien en la identificación de nuevas secuencias para la cápside viral del virus adenoasociado (AAV), un vector viral comúnmente utilizado para la entrega de ADN. En este caso, optimizaron la cápside por su capacidad de empaquetar una carga útil de ADN.

«Utilizamos GFP y AAV como prueba de concepto para demostrar que es un método que funciona con conjuntos de datos que están muy bien caracterizados y, por lo tanto, podría ser aplicable a otros problemas de ingeniería de proteínas», dice Bracha.

Los investigadores ahora planean aplicar esta técnica computacional a los datos que Bracha generó sobre proteínas indicadoras de voltaje.

«Decenas de laboratorios han estado trabajando en esto durante dos décadas y todavía no hay nada mejor», afirma. «La esperanza es que al generar un conjunto de datos más pequeño, ahora podamos entrenar un modelo in silico y hacer predicciones que podrían ser mejores que las pruebas manuales de las últimas dos décadas».

La investigación fue financiada en parte por la Fundación Nacional de Ciencias de EE. UU., el Consorcio de Aprendizaje Automático para el Descubrimiento y Síntesis Farmacéuticos, la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud, el Programa DTRA de Descubrimiento de Contramedidas Médicas Contra Amenazas Nuevas y Emergentes y el Programa Acelerado DARPA. Molecular Discovery Program, la Beca de Diseño Computacional de Anticuerpos de Sanofi, la Oficina de Investigación Naval de EE. UU., el Instituto Médico Howard Hughes, los Institutos Nacionales de Salud, el Centro ICoN K. Lisa Yang y el Centro K. Lisa Yang y Hock E. Tan de Terapéutica Molecular del MIT.

[ad_2]