[ad_1]
Enormes bibliotecas de compuestos farmacológicos podrían ofrecer tratamientos potenciales para una variedad de enfermedades, como el cáncer o las enfermedades cardíacas. Lo ideal sería que los científicos probaran experimentalmente cada uno de estos compuestos frente a todos los objetivos posibles, pero dicha detección requiere un tiempo prohibitivo.
En los últimos años, los investigadores han comenzado a utilizar métodos computacionales para examinar estas bibliotecas con la esperanza de acelerar el descubrimiento de fármacos. Sin embargo, muchos de estos métodos también llevan mucho tiempo, ya que la mayoría calcula la estructura tridimensional de cada proteína objetivo a partir de su secuencia de aminoácidos y luego usa estas estructuras para predecir con qué moléculas de fármaco interactuará.
Investigadores del MIT y la Universidad de Tufts han desarrollado un enfoque computacional alternativo basado en un tipo de algoritmo de inteligencia artificial conocido como modelo de lenguaje grande. Estos modelos (un ejemplo bien conocido es ChatGPT) pueden analizar grandes cantidades de texto y determinar qué palabras (o aminoácidos en este caso) tienen más probabilidades de aparecer juntas. El nuevo modelo, llamado ConPLex, puede unir proteínas diana con posibles moléculas de fármaco sin tener que pasar por el paso computacional intensivo de calcular estructuras moleculares.
Con este método, los investigadores pueden examinar más de 100 millones de compuestos en un solo día, mucho más que cualquier modelo existente.
“Este trabajo aborda la necesidad de una detección in silico eficiente y precisa de posibles fármacos candidatos, y la escalabilidad del modelo permite realizar evaluaciones a gran escala para evaluar los efectos fuera del objetivo, la reutilización de medicamentos y determinar el impacto de las mutaciones en la unión de los medicamentos. ”, dice Bonnie Berger, profesora Simons de Matemáticas, líder del grupo de Computación y Biología en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y uno de los autores principales del nuevo estudio.
Lenore Cowen, profesora de informática en la Universidad de Tufts, también es autora principal del artículo, que aparece en la edición de esta semana. procedimientos de la Academia Nacional de Ciencias. Rohit Singh, científico investigador de CSAIL, y Samuel Sledzieski, estudiante de posgrado del MIT, son los autores principales del artículo, y Bryan Bryson, profesor asociado de bioingeniería en el MIT y miembro del Instituto Ragon de MGH, MIT y Harvard también es autor. Además del artículo, los investigadores han puesto su modelo a disposición en línea para que lo utilicen otros científicos.
hacer predicciones
En los últimos años, los científicos informáticos han logrado grandes avances en el desarrollo de modelos que pueden predecir las estructuras de las proteínas a partir de sus secuencias de aminoácidos. Sin embargo, utilizar estos modelos para predecir cómo una gran biblioteca de fármacos potenciales podría interactuar con una proteína cancerosa, por ejemplo, ha resultado difícil, en gran parte porque calcular las estructuras tridimensionales de las proteínas requiere una gran cantidad de tiempo y potencia computacional.
Otro obstáculo es que este tipo de modelos no tienen un buen historial en la eliminación de los llamados atrayentes, que son muy similares a un fármaco exitoso pero que en realidad no interactúan bien con el objetivo.
“Uno de los desafíos de larga data en este campo es que estos métodos son frágiles. Si le doy al modelo un fármaco o una molécula pequeña que se parece casi al original pero que es ligeramente diferente en aspectos sutiles, el modelo aún podría predecir que interactuarán incluso cuando no deberían», dice singh.
Los investigadores han diseñado modelos que pueden superar este tipo de fragilidad, pero generalmente se adaptan a una sola clase de moléculas de fármaco y no se prestan bien a la detección a gran escala porque los cálculos toman demasiado tiempo.
El equipo del MIT optó por un enfoque alternativo basado en un modelo de proteína que desarrollaron por primera vez en 2019. Utilizando una base de datos de más de 20.000 proteínas, el modelo de lenguaje codifica esta información en representaciones numéricas significativas de cada secuencia de aminoácidos que captura asociaciones entre orden y estructura.
«Con estos modelos de lenguaje, incluso proteínas que tienen secuencias muy diferentes pero que posiblemente tengan estructuras o funciones similares pueden representarse en este espacio de lenguaje de manera similar, y podemos usar esto para nuestras predicciones», dice Sledzieski.
En su nuevo estudio, los investigadores aplicaron el modelo de proteínas para descubrir qué secuencias de proteínas interactúan con moléculas de fármacos específicas. Ambos presentan representaciones numéricas que se transforman en un espacio común y compartido mediante una red neuronal. Entrenaron a la red en interacciones conocidas entre proteínas y medicamentos, lo que le permitió aprender a vincular características específicas de las proteínas con la capacidad de unión de medicamentos sin tener que calcular la estructura 3D de ninguna de las moléculas.
«Con esta representación numérica de alta calidad, el modelo puede cortocircuitar completamente la representación atómica y utilizar esos números para predecir si este fármaco se unirá o no», dice Singh. «La ventaja de esto es que no es necesario pasar por una representación atómica, pero los números aún contienen toda la información que necesitas».
Otro beneficio de este enfoque es que tiene en cuenta la flexibilidad de las estructuras de las proteínas, que pueden ser «tambaleantes» y adoptar formas ligeramente diferentes cuando interactúan con una molécula de fármaco.
Alta afinidad
Para reducir la probabilidad de que su modelo fuera engañado por moléculas de fármacos señuelo, los investigadores también construyeron una fase de entrenamiento basada en el concepto de aprendizaje contrastivo. En este enfoque, los investigadores dan al modelo ejemplos de drogas «reales» y de estafadores y le enseñan a distinguir entre ellos.
Luego, los investigadores probaron su modelo examinando una biblioteca de aproximadamente 4.700 posibles moléculas de fármacos para determinar su capacidad para unirse a un conjunto de 51 enzimas llamadas proteínas quinasas.
De los mejores resultados, los investigadores seleccionaron 19 pares de fármacos y proteínas para probarlos experimentalmente. Los experimentos revelaron que de los 19 resultados, 12 tenían una fuerte afinidad de unión (en el rango nanomolar), mientras que casi todos los otros posibles pares fármaco-proteína no mostraban afinidad. Cuatro de estos pares se combinaron con una afinidad subnanomolar extremadamente alta (tan fuerte que una pequeña concentración del fármaco, del orden de partes por mil millones, inhibe la proteína).
Si bien los investigadores se centraron principalmente en la detección de fármacos de molécula pequeña en este estudio, ahora están trabajando para aplicar este enfoque a otros tipos de fármacos, como los anticuerpos terapéuticos. Este tipo de modelado también podría resultar útil para realizar pruebas de toxicidad sobre posibles compuestos farmacológicos para garantizar que no tengan efectos secundarios indeseables antes de probarlos en modelos animales.
“Una de las razones por las que la investigación sobre medicamentos es tan costosa es que tiene altas tasas de fracaso. Si podemos reducir estas tasas de fracaso diciendo desde el principio que es poco probable que este fármaco funcione, se podría contribuir en gran medida a reducir el coste del desarrollo del fármaco», afirma Singh.
Este nuevo enfoque «representa un avance significativo en la predicción de interacciones entre fármacos y objetivos y abre vías adicionales para que futuras investigaciones mejoren aún más sus capacidades», afirma Eytan Ruppin, director del Laboratorio de Ciencias de Datos sobre el Cáncer del Instituto Nacional del Cáncer, que no participó en el estudio. el estudio. «Por ejemplo, incorporar información estructural en el espacio latente o explorar métodos de generación molecular para crear señuelos podría mejorar aún más las predicciones».
La investigación fue financiada por los Institutos Nacionales de Salud, la Fundación Nacional de Ciencias y la Fundación Phillip y Susan Ragon.
[ad_2]