[ad_1]
Las bases de datos de secuencias microbianas contienen una gran cantidad de información sobre enzimas y otras moléculas que podrían adaptarse a la biotecnología. Sin embargo, estas bases de datos se han vuelto tan grandes en los últimos años que se ha vuelto difícil buscar eficientemente enzimas de interés.
Ahora, científicos del Instituto McGovern para la Investigación del Cerebro del MIT, el Instituto Broad del MIT y Harvard, y el Centro Nacional de Información Biotecnológica (NCBI) de los Institutos Nacionales de Salud han desarrollado un nuevo algoritmo de búsqueda que ha identificado 188 nuevas especies de especies raras. Sistemas CRISPR en genomas bacterianos que comprenden miles de sistemas individuales. El trabajo se publica hoy en Ciencia.
El algoritmo, que proviene del laboratorio del profesor Feng Zhang, investigador pionero de CRISPR, utiliza enfoques de agrupación de big data para examinar rápidamente cantidades masivas de datos genómicos. El equipo utilizó su algoritmo llamado Fast Locality-Sensitive Hashing-based Clustering (FLSHclust) para buscar en tres grandes bases de datos públicas que contienen datos de una variedad de bacterias inusuales, incluidas las que se encuentran en minas de carbón, cervecerías, lagos antárticos y en la saliva de los animales. perros. Los científicos encontraron una sorprendente cantidad y variedad de sistemas CRISPR, incluidos aquellos que pueden editar el ADN en células humanas, otros que pueden apuntar al ARN y muchos con una variedad de otras funciones.
Los nuevos sistemas podrían usarse potencialmente para editar células de mamíferos con menos efectos fuera del objetivo que los sistemas Cas9 actuales. Algún día también podrían utilizarse para diagnóstico o servir como registro molecular de la actividad dentro de las células.
Los investigadores dicen que su búsqueda destaca un nivel sin precedentes de diversidad y flexibilidad de CRISPR y que es probable que se descubran muchos más sistemas raros a medida que las bases de datos sigan creciendo.
«La biodiversidad es un tesoro escondido y, a medida que secuenciamos más y más genomas y muestras metagenómicas, existe una creciente necesidad de mejores herramientas como FLSHclust para explotar este espacio de secuencia y encontrar las gemas moleculares», dice Zhang, coautor principal. del estudio y James y Patricia Poitras Profesor de Neurociencia en el MIT con nombramientos conjuntos en los departamentos de Ciencias Cognitivas y del Cerebro y Bioingeniería. Zhang también es investigador del Instituto McGovern para la Investigación del Cerebro del MIT, miembro principal del Broad e investigador del Instituto Médico Howard Hughes. Eugene Koonin, investigador distinguido del NCBI, también es coautor principal del estudio.
Buscando CRISPR
CRISPR, que significa repeticiones palindrómicas cortas agrupadas regularmente interespaciadas, es un sistema de defensa bacteriana que se ha integrado en muchas herramientas de diagnóstico y edición del genoma.
Para buscar en bases de datos de secuencias de proteínas y ácidos nucleicos nuevos sistemas CRISPR, los investigadores desarrollaron un algoritmo basado en un enfoque adoptado por la comunidad de big data. Esta técnica, llamada hash sensible a la ubicación, agrupa objetos que son similares pero no exactamente idénticos. Utilizando este enfoque, el equipo pudo examinar miles de millones de secuencias de proteínas y ADN (del NCBI, su base de datos Whole Genome Shotgun y el Joint Genome Institute) en unas semanas, mientras que los métodos anteriores que buscaban objetos idénticos habrían llevado meses. Diseñaron su algoritmo para buscar genes asociados con CRISPR.
«Este nuevo algoritmo nos permite analizar datos en un período de tiempo lo suficientemente corto como para producir resultados y generar hipótesis biológicas», dice Soumya Kannan PhD ’23, uno de los primeros coautores del estudio. Kannan era un estudiante de posgrado en el laboratorio de Zhang cuando comenzó el estudio y actualmente es becario postdoctoral y becario junior en la Universidad de Harvard. Han Altae-Tran PhD ’23, estudiante de posgrado en el laboratorio de Zhang durante el estudio y actualmente becario postdoctoral en la Universidad de Washington, fue el otro coprimer autor del estudio.
«Esta es una prueba de lo que se puede lograr mejorando los métodos de exploración y utilizando la mayor cantidad de datos posible», afirma Altae-Tran. «Es realmente emocionante poder mejorar el alcance de nuestra búsqueda».
Nuevos sistemas
En su análisis, Altae-Tran, Kannan y sus colegas descubrieron que los miles de sistemas CRISPR que encontraron se clasificaban en algunas categorías existentes y muchas nuevas. Varios de los nuevos sistemas se examinaron con más detalle en el laboratorio.
Encontraron varias variantes nuevas de sistemas CRISPR de tipo I conocidos que utilizan un ARN guía de 32 pares de bases en lugar del ARN guía de 20 nucleótidos de Cas9. Debido a sus ARN guía más largos, estos sistemas de tipo I podrían usarse para desarrollar una tecnología de edición de genes más precisa que sea menos susceptible a la edición fuera del objetivo. El equipo de Zhang demostró que dos de estos sistemas pueden realizar breves intervenciones en el ADN de las células humanas. Y debido a que estos sistemas de Tipo I son similares en tamaño a CRISPR-Cas9, probablemente podrían transferirse a células animales o humanas utilizando las mismas tecnologías de administración de genes que se utilizan para CRISPR en la actualidad.
Uno de los sistemas de Tipo I también mostró “actividad colateral”: una extensa degradación de los ácidos nucleicos después de que la proteína CRISPR se une a su objetivo. Los científicos han utilizado sistemas similares para diagnosticar enfermedades infecciosas, como SHERLOCK, una herramienta que puede detectar rápidamente una sola molécula de ADN o ARN. El equipo de Zhang cree que los nuevos sistemas también podrían adaptarse a tecnologías de diagnóstico.
Los investigadores también descubrieron nuevos mecanismos de acción para algunos sistemas CRISPR de tipo IV y un sistema de tipo VII que se dirige específicamente al ARN y podría usarse potencialmente en la edición de ARN. Otros sistemas podrían usarse potencialmente como herramientas de registro (un registro molecular de cuándo se expresó un gen) o como sensores de actividades específicas en una célula viva.
Datos mineros
Los científicos dicen que su algoritmo podría ayudar a buscar otros sistemas bioquímicos. “Este algoritmo de búsqueda podría ser utilizado por cualquiera que quiera trabajar con estas grandes bases de datos para estudiar la evolución de proteínas o descubrir nuevos genes”, afirma Altae-Tran.
Los investigadores añaden que sus resultados no sólo ilustran cuán diversos son los sistemas CRISPR, sino también que la mayoría son raros y sólo se encuentran en bacterias inusuales. «Algunos de estos sistemas microbianos se han encontrado exclusivamente en el agua de las minas de carbón», dice Kannan. “Si alguien no estuviera interesado, es posible que nunca hubiésemos visto estos sistemas. Ampliar nuestra diversidad de muestras es realmente importante para aumentar aún más la diversidad de lo que podemos descubrir”.
Este trabajo fue apoyado por el Instituto Médico Howard Hughes; el Centro de Terapéutica Molecular K. Lisa Yang y Hock E. Tan del MIT; Donante de obsequios de Therapeutics programables del Broad Institute; La Fundación Pershing Square, William Ackman y Neri Oxman; James y Patricia Poitras; Fundación Caritativa BT; Fundación de la Familia Asness; Kenneth C. Grifo; la familia Phillips; David Cheng; y Robert Metcalfe.
[ad_2]