banner
Hogar / Blog / MArVD2: una herramienta mejorada de aprendizaje automático para discriminar entre virus arqueales y bacterianos en conjuntos de datos virales
Blog

MArVD2: una herramienta mejorada de aprendizaje automático para discriminar entre virus arqueales y bacterianos en conjuntos de datos virales

Aug 11, 2023Aug 11, 2023

Comunicaciones ISME volumen 3, Número de artículo: 87 (2023) Citar este artículo

370 Accesos

10 altmétrico

Detalles de métricas

Nuestro conocimiento del espacio de secuencia viral se ha disparado con el avance de las tecnologías de secuenciación y los esfuerzos analíticos y de muestreo a gran escala. Aunque las arqueas son procariotas importantes y abundantes en muchos sistemas, nuestro conocimiento sobre los virus de las arqueas fuera de entornos extremos es limitado. Esto se debe en gran medida a la falta de una forma sólida, de alto rendimiento y sistemática de distinguir entre virus bacterianos y arqueales en conjuntos de datos de virus seleccionados. Aquí actualizamos nuestra herramienta anterior basada en texto (MArVD) mediante el entrenamiento y la prueba de un algoritmo de aprendizaje automático de bosque aleatorio contra un conjunto de datos recientemente seleccionado de virus de arqueas. Después de la optimización, MArVD2 presentó una mejora significativa con respecto a su predecesor en términos de escalabilidad, usabilidad y flexibilidad, y permitirá conjuntos de datos de entrenamiento personalizados definidos por el usuario a medida que avance el descubrimiento de virus de arqueas. La evaluación comparativa mostró que un modelo entrenado con secuencias virales de ambientes hipersalinos, marinos y de aguas termales clasificó correctamente el 85% de los virus de arqueas con una tasa de detección falsa inferior al 2% utilizando un umbral de predicción forestal aleatoria del 80% en un conjunto de datos de evaluación comparativa separado de los mismos hábitats.

Los ciclos de nutrientes y energía de la Tierra están impulsados ​​por pequeños motores microbianos [1]. Si bien las bacterias se estudian con mayor frecuencia, cada vez se reconoce más que las arqueas también son fundamentales [2, 3]. Por ejemplo, las arqueas pueden comprender casi la mitad de la comunidad microbiana del océano mesopelágico [2]. Aquí, las Nitrososphaeria (anteriormente Thaumarchaeota) son los principales oxidantes de amoníaco, contribuyen a las emisiones globales de gases de efecto invernadero (N2O) y representan la mayor parte de la pérdida de nitrógeno fijo debajo de la zona fótica [3,4,5]. En las últimas décadas, una retroalimentación entre la expansión impulsada por el cambio climático de las regiones bajas en oxígeno en el océano mesopelágico, donde prosperan los Nitrososphaeria, y el posterior aumento de las emisiones de gases de efecto invernadero de estas regiones, está poniendo en peligro algunos de los ambientes marinos más productivos del mundo [6,7 ,8]. En humedales y suelos de permafrost, la Euryarchaeota metanogénica dominante representa hasta el 40% de la producción mundial de metano, gran parte del cual se oxida aún más por metanótrofos concurrentes [9]. Esto es especialmente preocupante ya que gran parte del carbono del suelo mundial se almacena en regiones de permafrost, que se están convirtiendo rápidamente en humedales a medida que aumentan las temperaturas globales, lo que representa una posible fuente importante de metano atmosférico en el futuro [10]. Dada la abundancia y las funciones biogeoquímicas críticas que desempeñan las arqueas en estos y otros sistemas, el conocimiento de los virus que las infectan es esencial para realizar evaluaciones ecológicas sólidas y modelos climáticos predictivos.

Así como las bacterias han sido bien estudiadas en relación con las arqueas en la mayoría de los ecosistemas naturales, lo mismo ocurre con los bacteriófagos en relación con los virus de las arqueas. Los avances en la secuenciación metagenómica, el proceso ecogenómico de muestra a secuencia, las mejores prácticas en identificación viral [11,12,13,14] y plataformas analíticas como iVirus que democratizaron estas capacidades [15, 16], han permitido el descubrimiento de cientos de miles de virus bacterianos, o fagos, de entornos de todo el mundo [17,18,19,20]. A estos fagos se les atribuye un impacto sustancial en la mortalidad del huésped, la transferencia horizontal de genes y la reprogramación metabólica [21,22,23,24,25,26,27], de manera que impactan funciones críticas de los ecosistemas, como el ciclo global del carbono oceánico [28]. Por lo tanto, nuestra capacidad para "ver" los fagos es fuerte, y esto ha resultado en avances transformadores en nuestra comprensión de cómo los fagos impactan los ecosistemas.

Por el contrario, los virus de las arqueas, que tradicionalmente se han estudiado en ambientes “extremos”, como aguas termales ácidas, estanques hipersalinos, sedimentos anaeróbicos o respiraderos hidrotermales, están muy poco representados en la mayoría de los estudios basados ​​en metagenomas a escala global [29,30,31, 32,33]. Por ejemplo, hasta la fecha, se han identificado de forma confidencial menos de 230 virus de arqueas marinas entre múltiples estudios metagenómicos o basados ​​en cultivos [18, 32, 34,35,36,37,38,39,40,41,42]. mientras que un reciente estudio global de los océanos ha revelado más de 488.000 poblaciones virales, la mayoría de las cuales se presume que son fagos [17]. En total, estimamos que ahora hay genomas bien documentados o grandes fragmentos de genoma disponibles de menos de ~380 virus de arqueas, con otros 6027 supuestos virus de arqueas en IMG/VR-db v3.0, [43] que es una pequeña fracción en comparación con los cientos de miles de genomas de población ahora disponibles para fagos [17,18,19,20]. Una explicación para esto puede ser que el descubrimiento de nuevos virus de arqueas se basa en gran medida en búsquedas de homología de secuencias en bases de datos de referencia públicas pobladas por virus de ambientes extremos y muchos virus de arqueas carecen de homología con estas referencias [44]. Estos virus de arqueas "extremos" quizás no sean buenos representantes de aquellos virus de arqueas de entornos relativamente no extremos, independientemente de la increíble variedad de morfologías y estilos de vida que exhiben [29, 45,46,47,48]. Por lo tanto, distinguir los bacteriófagos de los virus de las arqueas en conjuntos de datos de entornos relativamente no extremos, utilizando los enfoques actuales, sigue siendo un desafío, a pesar de las claras diferencias genómicas y evolutivas entre los fagos y los virus de las arqueas [29, 45, 46, 49,50,51,52]. ]. Como consecuencia, las funciones ecológicas de los virus de arqueas en entornos relativamente no extremos siguen sin estar claras, incluso aunque la evidencia sugiere que pueden ser parte integral del ciclo biogeoquímico y la dinámica de la comunidad huésped [36, 53, 54, 55].

El enfoque actual para la identificación de virus de arqueas a partir de datos metagenómicos se basa en búsquedas de similitud de secuencias entre bases de datos de referencia, lo cual es muy limitante dada la escasez de genomas de referencia de virus de arqueas no extremos. Sin embargo, utilizando este enfoque, previamente desarrollamos una herramienta basada en anotaciones, el Metagenome Archaeal Virus Detector o MArVD, para identificar virus de arqueas y la utilizamos para descubrir 43 virus de arqueas a partir de un conjunto de datos metagenómicos de zona mínima de oxígeno marino [32]. MArVD ahora está listo para una actualización por tres razones: (i) la herramienta original depende de otro software no compatible [56], (ii) el aprendizaje automático ha surgido como un poderoso habilitador de la ecogenómica de virus para este tipo de tarea de clasificación (es decir, DeepVirFinder [57], MARVEL [58], VIBRANT [59] y Virsorter2 [60]), y (iii) hay un conjunto creciente de nuevos datos genómicos de referencia disponibles debido a los esfuerzos de varios grupos que identifican manualmente los virus de arqueas a partir de la secuenciación metagenómica. conjuntos de datos [32,33,34,35,36,37] y conjuntos de datos aislados [38,39,40,41,42].

Aquí presentamos y comparamos ampliamente MArVD2 (Metagenomic Archaeal Virus Detector v2.0) como una actualización basada en aprendizaje automático de MArVD que utiliza datos seleccionados de virus de arqueas de entornos extremos y no extremos para aprovechar mejor las características genómicas representativas de dichos virus de arqueas. para el descubrimiento de nuevos virus de arqueas. MArVD2 toma como entrada un conjunto de datos de contigs virales, preidentificados a partir de herramientas como DeepVirFinder [57], MARVEL [58], VIBRANT [59] y Virsorter2, y devuelve una lista de virus con su probabilidad de ser una arquea. virus.

MArVD2 es un clasificador de bosque aleatorio, implementado en el paquete scikit-learn python para el descubrimiento de nuevos virus de arqueas (Fig. 1) [61] donde se entrena y prueba con conjuntos de datos separados de virus de arqueas para representar mejor su rendimiento en una variedad de entornos ( Figura 1). La integración de MArVD2 con el aprendizaje automático introduce varias mejoras prácticas y de rendimiento con respecto a MArVD (versión 1) [32], incluida una usabilidad mejorada, con menos dependencia de otro software de usuario final, mayor sensibilidad y mayor flexibilidad para adaptarse a medida que surgen nuevas bases de datos de virus arqueales. MArVD2 conserva la altísima precisión de su predecesor con mayor precisión, lo que permite una detección sólida de virus de arqueas a gran escala a partir de conjuntos de datos metagenómicos.

Una representación de los principales pasos de procesamiento de datos y conjuntos de datos aprovechados en el desarrollo y evaluación comparativa de MArVD2. MArVD2, como se describe en el presente documento, funciona en tres modos. Primero (en verde), se utiliza un conjunto de datos de entrenamiento de virus y fagos de arqueas seleccionados y varias bases de datos de virus y fagos de arqueas de referencia para desarrollar un modelo para la identificación de virus de arqueas. En segundo lugar (en naranja), el modelo se implementa con virus y fagos de arqueas seleccionados adicionales como conjunto de datos de evaluación comparativa para evaluar el rendimiento de los modelos. En tercer lugar (en azul), un usuario proporcionará su propio conjunto de datos de virus dsDNA no clasificados para la predicción de virus de arqueas utilizando el modelo de referencia. Consulte el texto para obtener una descripción del conjunto de datos.

Para representar mejor los virus de arqueas de entornos extremos y relativamente no extremos, primero seleccionamos varias colecciones de virus y fagos de arqueas de una variedad de hábitats para que sirvan como conjuntos de datos de referencia para compararlos con los datos de entrenamiento, los datos de entrenamiento para la generación de características y la evaluación comparativa. conjuntos de datos para la validación del modelo. Las bases de datos de referencia utilizadas para la identificación de características genómicas incluyeron virus de arqueas y grupos de proteínas de fagos de repositorios disponibles públicamente (NCBI nr, [62] y pVOGs [63]) y una base de datos personalizada de 206 virus de arqueas de los océanos, donde se están buscando nuevos virus de arqueas. descubierto rápidamente, curado aquí como OcAVdb o Ocean Archaeal Virus Database (consulte a continuación los métodos para obtener detalles de curación) [18, 32, 34,35,36,37,38,39, 41, 42]. El conjunto de datos de entrenamiento para la generación aleatoria del modelo forestal incluye 70 virus de arqueas no marinas de la base de datos curada VirSorter [64], 350 virus de arqueas marinas putativos identificados en el Pacífico Sur Tropical Oriental (ETSP) [65, 66] y 437 virus de arqueas marinas identificados en el Pacífico Sur Tropical Oriental (ETSP) [65, 66] bacteriófagos seleccionados de RefSeq viral (v85) [62], la base de datos seleccionada VirSorter [64] y el conjunto de datos ETSP (Fig. 1) [65, 66]. Finalmente, un conjunto de datos de evaluación comparativa utilizado para examinar el rendimiento de MArVD2 bajo una variedad de restricciones estaba compuesto por 230 virus de arqueas putativos y una selección aleatoria de fagos con genomas de más de 10 kb del IMG/VR-db v2.0 [67]. junto con 25 virus de arqueas marinas recientemente identificados en dos estaciones en el conjunto de datos Tara Oceans GOV2.0 [17] en entornos enriquecidos para arqueas (estaciones 72_MES y 122_MES). Por lo tanto, además de los virus de arqueas que ya están disponibles en las bases de datos NCBI y pVOGs, aprovechamos un total de otros 881 virus de arqueas de ambientes marinos, hipersalinos, de aguas termales y anóxicos para referencia, capacitación y conjuntos de datos de evaluación comparativa, estableciendo una base sólida. para representar virus de arqueas de entornos extremos y relativamente no extremos.

A continuación, intentamos confirmar que los virus de arqueas recopilados para los conjuntos de datos de referencia, entrenamiento y evaluación comparativa eran de hecho virus de arqueas. Anteriormente, esto se hacía mediante una meticulosa selección manual de redes de intercambio de genes, análisis filogenético, comparaciones de homología de secuencias y anotaciones funcionales y taxonómicas, cada una de las cuales ha revelado que los virus de arqueas se distinguen de los fagos utilizando estos enfoques [18, 32, 34, 35]. ,36,37]. Por lo tanto, la confirmación manual de arqueas como el probable huésped de los virus de arqueas de referencia en OcAVdb, los virus de arqueas de entrenamiento y los virus de arqueas de evaluación comparativa se realizó de la siguiente manera. En primer lugar, se utilizó vConTACT2 [68] para determinar si los virus de arqueas se agruparían entre sí y se separarían de los fagos como se observó anteriormente (Fig. 2) [32, 49, 50, 52]. En segundo lugar, se utilizó la inspección manual de las anotaciones taxonómicas y funcionales por gen, proporcionadas por DRAMv [69], para identificar arqueas o firmas de virus arqueales en cada secuencia (Tabla complementaria 1).

Todas las secuencias utilizadas para el desarrollo y prueba de MArVD2 están incluidas en esta red, creada por vConTACT2. Los virus de referencia aquí incluyen virus de RefSeq v85 así como OcAVdb. Los virus de entrenamiento son aquellos seleccionados a partir de los conjuntos de datos de ETSP y VirSorter, como se detalla en el texto. Los virus de evaluación comparativa son aquellos seleccionados a partir del conjunto de datos de prueba IMG/VR y GOV2.0, como se detalla en el texto. Los virus de los conjuntos de datos de evaluación comparativa están codificados por colores como virus de arqueas o fagos predichos, tanto de MArVD como de MArVD2. Los módulos de red se agruparon según la inclusión de virus de arqueas de referencia (virus de arqueas), fagos de referencia (fagos) o virus sin referencia (huésped desconocido).

Primero, el análisis de red [68] con las referencias de OcAVdb y los virus de arqueas de entrenamiento utilizados para el desarrollo del modelo revelaron que la mayoría de estos virus de arqueas se agrupaban entre sí y/o con otros virus de arqueas de referencia (Fig. 2) (Tabla complementaria 2). De los 626 virus de arqueas seleccionados para la base de datos de referencia OcAVdb y los datos de entrenamiento, 569 se agruparon en 71 grupos virales o VC (aproximadamente grupos taxonómicos a nivel de género [68]) con 45 valores atípicos y 12 únicos. En conjunto, estos representaban 18 módulos de red (grupos virales interconectados que comparten una fracción de sus genes [68]) que no compartían superposición con los fagos (Tabla complementaria 2). El análisis de la red vConTACT2 reveló además agrupaciones de virus arqueales en módulos aparentemente asociados con Poseidonales o Nitrososphaeria por separado, lo que corrobora en gran medida los huéspedes predichos de estos virus a partir de sus respectivos estudios (Tabla complementaria 2) [18, 32, 34,35,36,37 ]. Una inspección más detallada de la anotación funcional de la referencia OcAVdb y los virus de arqueas de entrenamiento reveló que en promedio el 17% (stdev 11%) y el 27% (stdev 23%) de los ORF por secuencia recibieron alguna anotación, respectivamente, de KEGG [70] o NCBI viral [62] según DRAMv [69] (Tabla complementaria 1). El conjunto de datos de entrenamiento probablemente recibió más anotaciones debido a la inclusión de una mayor proporción de virus de arqueas de ambientes hipersalinos donde los virus de arqueas están mejor caracterizados [52]. De los ORF de virus de arqueas que recibieron alguna anotación en la base de datos de referencia OcAVdb y el conjunto de datos de entrenamiento, el 55% (stdev 25%) y el 71% (stdev 21%), respectivamente, estaban afiliados a arqueas de referencia o virus de arqueas. En OcAVdb y en los conjuntos de datos de entrenamiento, todas menos 6 y 2 secuencias, respectivamente, codificaron al menos un ORF similar al virus de arqueas, y aquellas que generalmente no tenían una proporción muy baja de sus genes anotados (Tabla complementaria 1). En particular, al principio de la curación de OcAVdb, se eliminaron 20 contigs como probables virus de arqueas identificados erróneamente debido a una baja proporción de genes afiliados con virus de arqueas o arqueas de referencia (sólo 9 de un total de 358 ORF anotados) y a una agrupación de redes inconsistente con lo que Se espera de los virus de arqueas [32, 49, 50, 52]. La mayoría de estos fueron identificados originalmente mediante métodos de predicción del huésped basados ​​en la frecuencia de k-mer, que pueden ser defectuosos si el conjunto de datos del huésped no representa bien la diversidad de la comunidad microbiana concurrente (Tabla complementaria 2) [71]. Como contrapunto, utilizando el mismo enfoque anterior, inspeccionando ahora la anotación funcional de 200 fagos seleccionados aleatoriamente del conjunto de datos de entrenamiento reveló que en promedio el 70% (stdev 33%) de los ORF de los fagos estaban anotados y solo el 2% (stdev 6% ) de estos afiliados a arqueas o virus de arqueas de referencia (Tabla complementaria 1). Si bien varios de estos fagos se derivaron de bases de datos públicas bien seleccionadas (NCBI [62] y el conjunto de datos curado de Virsorter [64]) y representan virus excepcionalmente bien anotados, esto sugiere, sin embargo, que los fagos tendrán una proporción relativamente baja de ORF afiliados. con arqueas o virus de arqueas, en relación con virus de arqueas genuinos.

A continuación, la curación manual de los virus de arqueas de evaluación comparativa utilizados para evaluar el rendimiento del modelo de bosque aleatorio aprovecha una vez más el análisis de red [68] y las anotaciones funcionales [69]. El análisis de red con el conjunto de datos de evaluación comparativa reveló que 649 de las 1402 secuencias totales (183 virus de arqueas y 465 fagos) se agruparon en 234 VC (56 virus de arqueas, 178 fagos) con 354 valores atípicos de VC (68 virus de arqueas y 287 fagos) y 399 singletons ( 23 virus de arqueas y 376 fagos) (Fig. 2, Tabla complementaria 2). De los 1003 virus agrupados o atípicos, 201 virus de arqueas y 582 fagos se agruparon en módulos con los correspondientes virus de arqueas o fagos de las bases de datos OcAVdb, NCBI [62] o pVOGs [63]. De ahora en adelante, nos referiremos a aquellos virus de arqueas que se encuentran en el mismo módulo con virus de arqueas de referencia como "virus de arqueas verificados", mientras que aquellos fagos que se agrupan con fagos de referencia como "fagos verificados". Los virus de arqueas de referencia que se agrupan entre sí pero sin virus de referencia se consideraron "virus de arqueas putativos", y aquellos que no se resolvieron en la red en absoluto se denominan "virus únicos de arqueas", nuevamente con una nomenclatura equivalente para los fagos. . Sorprendentemente, 20 fagos IMG/VR adicionales [67], agrupados con virus de arqueas de OcAVdb, NCBI [62] o la base de datos VirSorter [64], posiblemente indican una anotación errónea de estos virus en IMG/VR y elevan el número total de virus de arqueas verificados hasta 221 (Tabla complementaria 2).

Las anotaciones funcionales y taxonómicas para los virus de arqueas en el conjunto de datos de evaluación comparativa revelaron que un promedio del 47% (stdev 33%) de los ORF por secuencia reciben una anotación de DRAMv [69]. De los ORF que recibieron una afiliación, el 76% (desv estándar 30%) coincidieron con arqueas o virus de arqueas de las bases de datos virales KEGG [70] o NCBI [62]. Solo 10 de estas secuencias no codificaron ninguna señal de arquea detectable, 7 de las cuales tienen <10% de ORF que reciben alguna afiliación. Entre los 20 fagos IMG/VR [67] predichos como virus de arqueas, el 78% (desv estándar 28%) de los genes anotados coincidían con arqueas o virus de arqueas (Tabla complementaria 1).

Estos análisis, realizados tanto por redes de intercambio de genes como por anotaciones funcionales genómicas, indican que los virus de arqueas en la base de datos de referencia OcAVdb, el conjunto de datos de entrenamiento y el conjunto de datos de evaluación comparativa tienen más probabilidades de ser virus de arqueas auténticos. Fundamentalmente, estas bases de datos seleccionadas amplían drásticamente las referencias de virus de arqueas disponibles, que ahora se pueden aprovechar para el descubrimiento de virus de arqueas más sensibles en entornos no extremos.

Con los datos de referencia, capacitación y evaluación comparativa ahora suficientes, buscamos desarrollar la herramienta, MArVD2, para una identificación de virus de arqueas más escalable, fácil de usar y sensible mediante la incorporación del aprendizaje automático. Con este fin, MArVD2 primero completa una tabla de características que consta de un conjunto de 27 características genómicas, que hemos predeterminado para que sean informativas para la identificación de virus de arqueas (Tabla complementaria 3), aprovechando varias bases de datos y herramientas de la siguiente manera. En primer lugar, los ORF se predicen con Prodigal [72], lo que proporciona información sobre la longitud y la densidad de los genes y el sesgo de las cadenas. En segundo lugar, se proporcionan anotaciones funcionales y taxonómicas mediante el uso de (i) MMseq2 [73] para buscar regiones codificantes de proteínas frente a virus en la base de datos NCBI nr [62] (ii) hmmsearch [74] para buscar en la base de datos pVOGs [63], y (iii) búsquedas iterativas jackhmmer [74] contra OcAVdb (Fig. 1). Luego se utiliza una validación cruzada quíntuple para identificar y retener de forma recursiva solo las características más importantes según el índice de importancia de Gini [75] (Figuras complementarias 1A, B). Finalmente, MArVD2 implementa la tabla de características resultante en el desarrollo de un modelo de aprendizaje automático de bosque aleatorio para la identificación de virus de arqueas, dividiendo los datos de entrenamiento en conjuntos de datos de entrenamiento y de prueba listos para usar en una proporción de 70:30, respectivamente [75]. .

La evaluación del desarrollo del modelo de bosque aleatorio revela que MArVD2 exhibe un alto grado de rendimiento con el conjunto de datos de entrenamiento. Utilizando permutaciones del conjunto de datos de entrenamiento y prueba lista para usar, la puntuación F1 (media armónica de la precisión y la recuperación, con una puntuación de 1 que indica precisión y recuperación perfectas) para el desarrollo del modelo se estabilizó en 0,98 con la inclusión de solo 8 de las características más importantes a pesar de que se identificaron las 27 características que contribuyen al rendimiento óptimo del modelo (Figura complementaria 1A). Esto también se refleja en una puntuación de importancia de Gini considerablemente más alta para estas 8 características (Figura 1B complementaria), lo que indica que solo se requería un subconjunto de las 27 características para una identificación precisa del virus de las arqueas. Mientras se construía el modelo de bosque aleatorio (que no debe confundirse con la implementación posterior con el conjunto de datos de evaluación comparativa), solo 19 de las 857 secuencias de entrenamiento (10 virus de arqueas y 9 fagos) tenían clasificaciones inconsistentes, según el análisis de agrupamiento jerárquico con la proximidad aleatoria del bosque. matriz (Figura complementaria 2). La matriz de proximidad en este caso es una medida de similitud entre los nodos terminales de todos los árboles de decisión en el modelo de bosque aleatorio entre las secuencias dadas. Los 10 eran virus de halobacterias, metanobacterias o termococos. Una inspección más detallada de las secuencias de Thermococci reveló que esta y otra secuencia son plásmidos similares a pTN2 que comparten ampliamente genes de replicación y regulación con otros virus de Thermococcales [76, 77], lo que resalta aún más el valor de la iteración entre clasificaciones de modelos y la inspección manual. La principal diferencia entre el resto de estos valores atípicos de proximidad y los otros datos de entrenamiento fue un número reducido de aciertos en OcAVdb (media 3,74 ± 1,72 frente a media 18,02 ± 20,6, ANOVA p = 0,002), la segunda característica más importante en los modelos. rendimiento, lo que sugiere que la base de datos de referencia OcAVdb no es representativa de estos valores atípicos. Además, de estos 19 valores atípicos de proximidad mal caracterizados, 16 eran únicos o valores atípicos en el análisis de la red vConTACT2 [68], lo que nuevamente indica que estas secuencias representan un espacio de secuencia mal cubierto, a menudo con representantes incompletos, en las bases de datos de referencia (Tablas complementarias 2). y 3). Sin embargo, la alta precisión en la clasificación del resto de los 410 virus de arqueas nos obligó a evaluar más a fondo la precisión del modelo en un conjunto de datos separado.

La clasificación aleatoria de los bosques se extrae de las designaciones colectivas de todos los árboles de decisión por consulta de entrada, donde la probabilidad de predicción es la proporción de árboles que coinciden en una clasificación particular [61]. Estas probabilidades de predicción pueden interpretarse como intervalos de confianza y proporcionan un alto grado de resolución para discernir el rango de predicciones en las que MArVD2 será confiable (Fig. 1) [61]. Sin embargo, estas métricas de confianza se derivan del conjunto de entrenamiento, y es una buena práctica verificarlas utilizando un conjunto de datos de evaluación comparativa independiente, que aquí incluye virus de arqueas y fagos de una amplia gama de entornos (ver arriba). De los 221 virus de arqueas verificados en el conjunto de datos de evaluación comparativa, MArVD2 clasificó correctamente 212, incluidos 13 de los fagos predichos por IMG/VR que se agrupan con virus de arqueas de referencia, mientras que solo se omitieron 9 virus de arqueas verificados (Tabla complementaria 4). Otros 47 supuestos virus de arqueas también fueron clasificados correctamente por MArVD2. MArVD2 clasificó incorrectamente solo 18 de los 582 fagos verificados como virus de arqueas (Fig. 3A). En general, MArVD2 tuvo un TPR, ACC, SPEC, MCC y FDR de 0,96, 0,97, 0,97, 0,92 y 0,08, respectivamente (Fig. 3B) (consulte la Fig. 3 complementaria para obtener definiciones métricas). Estos resultados se pueden comparar con lo que se podría esperar de una búsqueda de homología guiada sin aprendizaje automático al considerar el mismo análisis, utilizando el MArVD original (esencialmente un conjunto de reglas para la identificación de virus de arqueas mediante búsquedas de homología). El MArVD original tenía un TPR, ACC, SPEC, MCC y FDR de 0,98, 0,92, 0,90, 0,79 y 0,27, respectivamente, lo que revela que MArVD2 tenía una precisión mucho mayor pero una precisión ligeramente reducida en relación con MArVD (Fig. 3B) [32] . Junto con el hecho de que el MArVD original ya no es funcional debido a su dependencia de software no compatible y su relativa inflexibilidad para crecer a medida que avanza el descubrimiento del virus arquea, esto hace que MArVD2 sea muy superior a su predecesor.

Un diagrama de Venn que representa la cantidad de virus y fagos de arqueas verificados clasificados correcta e incorrectamente por MArVD2 en el conjunto de datos de evaluación comparativa. B Varias métricas de rendimiento del análisis del conjunto de datos de evaluación comparativa con MArVD o MArVDv2. Cada métrica se registra con las mismas unidades proporcionales donde los valores más altos indican un mejor desempeño, excepto FDR donde un valor más bajo indica un mejor desempeño. Las definiciones matemáticas para cada métrica están disponibles en la figura complementaria 3.

Para evaluar mejor el rendimiento de MArVD2 y determinar qué umbrales de probabilidad producen los resultados más óptimos, evaluamos la curva característica operativa del receptor, en relación con las probabilidades de predicción de MArVD2. Los virus de arqueas verificados del conjunto de datos de evaluación comparativa tenían una probabilidad de predicción promedio de MArVD2 de 0,87 (Fig. 4), con un valor muy alto de área bajo la curva operativa del receptor (AUROC) (0,99) (Fig. 5A). Por encima de este umbral de probabilidad conservador, el 71% de los virus de arqueas verificados (n = 157) se identificaron con solo un falso positivo entre los fagos verificados. Disminuir el umbral de probabilidad a 0,80 facilitó la identificación correcta del 85% de los virus de arqueas verificados (n = 188) con solo 2 falsos positivos entre los fagos verificados. La FPR no supera el 2% hasta que el umbral de probabilidad de MArVD2 cae por debajo de 0,55, momento en el que MArVD2 clasifica correctamente el 95% de los verdaderos virus de arqueas (n = 210) con 13 falsos positivos entre los fagos verificados y otros 20 entre los fagos putativos.

Los virus de arqueas verificados son aquellos con homólogos de genes de arqueas o de virus de arqueas y se agrupan en módulos con virus de arqueas de referencia. Los virus únicos de arqueas son poblaciones virales sugeridas como virus de arqueas por IMG/VR (n = 22) o por nuestra curación manual (n = 1), pero no están incluidos en ninguno de los grupos de red vConTACT2. Los virus de arqueas putativos son aquellos sugeridos como virus de arqueas por IMG/VR (n = 25) o por nuestra curación manual (n = 33) y están incluidos en la red, pero sin referencias. Se aplican notaciones equivalentes a los fagos putativos (n = 144), singleton (n = 347) y verificados (n = 582), respectivamente.

Una curva característica operativa del receptor (ROC), que representa la sensibilidad de MArVDv2 (TPR) frente a la FPR. B Precisión (TP/TP + FP) frente a curva de sensibilidad (TPR) (PR) para predicciones de MArVDv2. Los datos para (A) y (B) provienen de los resultados de MArVD2 en el conjunto de datos de evaluación comparativa IMG/VR y GOV2.0 utilizando solo los virus de fagos y arqueas verificados manualmente. Las medidas cuantitativas de desempeño para cada evaluación se informan como el área bajo la curva tanto en A como en B, donde cuanto más cercano sea el valor a 1, mejor será el desempeño. Las probabilidades de predicción de MArVD2 se informan en el gradiente de color del arco iris.

Cuando se utilizan con conjuntos de datos desequilibrados (es decir, más fagos que virus de arqueas), los clasificadores con un FPR bajo en conjuntos de datos de referencia aún pueden generar tantas o incluso más predicciones falsas positivas que positivas verdaderas, lo que hace que el modelo sea ineficaz. Además de la detección de virus de arqueas, también evaluamos si MArVD2 podía clasificar correctamente virus que no eran virus de arqueas utilizando una curva de recuperación de precisión. Aquí, el valor del área bajo la curva de recuperación de precisión (AUPRC) nuevamente es alto (0,99), donde la precisión del modelo no cae por debajo del 98% hasta que la sensibilidad excede el 80% (Fig. 5B). Por lo tanto, el rendimiento de MArVD2 no debería verse afectado significativamente por conjuntos de datos potencialmente desequilibrados que incluirían muchos más fagos que virus de arqueas.

En conjunto, estos análisis indican que con una probabilidad de predicción permisiva (sugerimos 0,80), MArVD2 identificará la mayoría de los virus de arqueas (~85%) de ambientes marinos, hipersalinos y de aguas termales con muy pocos fagos falsamente clasificados.

Muchos conjuntos de datos virales están plagados de secuencias cortas o cantidades considerables de contaminación microbiana que pueden tener importantes impactos en la identificación y clasificación viral [78]. Para determinar qué tan bien funcionaría MArVD2 en conjuntos de datos realistas, dividimos nuestro conjunto de datos de evaluación comparativa en tres grupos de prueba para examinar el efecto del tamaño variable del conjunto de datos, la longitud de la secuencia y la contaminación microbiana. El primer conjunto de datos de prueba incluyó secuencias seleccionadas al azar del conjunto de datos de evaluación comparativa con recuentos de secuencias de entre el 5 y el 75 % (a intervalos del 25 %) del recuento original. El segundo conjunto de datos de prueba incluye fragmentos del genoma con tamaños de secuencia variables entre 1 kb y 10 kb (a intervalos de 2,5 kb) del conjunto de datos de evaluación comparativa. El tercer conjunto de datos de prueba incluye proporciones variables, entre el 10 y el 75 % (a intervalos del 25 %), de fragmentos genómicos microbianos seleccionados aleatoriamente de IMG/M [79] (partes iguales de bacterias y arqueas) de tamaños entre 10 kb y 200 kb.

El tamaño del conjunto de datos en términos del número de secuencias incluidas tuvo un impacto insignificante en el rendimiento de MArVD2. En todas las fracciones de tamaño del conjunto de datos (5%, 25%, 50%, 75% del número de secuencias originales) hubo una variación mínima en TPR, ACC, SPEC, MCC y FDR en relación con el conjunto de datos original (promedio 0,96, 0,97, 0,97, 0,92, 0,8 respectivamente) (Figura complementaria 4).

Otras herramientas de aprendizaje automático de identificación viral, como DeepVirFinder [57], MARVEL [58], VIBRANT [59] y Virsorter2 [60], han reducido el rendimiento a medida que disminuye la longitud de los fragmentos del genoma del virus. No es sorprendente que descubrimos que el rendimiento de MArVD2 se ve afectado en fragmentos progresivamente más pequeños con valores de TPR, ACC, MCC, AUROC y AUPRC que solo exceden el 90% en conjuntos de datos con contigs> 10 kbp (Fig. 6A y C). La excepción a esto fue SPEC, que se mantuvo alta y casi sin cambios en los conjuntos de datos fraccionados de tamaño de secuencia variable (1 kb, 2,5 kb, 5 kb, 7,5 kb, 10 kb, >10 kb). Además, el FDR se mantuvo relativamente bajo en todos los tamaños de fragmentos, sin exceder nunca el 15% (Fig. 6A, C).

Un rendimiento de MArVD2 en relación con el tamaño de contig utilizando un umbral de probabilidad de 0,50. Los valores se calcularon en los conjuntos de datos de evaluación comparativa IMG/VR y GOV2.0 donde los tamaños de contig se fragmentaron en diferentes categorías de tamaño y se seleccionaron aleatoriamente la misma cantidad de contig de entrada que el conjunto de datos original. B Rendimiento de MArVD2 en relación con proporciones variables de contaminación celular, utilizando un umbral de probabilidad de 0,50, con los conjuntos de datos de evaluación comparativa IMG/VR y GOV2.0 complementados con fragmentos de genes celulares de proporciones iguales de arqueas y bacterias de tamaño entre 10 y 200 kb. C, D Representan el mismo análisis con un umbral de probabilidad ajustado de 0,80, lo que refleja nuestro umbral recomendado. La línea roja indica 0,90 donde el rendimiento se considera aceptable. Las métricas de rendimiento se describen en detalle en la figura complementaria 3.

Del mismo modo, cantidades cada vez mayores de fragmentos microbianos "contaminantes" en el conjunto de datos virales introdujeron una mayor probabilidad de identificar erróneamente una secuencia no viral como un virus de arqueas. Incluso con una inclusión del 10 % de secuencias microbianas, el MCC de MArVD2 se redujo a menos del 90 %, mientras que el FDR aumentó alcanzando un máximo del 53 % con un 75 % de los datos de entrada siendo microbianos. Curiosamente, MCC y FDR fueron los únicos valores influenciados por la inclusión de secuencias microbianas, lo que indica que los verdaderos virus de arqueas aún se identificaron, pero que la tasa de falsos positivos aumentó debido a las clasificaciones de secuencias no virales de los virus de arqueas (Fig. 6B). , D). En particular, cuando se aplica el umbral de probabilidad de predicción recomendado de 0,80 desde arriba y se utiliza el conjunto de datos microbianos del 75%, el FDR se reduce al 16%, y de los falsos positivos identificados por encima de este umbral, todos fueron de Archaea derivados de conjuntos de datos metagenómicos.

Pragmáticamente, esto significa que para el rendimiento más óptimo de MArVD2, sugerimos utilizar conjuntos de datos compuestos por contigs de no menos de 10 kb y que previamente hayan sido identificados como virales mediante las diversas herramientas de identificación viral disponibles actualmente, así como un virus de arqueas. umbral de probabilidad de 0,80 (Fig. 6B, D) [57,58,59,60].

Más allá de estas recomendaciones mínimas, observamos que los conjuntos de datos de prueba y entrenamiento subyacentes utilizados para desarrollar MArVD2 se derivan predominantemente de ambientes marinos, hipersalinos y de aguas termales. MArVD2 será potencialmente ineficaz para predecir virus de arqueas de otros entornos no probados u otros linajes taxonómicos no representados en los conjuntos de datos de entrenamiento actuales, ya que aún no se ha determinado si estos virus son sustancialmente diferentes de los de los conjuntos de datos de entrenamiento actuales. Además, no está claro si MArVD2 funcionará con conjuntos de datos compuestos de virus ssDNA, ya que aún no se ha probado en esta capacidad. Aunque actualmente esto representa una necesidad de desarrollo de “próxima frontera”, MArVD2 está diseñado de tal manera que debería manejarlos una vez que los genomas de referencia apropiados estén disponibles. Además, aunque no se han probado, existe la posibilidad de que MArVD2 identifique incorrectamente los virus de ADN eucariotas como virus de arqueas. Si bien se cree que la gran mayoría de los virus dsDNA infectan a los procariotas, advertimos a los usuarios que sean conscientes de estos factores.

La contaminación de secuencias microbianas, los problemas derivados de discernir los límites de los provirus y la posibilidad de pasar por alto tipos virales nuevos y divergentes presentan desafíos considerables para cualquier esfuerzo de identificación viral. Estos desafíos pueden verse exacerbados cuando se buscan virus de arqueas con un espacio de secuencia relativamente desconocido y que, en algunos casos, pueden compartir porciones considerables de su genoma con elementos del huésped. Estas dificultades presentan deficiencias potencialmente imprevistas en el rendimiento de MArVD2. Recomendamos encarecidamente al usuario que examine cuidadosamente cada supuesto virus de arquea identificado para asegurarse de que la secuencia en cuestión sea sensiblemente viral y un virus de arquea.

La identificación de virus en la virosfera de la Tierra avanza a un ritmo asombroso, y los esfuerzos de secuenciación y muestreo a gran escala brindan nuevas oportunidades para ver estos actores del ecosistema a nanoescala, a menudo ocultos. Una vez identificados, el desafío es clasificarlos, donde se han hecho grandes avances con virus bacterianos [68, 80, 81] y eucariotas [80], pero los virus arqueales se quedan atrás. Aquí buscamos desarrollar un recurso genómico curado y una herramienta impulsada por el aprendizaje automático que mejorará nuestra capacidad para ver virus de arqueas en entornos no extremos donde las arqueas mismas se han vuelto cada vez más reconocidas como importantes [3]. Tal capacidad para separar los virus de las arqueas de otros virus permitirá una mayor resolución en la comprensión de los interactomas ecológicos [82, 83] que impulsan el sistema terrestre.

Todos los análisis computacionales se realizaron utilizando el Centro de Supercomputación de Ohio [84], o el Centro Nacional de Computación Científica de Investigación Energética, ubicado en el Laboratorio Nacional Lawrence Berkeley.

La base de datos de virus de arqueas marinas (OcAVdb) se creó recopilando todos los supuestos virus de arqueas publicados a partir de estudios metagenómicos marinos, genomas unicelulares y aislamiento viral hasta 2019 [18, 32, 34,35,36,37,38, 39,40, 42]. Esto incluyó un total de 226 virus de arqueas que se curaron manualmente utilizando vConTACT2 [68] para proporcionar un contexto taxonómico para cada uno de los supuestos virus de arqueas, y DRAMv [69] para proporcionar anotaciones funcionales. Solo aquellos virus de más de 10 kb que caían en un módulo de red (una colección de grupos taxonómicos de escala de género relacionados) compuestos solo por otros virus de arqueas e incluían arqueas o virus de arqueas como ORF se conservaron en la base de datos final.

El conjunto de datos de entrenamiento utilizado para desarrollar el modelo de bosque aleatorio MArVD2 para la identificación de virus de arqueas se creó utilizando una combinación de bases de datos de referencia públicas y bases de datos creadas por el MArVD original (descrito a continuación) [32], cada una examinada por vConTACT2 [68] para incluir solo secuencias que caen en el mismo módulo de red que un virus de arqueas de referencia, y anotaciones funcionales y taxonómicas afiliadas a arqueas o virus de arqueas de DRAMv [69]. En total, el conjunto de datos de entrenamiento incluye 857 secuencias de virus de más de 10 kb con partes aproximadamente iguales de virus de arqueas y fagos. Esto incluye 194 fagos de la base de datos RefSeq versión 85 [62], 112 fagos y 70 virus de arqueas de la base de datos VirSorter [64] y 131 fagos y 350 virus de arqueas de un viroma ambiental marino publicado del ETSP [65, 66]. . Cada uno de estos fagos y virus de arqueas se seleccionaron para su inclusión en el conjunto de datos de entrenamiento porque cubren la mayor cantidad posible del espacio de secuencia taxonómica según un análisis de red realizado por vConTACT2 y se derivaron de una variedad de entornos que incluyen aguas termales, estanques hipersalinos y los océanos. Los datos de entrenamiento se implementaron en la creación del modelo mediante Scikit-learn en una proporción de 70 y 30% de conjuntos de datos de entrenamiento y prueba [75].

El conjunto de datos de prueba de evaluación comparativa se creó extrayendo IMG/VR-db v2.0 [67] para todos los virus de arqueas de cultivos de enriquecimiento, el ambiente marino, hábitats hipersalinos o alcalinos y aguas termales, entre otros. Los fagos se seleccionaron al azar de los mismos ambientes con la adición de fagos de suelos, agua dulce y sedimentos de agua dulce. Para explicar la falta de virus de arqueas del océano abierto en el conjunto de datos IMG/VR, el MArVD original identificó 25 virus de arqueas putativos adicionales de 2 muestras mesopelágicas de océano abierto en el conjunto de datos GOV2.0 de los océanos de Tara [17]. ] como se describe a continuación y se incluye en este conjunto de datos de prueba. Todos los virus en el conjunto de datos de evaluación comparativa tenían >10 kbp.

El MArVD original [32] se recreó como un script de Python 2.7+ para utilizar la información de salida del software de identificación viral VirSorter, ampliamente accesible, [64]. Esta versión rediseñada del MArVD original utiliza primero proteínas predichas por MetaGeneAnnotator [85] de los virus identificados por VirSorter y utiliza BLASTp [62] para buscar en la base de datos Refseq (versión 77) [62]. Luego se prescriben anotaciones funcionales y taxonómicas de acuerdo con la secuencia objetivo de puntuación más alta con una puntuación de bits >50 y un valor >0,001. Estas anotaciones luego se integran en el archivo de anotaciones genéticas “affi_contigs.csv” de VirSorter, conservando las designaciones Pfam [86] derivadas de VirSorter >40 bitscore y <0.00001 evalue. Utilizando este archivo de anotación por gen actualizado, MArVD funciona exactamente como en su inicio [32]. Sólo los supuestos virus de arqueas de categoría 1 y 2 de MArVD, correspondientes a virus que tienen más del 66 o el 50% de sus genes anotados afiliados a virus de arqueas respectivamente, y con puntuaciones de bits >75 y superiores a las de las afiliaciones de fagos, se retuvieron como virus de arqueas predichos por MArVD. . Esta versión actualizada de MArVD permitió la creación de nuevos conjuntos de datos de virus de arqueas ambientales a partir de los conjuntos de datos ETSP y GOV2.0 necesarios para entrenar y probar MArVD2, además de permitir un medio para comparar el rendimiento de MArVD con MArVD2.

Las características informativas que distinguen a los virus de arqueas de los fagos se identificaron primero generando una tabla de características que contenía numerosos atributos del genoma (p. ej., longitud promedio de genes, densidad de genes, sesgo de cadena, etc.) (Tabla complementaria 3) y combinándola con resultados agregados de búsquedas en varios bases de datos. Los ORF se predijeron utilizando pródigo [72] con la opción "-p meta". Cada uno de los conjuntos finales de características se derivó de los atributos genómicos de las secuencias de entrada, una comparación de MMseq2 [73] con la base de datos NCBI nr [62], comparaciones de hmmsearch [74] con la base de datos pVOGs [63] o una comparación con OcAVdb. usando jackhmmer [74], cada uno con parámetros predeterminados. Los valores y atributos para cada característica por secuencia de entrada se crearon y tabularon en una tabla de características integral que se convierte en la base para la generación del modelo forestal aleatorio [61]. Para evitar posibles sesgos introducidos en el modelo de bosque aleatorio por características de co-correlación, se realizó un análisis de co-correlación. Se eliminaron las características con coeficientes de correlación superiores a 0,95. Finalmente, cada virus fue designado como virus de arquea o fago y se introdujo en la implementación scikit-learn [75] de Python del modelo de bosque aleatorio. En la Tabla complementaria 1 se incluye un examen manual de todos los virus de arqueas utilizados en este documento (con la excepción de los virus de arqueas conocidos en repositorios públicos).

MArVD2 primero crea la tabla de características como se describe anteriormente, incluyendo solo resultados de MMseq2 con valores <1e-5, resultados de hmmsearch con valores de longitud completa de proteína de <1e-10 y resultados de jackhmmer con valores de <1e-5. Luego, el paquete Python scikit-learn construye el modelo de bosque aleatorio MArVD2 [75]. Para obtener la cantidad óptima de características para crear la puntuación F1 más alta, se utilizó la eliminación de características recursiva. Las características con las puntuaciones de importancia de Gini más bajas se eliminaron iterativamente y se retuvieron un mínimo de cinco características. Luego se calcula una validación cruzada quíntuple de la precisión final del modelo utilizando un conjunto permutado de conjuntos de datos de entrenamiento y de prueba listos para usar. También se probaron varios algoritmos adicionales de aprendizaje automático, pero casi siempre el bosque aleatorio tuvo el mejor rendimiento. El modelo de bosque aleatorio final y la tabla de características preliminar para el conjunto de datos de entrenamiento se guardan para su posterior implementación con otros conjuntos de datos novedosos. Volver a ejecutar el modelo con nuevos datos de entrada generará una nueva tabla de características con predicciones de virus arqueales o no arqueales y las probabilidades asociadas con esas predicciones. Se realizó una agrupación jerárquica y una visualización de la matriz de proximidad utilizando los paquetes R “vegan” y “pheatmap” [87, 88].

Utilizando el conjunto de datos de pruebas de evaluación comparativa derivados de IMG/VR [67] y los datos de GOV2.0 [17], a continuación evaluamos el rendimiento de MArVD2 para distinguir los virus de arqueas de los fagos. VirSorter confirmó por primera vez que el conjunto de datos de prueba IMG/VR era de origen viral [64]. A continuación, MArVD verificó las distinciones entre virus de arqueas y fagos y las confirmó mediante el análisis de red vConTACT2 [68] y la curación manual de las anotaciones funcionales proporcionadas por DRAMv [69]. Luego, el conjunto de datos de fagos y virus de arqueas verificados de IMG/VR se fraccionó por tamaño para incluir contigs de longitudes de 1 kb, 2,5 kb, 5 kb, 7,5 kb, 10 kb y >10 kb. Para la fracción de tamaño >10 kbp, se incluyó un segundo conjunto de datos de prueba con varias cantidades de secuencias microbianas con proporciones iguales de bacterias y arqueas. Los fragmentos genómicos de secuencias microbianas se seleccionaron aleatoriamente de la base de datos IMG/M [79] y solo se incluyeron si su tamaño estaba entre 10 kb y 200 kb. Se agregaron secuencias microbianas al 10, 25, 50, 75 y 95% de los datos totales. Se aseguró que las secuencias microbianas no fueran virales mediante el uso de VirSorter. El tamaño del conjunto de datos en términos de número de contigs también se probó dividiendo el conjunto de datos de evaluación comparativa en conjuntos 10, 25, 50, 75 y 95% del número total de contigs del conjunto de datos de validación original.

Luego se realizó un análisis de sensibilidad en el conjunto de datos de evaluación comparativa inalterado y en cada uno de los conjuntos de datos de fracciones de diversos tamaños y con diversas proporciones de secuencias celulares incluidas. Para cada conjunto de datos, la tasa de verdaderos positivos (TPR), la especificidad (SPEC), la precisión (ACC), el coeficiente de correlación de Matthews (MCC) y la tasa de detección falsa (FDR) se calcularon utilizando el paquete R "EvaluaciónMeasures" [89]. Aquí se prefiere el cálculo de MCC a una puntuación F1 porque, en la práctica, los conjuntos de datos ambientales probablemente tendrán una cantidad desproporcionada de fagos y virus de arqueas, por lo que una prueba que incorpore tanto los verdaderos positivos como los verdaderos negativos será más informativa que una que solo incluya los verdaderos aspectos positivos. También se calcularon TPR, SPEC, ACC y MCC para el análisis MArVD. Los análisis AUROC y AUPRC se realizaron en cada uno de los conjuntos de datos utilizando el paquete R “PRROC” [90]. La visualización de la probabilidad frente al filo del huésped y las evaluaciones estadísticas se trazaron con el paquete R “pROC” [91] y “gglpot2” [92]. El intercambio de genes entre virus de arqueas y fagos se evaluó utilizando vConTact2 con la configuración predeterminada ajustando las "palabras clave" en la entrada "proteins.csv".

Todas las bases de datos, datos de entrenamiento, datos de evaluación comparativa, OcAVdb y el modelo de bosque aleatorio descrito aquí están disponibles en Cyverse en https://de.cyverse.org/data/ds/iplant/home/shared/commons_repo/curated/DeanVik_MArVD2_Apr2022 https: //doi.org/10.25739/1ttq-2q60 y Zenodo en https://zenodo.org/record/7768113/files/MArVD2_files.tar.gz MArVD2 está disponible en bitbucket https://bitbucket.org/MAVERICLab/marvd2/ y como paquete bioconda en https://anaconda.org/bioconda/marvd2.

Falkowski PG, Fenchel T, Delong EF. Los motores microbianos que impulsan los ciclos biogeoquímicos de la Tierra. Ciencia. 2008. https://doi.org/10.1126/science.1153213.

Artículo PubMed Google Scholar

Karner MB, DeLong EF, Karl DM. Dominio de las arqueas en la zona mesopelágica del Océano Pacífico. Naturaleza. 2001;409:507–10.

Santoro AE, Richter RA, Dupont CL. Arqueas marinas planctónicas. Ana. Rev. Mar. Ciencias. 2019;11:131–58. https://doi.org/10.1146/annurev-marine-121916-063141.

Artículo PubMed Google Scholar

Belmar L, Molina V, Ulloa O. Abundancia e identidad filogenética del arqueoplancton en la zona mínima permanente de oxígeno del Pacífico Sur tropical oriental. FEMS Microbiol Ecológico. 2011;78:314–26. https://doi.org/10.1111/j.1574-6941.2011.01159.

Artículo CAS PubMed Google Scholar

Santoro AE, Casciotti KL. Enriquecimiento y caracterización de arqueas oxidantes de amoníaco del océano abierto: filogenia, fisiología y fraccionamiento de isótopos estables. ISME J. 2011;5:1796–808. https://doi.org/10.1038/ismej.2011.58.

Artículo CAS PubMed PubMed Central Google Scholar

Wright JJ, Konwar KM, Hallam SJ. Ecología microbiana de zonas mínimas de oxígeno en expansión. Nat Rev Microbiol. 2012;10:381–94. https://doi.org/10.1038/nrmicro2778.

Artículo CAS PubMed Google Scholar

Gilly WF, Beman JM, Litvin SY, Robison BH. Efectos oceanográficos y biológicos del bajío de la zona de mínimo oxígeno. Año. Rev. Mar Sci. 2013;5:393–420. https://doi.org/10.1146/annurev-marine-120710-100849.

Artículo de Google Scholar

Stramma L, Prince ED, Schmidtko S, Luo J, Hoolihan JP, Visbeck M, et al. La expansión de las zonas mínimas de oxígeno puede reducir el hábitat disponible para los peces pelágicos tropicales. Cambio climático nacional. 2012;2:33–7. https://doi.org/10.1038/nclimate1304.

Artículo CAS Google Scholar

Crowther TW, van den Hoogen J, Wan J, Mayes MA, Keizer AD, Mo L. et al. La comunidad mundial del suelo y su influencia en la biogeoquímica. Ciencia. 2019;365:eaav0550. https://doi.org/10.1126/science.aav0550.

McGuire AD, Anderson LG, Christensen TR, Dallimore S, Guo L, Hayes DJ, et al. Sensibilidad del ciclo del carbono en el Ártico al cambio climático. Monogr. Ecológico. 2009;79:523–55. https://doi.org/10.1890/08-2025.1.

Artículo de Google Scholar

Duhaime MB, Sullivan MB. Virus oceánicos: evaluación rigurosa del proceso metagenómico de muestra a secuencia. Virología. 2012;434:181–6. https://doi.org/10.1016/j.virol.2012.09.036.

Artículo CAS PubMed Google Scholar

Pratama AA, Bolduc B, Zayed AA, Zhong ZP, Guo J, Vik DR, et al. Estándares en expansión en virómica: evaluación in silico de la identificación, clasificación y curación de genes metabólicos auxiliares del genoma viral de ADNbc. PeerJ. 2021;9:e11447. https://doi.org/10.7717/peerj.11447.

Artículo PubMed PubMed Central Google Scholar

Roux S, Adriaenssens EM, Dutilh BE, Koonin EV, Kropinski AM, Krupovic M. et al. Información mínima sobre un genoma de virus no cultivado (MIUViG). Nat Biotecnología. 2019;37:29–37. https://doi.org/10.1038/nbt.4306.

Artículo CAS PubMed Google Scholar

Roux S, Emerson JB, Eloe-Fadrosh EA, Sullivan MB. Evaluación comparativa de la virómica: una evaluación in silico de estimaciones de la composición y diversidad de la comunidad viral habilitadas por metagenomas. PeerJ. 2017;5:e3817. https://doi.org/10.7717/peerj.3817.

Artículo PubMed PubMed Central Google Scholar

Bolduc B, Youens-Clark K, Roux S, Hurwitz BL, Sullivan MB. iVirus: facilitar nuevos conocimientos sobre ecología viral con software y conjuntos de datos comunitarios integrados en una ciberinfraestructura. ISME J. 2017;11:7–14. https://doi.org/10.1038/ismej.2016.89.

Artículo PubMed Google Scholar

Bolduc B, Zablocki O, Guo J, Zayed AA, Vik D, Dehal P, et al. iVirus 2.0: herramientas y datos respaldados por ciberinfraestructura para impulsar la ecología de los virus de ADN. Comunal ISME. 2021;1:1–8 https://doi.org/10.1038/s43705-021-00083-3

Artículo de Google Scholar

Gregory AC, Zayed AA, Conceição-Neto N, Temperton B, Bolduc B, Alberti A, et al. Macro y microdiversidad viral del ADN marino de polo a polo. Celúla. 2019;177:1109–23.e14. https://doi.org/10.1016/j.cell.2019.03.040.

Artículo CAS PubMed PubMed Central Google Scholar

Coordinadores de Tara Oceans, Roux S, Brum JR, Dutilh BE, Sunagawa S, Duhaime MB, et al. Ecogenómica y posibles impactos biogeoquímicos de los virus oceánicos globalmente abundantes. Naturaleza. 2016;537:689–93. https://doi.org/10.1038/nature19366.

Artículo CAS Google Scholar

Páez-Espino D, Eloe-Fadrosh EA, Pavlopoulos GA, Thomas AD, Huntemann M, Mikhailova N, et al. Descubriendo el viroma de la tierra. Naturaleza. 2016;536:425–30. https://doi.org/10.1038/nature19094.

Artículo CAS PubMed Google Scholar

Emerson JB, Roux S, Brum JR, Bolduc B, Woodcroft BJ, Jang HB, et al. Ecología viral del suelo ligada al huésped a lo largo de un gradiente de deshielo del permafrost. Nat. Microbiol. 2018;3:870–80. https://doi.org/10.1038/s41564-018-0190-y.

Artículo CAS PubMed PubMed Central Google Scholar

Fuhrman JA. Virus marinos y sus efectos biogeoquímicos y ecológicos. Naturaleza. 1999;399:541–8. https://doi.org/10.1038/21119.

Artículo CAS PubMed Google Scholar

Suttle CA. Virus marinos: actores importantes del ecosistema global. Nat Rev Microbiol. 2007;5:801–12. https://doi.org/10.1038/nrmicro1750.

Artículo CAS PubMed Google Scholar

Brum JR, Sullivan MB. A la altura del desafío: el ritmo acelerado de descubrimiento transforma la virología marina. Nat Rev Microbiol. 2015;13:147–59. https://doi.org/10.1038/nrmicro3404.

Artículo CAS PubMed Google Scholar

Breitbart M, Bonnain C, Malki K, Sawaya NA. Titiriteros de fagos del reino microbiano marino. Microbiol natural. 2018;3:754–66. https://doi.org/10.1038/s41564-018-0166-y.

Artículo CAS PubMed Google Scholar

Warwick-Dugdale J, Buchholz HH, Allen MJ, Temperton B. Secuestro de huéspedes y piratería planctónica: cómo los fagos dominan los microbios en alta mar. Virol J. 2019;16:15. https://doi.org/10.1186/s12985-019-1120-1.

Artículo PubMed PubMed Central Google Scholar

Hurwitz BL, Hallam SJ, Sullivan MB. Reprogramación metabólica por virus en el océano iluminado por el sol y oscuro. Genoma Biol. 2013;14:R123. https://doi.org/10.1186/gb-2013-14-11-r123.

Artículo PubMed PubMed Central Google Scholar

Howard-Varona C, Lindback MM, Bastien GE, Solonenko N, Zayed AA, Jang H, et al. Reprogramación metabólica de virocélulas específicas de fagos. ISME J. 2020;14:881–95. https://doi.org/10.1038/s41396-019-0580-z.

Artículo PubMed PubMed Central Google Scholar

Guidi L, Chaffron S, Bittner L, Eveillard D, Larhlimi A. Tara Oceans Consortium Coordinators et al. Redes de plancton que impulsan la exportación de carbono en el océano oligotrófico. Naturaleza. 2016;532:465–70. https://doi.org/10.1038/nature16942.

Artículo CAS PubMed PubMed Central Google Scholar

Krupovic M, Cvirkaite-Krupovic V, Iranzo J, Prangishvili D, Koonin EV. Virus de arqueas: genómica estructural, funcional, ambiental y evolutiva. Resolución de virus. 2018;244:181–93. https://doi.org/10.1016/j.virusres.2017.11.025.

Artículo CAS PubMed Google Scholar

Borrel G, Colombet J, Robin A, Lehours AC, Prangishvili D, Sime-Ngando T. Virus putativos inesperados y novedosos en los sedimentos de un hábitat de agua dulce permanentemente anóxico, profundamente oscuro. ISME J. 2012;6:2119–27. https://doi.org/10.1038/ismej.2012.49.

Artículo CAS PubMed PubMed Central Google Scholar

Krupovic M, Spang A, Gribaldo S, Forterre P, Schleper C. Un provirus taumarchaeal atestigua una antigua asociación de virus con cola con arqueas. Biochem Soc Trans. 2011;39:82–88. https://doi.org/10.1042/BST0390082.

Artículo CAS PubMed Google Scholar

Vik DR, Roux S, Brum JR, Bolduc B, Emerson JB, Padilla CC, et al. Supuestos virus de arqueas del océano mesopelágico. PeerJ. 2017;5:e3428. https://doi.org/10.7717/peerj.3428.

Artículo CAS PubMed PubMed Central Google Scholar

Rahlff J, Turzynski V, Esser SP, Monsees I, Bornemann TLV, Figueroa-González PA. et al. Los virus de arqueas líticas infectan a abundantes productores primarios en la corteza terrestre. Nat. Comunitario. 2021;12:4642. https://doi.org/10.1038/s41467-021-24803-4.

Artículo CAS PubMed PubMed Central Google Scholar

Philosof A, Yutin N, Flores-Uribe J, Sharon I, Koonin EV, Béjà O. Nuevos virus oceánicos abundantes de euryarchaeota del grupo II marino no cultivado. Curr Biol. 2017;27:1362–8. https://doi.org/10.1016/j.cub.2017.03.052.

Artículo CAS PubMed PubMed Central Google Scholar

Nishimura Y, Watai H, Honda T, Mihara T, Omae K, Roux S, et al. Los genomas virales ambientales arrojan nueva luz sobre las interacciones virus-huésped en el océano. MSfera. 2017;2:e00359–16. https://doi.org/10.1128/mSphere.00359-16.

Artículo CAS PubMed PubMed Central Google Scholar

Ahlgren NA, Fuchsman CA, Rocap G, Fuhrman JA. Descubrimiento de varios virus taumarchaeota marinos novedosos, generalizados y ecológicamente distintos que codifican genes de nitrificación amoC. ISME J. 2019;13:618–31. https://doi.org/10.1038/s41396-018-0289-4.

Artículo CAS PubMed Google Scholar

López‐Pérez M, Haro‐Moreno JM, de la Torre JR, Rodriguez‐Valera F. Novel Caudovirales associated with marine group I thaumarchaeota assembled from metagenomes. Environ Microbiol. 2019;21:1980–8. https://doi.org/10.1111/1462-2920.14462.

Artículo CAS PubMed Google Scholar

Kim JG, Kim SJ, Cvirkaite-Krupovic V, Yu WJ, Gwak JH, López-Pérez M, et al. Los virus con forma de huso infectan a las taumarchaea marinas que oxidan el amoníaco. Proc Natl Acad Sci. 2019;116:15645–50. https://doi.org/10.1073/pnas.

Artículo CAS PubMed PubMed Central Google Scholar

Gorlas A, Koonin EV, Bienvenu N, Prieur D, Geslin C. TPV1, el primer virus aislado del género hipertermofílico thermococcus. Microbiol ambiental. 2012;14:503–16. https://doi.org/10.1111/j.1462-2920.2011.02662.

Artículo CAS PubMed Google Scholar

Geslin C, Le Romancer M, Erauso G, Gaillard M, Perrot G, Prieur D. PAV1, la primera partícula similar a un virus aislada de un euryarchaeote hipertermófilo, "Pyrococcus abyssi". J Bacteriol. 2003;185:3888–94. https://doi.org/10.1128/JB.185.13.3888-3894.2003.

Artículo CAS PubMed PubMed Central Google Scholar

Labonté JM, Swan BK, Poulos B, Luo H, Koren S, Hallam SJ, et al. Análisis basado en genómica unicelular de las interacciones virus-huésped en el bacterioplancton de la superficie marina. ISME J. 2015;9:2386–99. https://doi.org/10.1038/ismej.2015.48.

Artículo CAS PubMed PubMed Central Google Scholar

Chow C-ET, Winget DM, White RA, Hallam SJ, Suttle CA. Combinar métodos de secuenciación genómica para explorar la diversidad viral y revelar posibles interacciones virus-huésped. Microbiol frontal. 2015;6:265. https://doi.org/10.3389/fmicb.2015.00265.

Artículo PubMed PubMed Central Google Scholar

Roux S, Páez-Espino D, Chen I-MA, Palaniappan K, Ratner A, Chu K, et al. IMG/VR v3: un marco ecológico y evolutivo integrado para interrogar genomas de virus no cultivados. Ácidos nucleicos res. 2021;49:D764–D775. https://doi.org/10.1093/nar/gkaa946.

Artículo CAS PubMed Google Scholar

Munson-McGee JH, Snyder JC, Young MJ. Virus de arqueas de ambientes de alta temperatura. Genes. 2018;9:128. https://doi.org/10.3390/genes9030128.

Artículo CAS PubMed PubMed Central Google Scholar

Prangishvili D. El maravilloso mundo de los virus arqueales. Ann Rev Microbiol. 2013;67:565–85. https://doi.org/10.1146/annurev-micro-092412-155633.

Artículo CAS Google Scholar

Prangishvili D, Bamford DH, Forterre P, Iranzo J, Koonin EV, Krupovic M. La enigmática virosfera arqueal. Nat Rev Microbiol. 2017;15:724–39. https://doi.org/10.1038/nrmicro.2017.125.

Artículo CAS PubMed Google Scholar

Dellas N, Snyder JC, Bolduc B, Young MJ. Virus de arqueas: diversidad, replicación y estructura. Ann Rev Virol. 2014;1:399–426. https://doi.org/10.1146/annurev-virology-031413-085357.

Artículo CAS Google Scholar

Snyder JC, Bolduc B, Young MJ. 40 años de virología de arqueas: ampliando la diversidad viral. Virología. 2015;479–480:369–78. https://doi.org/10.1016/j.virol.2015.03.031.

Artículo CAS PubMed Google Scholar

Iranzo J, Krupovic M, Koonin EV. La virosfera de ADN de doble cadena como una red jerárquica modular de intercambio de genes. MBio. 2016;7:e00978-16. https://doi.org/10.1128/mBio.00978-16.

Koonin EV, Dolja VV, Krupovic M, Varsani A, Wolf YI, Yutin N, et al. Organización global y propuesta de megataxonomía del mundo de los virus. Microbiol Mol Biol Rev. 2020;84:e00061–19. https://doi.org/10.1128/MMBR.00061-19.

Artículo CAS PubMed PubMed Central Google Scholar

Krupovic M, Dolja VV, Koonin EV. El LUCA y su complejo viroma. Nat Rev Microbiol. 2020;18:661–70. https://doi.org/10.1038/s41579-020-0408-x.

Artículo CAS PubMed Google Scholar

Liu Y, Demina TA, Roux S, Aiewsakun P, Kazlauskas D, Simmonds P, et al. Diversidad, taxonomía y evolución de virus de arqueas de la clase caudoviricetes. PloS Biol. 2021;19:e3001442. https://doi.org/10.1371/journal.pbio.3001442.

Artículo PubMed PubMed Central Google Scholar

Danovaro R, Dell'Anno A, Corinaldesi C, Rastelli E, Cavicchioli R, Krupovic M, et al. Hecatombe de arqueas mediada por virus en las profundidades del fondo marino. Avanzado en esquí. 2016;2:e1600492. https://doi.org/10.1126/sciadv.1600492.

Artículo CAS PubMed PubMed Central Google Scholar

Danovaro R, Rastelli E, Corinaldesi C, Tangherlini M, Dell'Anno A. Arqueas marinas y virus arqueales bajo el cambio global. F1000Res. 2017;6:1241. https://doi.org/10.12688/f1000research.11404.1.

Artículo CAS PubMed PubMed Central Google Scholar

Danovaro R, Dell'Anno A, Corinaldesi C, Magagnini M, Noble R, Tamburini C, et al. Importante impacto viral en el funcionamiento de los ecosistemas bentónicos de aguas profundas. Naturaleza. 2008;454:1084–7. https://doi.org/10.1038/nature07268.

Artículo CAS PubMed Google Scholar

Roux S, Tournayre J, Mahul A, Debroas D, Enault F. Metavir 2: Nuevas herramientas para la comparación de metagenomas virales y el análisis de viromas ensamblados. Bioinformación de BMC. 2014;15:76. https://doi.org/10.1186/1471-2105-15-76.

Artículo CAS Google Scholar

Ren J, Song K, Deng C, Ahlgren NA, Fuhrman JA, Li Y, et al. Identificación de virus a partir de datos metagenómicos mediante aprendizaje profundo. Biol cuántico. 2020;8:64–77. https://doi.org/10.1007/s40484-019-0187-4.

Artículo CAS PubMed PubMed Central Google Scholar

Amgarten D, Braga LPP, da Silva AM, Setubal JC. MARVEL, una herramienta para la predicción de secuencias de bacteriófagos en contenedores metagenómicos. Genet delantero. 2018;9:304. https://doi.org/10.3389/fgene.2018.00304.

Artículo CAS PubMed PubMed Central Google Scholar

Kieft K, Zhou Z, Anantharaman K. VIBRANT: recuperación automatizada, anotación y curación de virus microbianos y evaluación de la función de la comunidad viral a partir de secuencias genómicas. Microbioma. 2020;8:90. https://doi.org/10.1186/s40168-020-00867-0.

Artículo CAS PubMed PubMed Central Google Scholar

Guo J, Bolduc B, Zayed AA, Varsani A, Domínguez-Huerta G, Delmont TO, et al. VirSorter2: un enfoque guiado por expertos y clasificador múltiple para detectar diversos virus de ADN y ARN. Microbioma. 2021;9:37. https://doi.org/10.1186/s40168-020-00990-y.

Artículo PubMed PubMed Central Google Scholar

Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: aprendizaje automático en Python. J Mach Aprender Res. 2011;12:2825–30.

Google Académico

Coordinadores de recursos del NCBI. Recursos de bases de datos del centro nacional de información biotecnológica. Ácidos nucleicos res. 2018;46:D8–D13. https://doi.org/10.1093/nar/gkx1095.

Artículo CAS Google Scholar

Grazziotin AL, Koonin EV, Kristensen DM. Grupos ortólogos de virus procarióticos (pVOG): un recurso para genómica comparativa y anotación de familias de proteínas. Ácidos nucleicos res. 2017;45:D491–D498. https://doi.org/10.1093/nar/gkw975.

Artículo CAS PubMed Google Scholar

Roux S, Enault F, Hurwitz BL, Sullivan MB. VirSorter: extracción de señales virales a partir de datos genómicos microbianos. PeerJ. 2015;3:e985. https://doi.org/10.7717/peerj.985.

Artículo CAS PubMed PubMed Central Google Scholar

Vik D, Gazitúa MC, Sun CL, Zayed AA, Aldunate M, Mulholland MR, et al. Ecología viral resuelta por el genoma en una zona marina mínima de oxígeno. Microbiol ambiental. 2021;23:2858–74. https://doi.org/10.1111/1462-2920.15313.

Artículo CAS PubMed Google Scholar

Gazitúa MC, Vik DR, Roux S, Gregory AC, Bolduc B, Widner B, et al. Potencial ciclo de nitrógeno mediado por virus en aguas oceánicas sin oxígeno. ISME J. 2021;15:981–98. https://doi.org/10.1038/s41396-020-00825-6.

Artículo CAS PubMed Google Scholar

Páez-Espino D, Roux S, Chen I-MA, Palaniappan K, Ratner A, Chu K, et al. IMG/VR v.2.0: un sistema integrado de análisis y gestión de datos para genomas virales cultivados y ambientales. Ácidos nucleicos res. 2019;47:D678–D686. https://doi.org/10.1093/nar/gky1127.

Artículo CAS PubMed Google Scholar

Bin Jang H, Bolduc B, Zablocki O, Kuhn JH, Roux S, Adriaenssens EM, et al. La asignación taxonómica de genomas de virus procarióticos no cultivados es posible mediante redes de intercambio de genes. Nat Biotecnología. 2019;37:632–9. https://doi.org/10.1038/s41587-019-0100-8.

Artículo CAS Google Scholar

Shaffer M, Borton MA, McGivern BB, Zayed AA, La Rosa SL, Solden LM, et al. DRAM para destilar el metabolismo microbiano para automatizar la curación de la función del microbioma. Ácidos nucleicos res. 2020;48:8883–8900. https://doi.org/10.1093/nar/gkaa621.

Artículo CAS PubMed PubMed Central Google Scholar

Kanehisa M, Furumichi M, Tanabe M, Sato Y, Morishima K. KEGG: nuevas perspectivas sobre genomas, vías, enfermedades y fármacos. Ácidos nucleicos res. 2017;45:D353–D361. https://doi.org/10.1093/nar/gkw1092.

Artículo CAS PubMed Google Scholar

Galiez C, Siebert M, Enault F, Vincent J, Söding J. DESEO: ¿quién es el anfitrión? Predicción de huéspedes procarióticos a partir de contigs de fagos metagenómicos. Bioinformática. 2017;33:3113–4. https://doi.org/10.1093/bioinformatics/btx383.

Artículo CAS PubMed PubMed Central Google Scholar

Hyatt D, Chen GL, LoCascio PF, Land ML, Larimer FW, Hauser LJ. Pródigo: reconocimiento de genes procarióticos e identificación del sitio de inicio de la traducción. Bioinformación de BMC. 2010;11:119. https://doi.org/10.1186/1471-2105-11-119.

Artículo CAS Google Scholar

Steinegger M, Söding J. MMseqs2 permite la búsqueda de secuencias de proteínas sensibles para el análisis de conjuntos de datos masivos. Nat Biotecnología. 2017;35:1026–8. https://doi.org/10.1038/nbt.3988.

Artículo CAS PubMed Google Scholar

Potter SC, Luciani A, Eddy SR, Park Y, López R, Finn RD. Servidor web HMMER: actualización de 2018. Ácidos nucleicos res. 2018;46:W200–W204. https://doi.org/10.1093/nar/gky448.

Artículo CAS PubMed PubMed Central Google Scholar

Scikit-learn: aprendizaje automático en Python: documentación de Scikit-learn 1.0.2. (Dakota del Norte). Obtenido en marzo de 2022 de https://scikit-learn.org/stable/.

Krupovic M, Gonnet M, Hania WB, Forterre P, Erauso G. Conocimientos sobre la dinámica de elementos genéticos móviles en entornos hipertermofílicos a partir de cinco nuevos plásmidos de termococos. Más uno. 2013;8:e49044. https://doi.org/10.1371/journal.pone.0049044.

Artículo CAS PubMed PubMed Central Google Scholar

Gill S, Krupovic M, Desnoues N, Béguin P, Sezonov G, Forterre P. Una primasa arqueoeucariota altamente divergente del plásmido termococcus nautilus, pTN2. Ácidos nucleicos res. 2014;42:3707–19. https://doi.org/10.1093/nar/gkt1385.

Artículo CAS PubMed PubMed Central Google Scholar

Ponsero AJ, Hurwitz BL. Las promesas y los peligros del aprendizaje automático para detectar virus en metagenomas acuáticos. Microbiol frontal. 2019;10:806. https://doi.org/10.3389/fmicb.2019.00806.

Artículo PubMed PubMed Central Google Scholar

Chen I-MA, Chu K, Palaniappan K, Ratner A, Huang J, Huntemann M, et al. El sistema de análisis y gestión de datos IMG/M v.6.0: nuevas herramientas y capacidades avanzadas. Ácidos nucleicos res. 2021;49:D751–D763. https://doi.org/10.1093/nar/gkaa939.

Artículo CAS PubMed Google Scholar

Aiewsakun P, Simmonds P. Los fundamentos genómicos de la taxonomía de virus eucariotas: creación de un marco basado en secuencias para la clasificación de virus a nivel familiar. Microbioma. 2018;6:38. https://doi.org/10.1186/s40168-018-0422-7.

Artículo PubMed PubMed Central Google Scholar

Moraru C, Varsani A, Kropinski AM. VIRIDIC: una nueva herramienta para calcular las similitudes intergenómicas de los virus que infectan procariotas. Virus. 2020;12:1268. https://doi.org/10.3390/v12111268.

Artículo CAS PubMed PubMed Central Google Scholar

Lima-Méndez G, Fausto K, Henry N, Decelle J, Colin S, Carcillo F, et al. Determinantes de la estructura comunitaria en el interactoma global del plancton. Ciencia. 2015;348:1262073. https://doi.org/10.1126/science.1262073.

Artículo CAS PubMed Google Scholar

Chaffron S, Delage E, Budinich M, Vintache D, Henry N, Nef C, et al. Vulnerabilidad ambiental del interactoma de la comunidad global de plancton epipelágico oceánico. Ciencia avanzada. 2021;7:eabg1921. https://doi.org/10.1126/sciadv.abg1921.

Artículo CAS PubMed PubMed Central Google Scholar

Centro de supercomputadoras de Ohio. 1987. Centro de supercomputadoras de Ohio. Columbus OH: Centro de supercomputadoras de Ohio. http://osc.edu/ark:/19495/f5s1ph73.

Noguchi H, Taniguchi T, Itoh T. Metageneannotator: detección de patrones específicos de especies del sitio de unión ribosomal para una predicción genética precisa en genomas de fagos y procarióticos anónimos. Res. ADN. 2008;15:387–96. https://doi.org/10.1093/dnares/dsn027.

Artículo CAS PubMed PubMed Central Google Scholar

Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, et al. Pfam: la base de datos de familias de proteínas. Ácidos nucleicos res. 2014;42:D222–D230. https://doi.org/10.1093/nar/gkt1223.

Artículo CAS PubMed Google Scholar

Oksanen J, Blanchet FG, Kindt R, Legendre P, Minchin P, O'Hara B, et al. Vegano: Paquete de Ecología Comunitaria. Paquete R Versión 2.2-1. 2015;2, 1–2

Función pheatmap: RDocumentation. (Dakota del Norte). Obtenido el 20 de enero de 2022 de https://www.rdocumentation.org/packages/pheatmap/versions/1.0.12/topics/pheatmap.

EvaluaciónMeasures: Colección de funciones de medida de evaluación de modelos versión 1.1.0 de CRAN. (Dakota del Norte). Obtenido el 20 de enero de 2022 de https://rdrr.io/cran/EvaluaciónMeasures/.

Keilwagen J & Grau J. PRROC: Curvas ROC y de recuperación de precisión para datos ponderados y no ponderados (1.3.1). 2018. https://CRAN.R-project.org/package=PRROC.

Robin X, Turck N, Hainard A, Tiberti N, Lisacek F, Sanchez JC, et al. (2021). pROC: muestra y analiza curvas ROC (1.18.0). https://CRAN.R-project.org/package=pROC.

Función ggplot: RDocumentation. (Dakota del Norte). Obtenido el 20 de enero de 2022 de https://www.rdocumentation.org/packages/ggplot2/versions/3.3.5/topics/ggplot.

Descargar referencias

Este material se basa en el trabajo respaldado por el programa de Investigación para Estudiantes Graduados (SCGSC) del Departamento de Energía de EE. UU., la Oficina de Ciencias, la Oficina de Desarrollo de la Fuerza Laboral para Maestros y Científicos y el programa de Investigación para Estudiantes Graduados de la Oficina de Ciencias. El programa SCGSR es administrado por el Instituto Oak Ridge para la Ciencia y la Educación (ORISE) para el DOE. ORISE está gestionada por ORAU bajo el número de contrato DE-SC0014664. Todas las opiniones expresadas en este documento son del autor y no reflejan necesariamente las políticas y puntos de vista del DOE, ORAU u ORISE. Esta investigación utilizó recursos del Centro Nacional de Computación Científica de Investigación Energética (NERSC), una instalación para usuarios de la Oficina de Ciencias del Departamento de Energía de EE. UU. ubicada en el Laboratorio Nacional Lawrence Berkeley, operada bajo el Contrato No. DE-AC02-05CH11231. Se otorgaron fondos programáticos a MBS (NSF-OCE1829832, NSF-ABI1759874, DOE-BER-248445) y MK recibió el apoyo de l'Agence Nationale de la Recherche (subvención ANR-20-CE20-009-02). El trabajo realizado por el Instituto Conjunto del Genoma del Departamento de Energía de EE. UU. (https://ror.org/04xm1d337), una instalación para usuarios de la Oficina de Ciencias del DOE, cuenta con el apoyo de la Oficina de Ciencias del Departamento de Energía de EE. UU. operada bajo el Contrato No. DE-AC02-05CH11231 (SR). También nos gustaría agradecer al Instituto de Integración de Biología NSF EMERGE por el acceso a datos y recursos (financiamiento para el premio MBS 29640).

Departamento de Microbiología, Universidad Estatal de Ohio, Columbus, OH, 43210, EE. UU.

Dean Vik, Benjamin Bolduc, Christine L. Sun, Akbar Adjie Pratama y Matthew B. Sullivan

Centro de Ciencias del Microbioma, Universidad Estatal de Ohio, Columbus, OH, EE. UU.

Dean Vik, Benjamin Bolduc, Christine L. Sun, Akbar Adjie Pratama y Matthew B. Sullivan

DOE Joint Genome Institute, Laboratorio Nacional Lawrence Berkeley, Berkeley, CA, EE. UU.

Simón Roux

Unidad de Virología de Arqueas, Instituto Pasteur, Universidad Paris Cité, CNRS UMR6047, París, Francia

Mart Krupovic

Departamento de Ingeniería Civil, Ambiental y Geodésica, Universidad Estatal de Ohio, Columbus, OH, EE. UU.

Mateo B. Sullivan

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

MBS, DV y SR obtuvieron financiación y designaron el estudio. DV, SR, CLS y AAP generaron u obtuvieron datos virales para entrenar y comparar el modelo. BB y DV desarrollaron, probaron y compararon el modelo. MK proporcionó información experta sobre la estructura y el contenido genómico del virus de las arqueas. DV y MBS escribieron el manuscrito con aportaciones de todos los autores. DV generó todas las figuras y tablas de datos.

Correspondencia a Dean Vik o Matthew B. Sullivan.

Los autores declaran no tener conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Vik, D., Bolduc, B., Roux, S. et al. MArVD2: una herramienta mejorada de aprendizaje automático para discriminar entre virus bacterianos y arqueales en conjuntos de datos virales. COMUN ISME. 3, 87 (2023). https://doi.org/10.1038/s43705-023-00295-9

Descargar cita

Recibido: 04 de mayo de 2022

Revisado: 04 de agosto de 2023

Aceptado: 09 de agosto de 2023

Publicado: 24 de agosto de 2023

DOI: https://doi.org/10.1038/s43705-023-00295-9

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt