banner
Lar / blog / MArVD2: uma ferramenta aprimorada de aprendizado de máquina para discriminar entre vírus arqueais e bacterianos em conjuntos de dados virais
blog

MArVD2: uma ferramenta aprimorada de aprendizado de máquina para discriminar entre vírus arqueais e bacterianos em conjuntos de dados virais

Aug 11, 2023Aug 11, 2023

ISME Communications volume 3, Artigo número: 87 (2023) Citar este artigo

370 acessos

10 Altmétrico

Detalhes das métricas

Nosso conhecimento do espaço de sequência viral explodiu com o avanço das tecnologias de sequenciamento e amostragem em larga escala e esforços analíticos. Embora archaea sejam procariontes importantes e abundantes em muitos sistemas, nosso conhecimento sobre vírus arqueais fora de ambientes extremos é limitado. Isso decorre em grande parte da falta de uma maneira robusta, de alto rendimento e sistemática de distinguir entre vírus bacterianos e arqueais em conjuntos de dados de vírus selecionados. Aqui, atualizamos nossa ferramenta anterior baseada em texto (MArVD) por meio do treinamento e teste de um algoritmo de aprendizado de máquina florestal aleatório contra um conjunto de dados recém-curado de vírus arqueais. Após a otimização, o MArVD2 apresentou uma melhoria significativa em relação ao seu antecessor em termos de escalabilidade, usabilidade e flexibilidade, e permitirá conjuntos de dados de treinamento personalizados definidos pelo usuário à medida que a descoberta de vírus arqueais avança. O benchmarking mostrou que um modelo treinado com sequências virais de ambientes hipersalinos, marinhos e de fontes termais classificou corretamente 85% dos vírus arqueais com uma taxa de detecção falsa abaixo de 2% usando um limite de previsão florestal aleatório de 80% em um conjunto de dados de benchmarking separado de os mesmos habitats.

Os ciclos de nutrientes e energia da Terra são movidos por minúsculos motores microbianos [1]. Embora as bactérias sejam mais comumente estudadas, há um reconhecimento crescente de que as archaea também são críticas [2, 3]. Por exemplo, archaea pode compreender quase metade da comunidade microbiana no oceano mesopelágico [2]. Aqui, os Nitrososphaeria (anteriormente Thaumarchaeota) são os principais oxidantes de amônia, contribuindo para as emissões globais de gases de efeito estufa (N2O) e sendo responsáveis ​​pela maior parte da perda fixa de nitrogênio abaixo da zona fótica [3,4,5]. Nas últimas décadas, um feedback entre a expansão impulsionada pelas alterações climáticas das regiões com baixo teor de oxigénio no oceano mesopelágico, onde a Nitrososphaeria prospera, e o subsequente aumento das emissões de gases com efeito de estufa destas regiões, está a pôr em perigo alguns dos ambientes marinhos mais produtivos do mundo [6,7 ,8]. Em zonas úmidas e solos permafrost, a Euryarchaeota metanogênica dominante é responsável por até 40% da produção mundial de metano, grande parte da qual é posteriormente oxidada por metanotróficos concomitantes [9]. Isto é particularmente preocupante, uma vez que grande parte do carbono do solo mundial é armazenado em regiões de permafrost, que estão em rápida transição para zonas húmidas à medida que as temperaturas globais aumentam, representando assim uma potencial fonte importante de metano atmosférico no futuro [10]. Dada a abundância e os papéis biogeoquímicos críticos desempenhados pelas archaea nestes e noutros sistemas, o conhecimento dos vírus que os infectam é essencial para avaliações ecológicas robustas e modelos climáticos preditivos.

Assim como as bactérias foram bem estudadas em relação às archaea na maioria dos ecossistemas naturais, o mesmo se aplica aos bacteriófagos em relação aos vírus archaea. Avanços no sequenciamento metagenômico, no pipeline ecogenômico de amostra para sequência, melhores práticas em identificação viral [11,12,13,14] e plataformas analíticas como o iVirus que democratizaram essas capacidades [15, 16], permitiram a descoberta de centenas de milhares de vírus bacterianos, ou fagos, de ambientes em todo o mundo [17,18,19,20]. Esses fagos são creditados por impactar substancialmente a mortalidade do hospedeiro, a transferência horizontal de genes e a reprogramação metabólica [21,22,23,24,25,26,27], de maneiras que impactam funções críticas do ecossistema, como o ciclo global de carbono nos oceanos [28]. Assim, a nossa capacidade de “ver” os fagos é forte, e isto resultou em saltos transformacionais na nossa compreensão de como os fagos impactam os ecossistemas.

Em contraste, os vírus arqueais, que têm sido tradicionalmente estudados em ambientes “extremos”, como fontes termais ácidas, lagoas hipersalinas, sedimentos anaeróbicos ou fontes hidrotermais, estão gravemente sub-representados na maioria dos estudos baseados em metagenoma em escala global [29,30,31, 32,33]. Por exemplo, até o momento, menos de 230 vírus arqueais marinhos foram identificados confidencialmente entre vários estudos metagenômicos habilitados ou baseados em cultura [18, 32, 34,35,36,37,38,39,40,41,42], enquanto uma recente pesquisa global dos oceanos revelou mais de 488 mil populações virais, a maioria das quais se presume serem fagos [17]. No total, estimamos que agora existem genomas bem documentados ou grandes fragmentos de genoma disponíveis de menos de ~380 vírus arqueais, com outros 6.027 vírus arqueais putativos no IMG/VR-db v3.0, [43] que é uma pequena fração quando comparado com as centenas de milhares de genomas populacionais agora disponíveis para fagos [17,18,19,20]. Uma explicação para isso pode ser que a descoberta de novos vírus arqueais é amplamente baseada em pesquisas de homologia de sequência em bancos de dados de referência públicos que são preenchidos por vírus de ambientes extremos e muitos vírus arqueais não possuem homologia com essas referências [44]. Esses vírus arqueais “extremos” talvez não sejam bons representantes dos vírus arqueais de ambientes relativamente não extremos, independentemente da incrível variedade de morfologias e estilos de vida que exibem [29, 45,46,47,48]. Assim, distinguir bacteriófagos de vírus arqueais em conjuntos de dados de ambientes relativamente não extremos, usando abordagens atuais, continua a ser um desafio, apesar das claras diferenças genômicas e evolutivas entre fagos e vírus arqueais [29, 45, 46, 49,50,51,52 ]. Como consequência, os papéis ecológicos dos vírus arqueais em ambientes relativamente não extremos permanecem pouco claros, mesmo que as evidências sugiram que eles podem ser parte integrante do ciclo biogeoquímico e da dinâmica da comunidade hospedeira [36, 53,54,55].

10kbp (Fig. 6A and C). The exception to this was SPEC which remained high and nearly unchanged across the variable sequence size fractioned datasets (1 kb, 2.5 kb, 5 kb, 7.5 kb, 10 kb, >10 kb). Further, the FDR stayed relatively low across all fragment sizes, never exceeding 15% (Fig. 6A, C)./p>10 kbp./p>50 and evalue >0.001. These annotations are then integrated into the VirSorter “affi_contigs.csv” gene annotation file retaining the VirSorter derived Pfam [86] designations >40 bitscore and <0.00001 evalue. Using this updated per gene annotation file, MArVD functions exactly as its first inception [32]. Only MArVD category 1 and 2 putative archaeal viruses, corresponding to viruses having over 66 or 50% of their annotated genes affiliating with archaeal viruses respectively, and with bitscore >75 and higher than those for the phage affiliations, were retained as MArVD predicted archaeal viruses. This updated version of MArVD enabled the creation of the new environmental archaeal virus datasets from the ETSP and GOV2.0 datasets needed to train and test MArVD2 as well as allows for a means to compare the performance of MArVD with MArVD2./p>10 kb lengths. For the >10kbp size fraction, a second test dataset with various amounts of microbial sequences was included with equal proportions of bacteria and archaea. Genomic fragments from microbial sequences were randomly selected from the IMG/M [79] database and only included if their size was between 10 kb and 200 kb. Microbial sequences were added at 10, 25, 50, 75, and 95% of the total data. Microbial sequences were ensured not to be viral by use of VirSorter. Dataset size in terms of the number of contigs was also tested with the benchmarking dataset being broken into sets 10, 25, 50, 75, and 95% of the total number of contigs from the original validation dataset./p>