MArVD2: uma ferramenta aprimorada de aprendizado de máquina para discriminar entre vírus arqueais e bacterianos em conjuntos de dados virais
ISME Communications volume 3, Artigo número: 87 (2023) Citar este artigo
370 acessos
10 Altmétrico
Detalhes das métricas
Nosso conhecimento do espaço de sequência viral explodiu com o avanço das tecnologias de sequenciamento e amostragem em larga escala e esforços analíticos. Embora archaea sejam procariontes importantes e abundantes em muitos sistemas, nosso conhecimento sobre vírus arqueais fora de ambientes extremos é limitado. Isso decorre em grande parte da falta de uma maneira robusta, de alto rendimento e sistemática de distinguir entre vírus bacterianos e arqueais em conjuntos de dados de vírus selecionados. Aqui, atualizamos nossa ferramenta anterior baseada em texto (MArVD) por meio do treinamento e teste de um algoritmo de aprendizado de máquina florestal aleatório contra um conjunto de dados recém-curado de vírus arqueais. Após a otimização, o MArVD2 apresentou uma melhoria significativa em relação ao seu antecessor em termos de escalabilidade, usabilidade e flexibilidade, e permitirá conjuntos de dados de treinamento personalizados definidos pelo usuário à medida que a descoberta de vírus arqueais avança. O benchmarking mostrou que um modelo treinado com sequências virais de ambientes hipersalinos, marinhos e de fontes termais classificou corretamente 85% dos vírus arqueais com uma taxa de detecção falsa abaixo de 2% usando um limite de previsão florestal aleatório de 80% em um conjunto de dados de benchmarking separado de os mesmos habitats.
Os ciclos de nutrientes e energia da Terra são movidos por minúsculos motores microbianos [1]. Embora as bactérias sejam mais comumente estudadas, há um reconhecimento crescente de que as archaea também são críticas [2, 3]. Por exemplo, archaea pode compreender quase metade da comunidade microbiana no oceano mesopelágico [2]. Aqui, os Nitrososphaeria (anteriormente Thaumarchaeota) são os principais oxidantes de amônia, contribuindo para as emissões globais de gases de efeito estufa (N2O) e sendo responsáveis pela maior parte da perda fixa de nitrogênio abaixo da zona fótica [3,4,5]. Nas últimas décadas, um feedback entre a expansão impulsionada pelas alterações climáticas das regiões com baixo teor de oxigénio no oceano mesopelágico, onde a Nitrososphaeria prospera, e o subsequente aumento das emissões de gases com efeito de estufa destas regiões, está a pôr em perigo alguns dos ambientes marinhos mais produtivos do mundo [6,7 ,8]. Em zonas úmidas e solos permafrost, a Euryarchaeota metanogênica dominante é responsável por até 40% da produção mundial de metano, grande parte da qual é posteriormente oxidada por metanotróficos concomitantes [9]. Isto é particularmente preocupante, uma vez que grande parte do carbono do solo mundial é armazenado em regiões de permafrost, que estão em rápida transição para zonas húmidas à medida que as temperaturas globais aumentam, representando assim uma potencial fonte importante de metano atmosférico no futuro [10]. Dada a abundância e os papéis biogeoquímicos críticos desempenhados pelas archaea nestes e noutros sistemas, o conhecimento dos vírus que os infectam é essencial para avaliações ecológicas robustas e modelos climáticos preditivos.
Assim como as bactérias foram bem estudadas em relação às archaea na maioria dos ecossistemas naturais, o mesmo se aplica aos bacteriófagos em relação aos vírus archaea. Avanços no sequenciamento metagenômico, no pipeline ecogenômico de amostra para sequência, melhores práticas em identificação viral [11,12,13,14] e plataformas analíticas como o iVirus que democratizaram essas capacidades [15, 16], permitiram a descoberta de centenas de milhares de vírus bacterianos, ou fagos, de ambientes em todo o mundo [17,18,19,20]. Esses fagos são creditados por impactar substancialmente a mortalidade do hospedeiro, a transferência horizontal de genes e a reprogramação metabólica [21,22,23,24,25,26,27], de maneiras que impactam funções críticas do ecossistema, como o ciclo global de carbono nos oceanos [28]. Assim, a nossa capacidade de “ver” os fagos é forte, e isto resultou em saltos transformacionais na nossa compreensão de como os fagos impactam os ecossistemas.
Em contraste, os vírus arqueais, que têm sido tradicionalmente estudados em ambientes “extremos”, como fontes termais ácidas, lagoas hipersalinas, sedimentos anaeróbicos ou fontes hidrotermais, estão gravemente sub-representados na maioria dos estudos baseados em metagenoma em escala global [29,30,31, 32,33]. Por exemplo, até o momento, menos de 230 vírus arqueais marinhos foram identificados confidencialmente entre vários estudos metagenômicos habilitados ou baseados em cultura [18, 32, 34,35,36,37,38,39,40,41,42], enquanto uma recente pesquisa global dos oceanos revelou mais de 488 mil populações virais, a maioria das quais se presume serem fagos [17]. No total, estimamos que agora existem genomas bem documentados ou grandes fragmentos de genoma disponíveis de menos de ~380 vírus arqueais, com outros 6.027 vírus arqueais putativos no IMG/VR-db v3.0, [43] que é uma pequena fração quando comparado com as centenas de milhares de genomas populacionais agora disponíveis para fagos [17,18,19,20]. Uma explicação para isso pode ser que a descoberta de novos vírus arqueais é amplamente baseada em pesquisas de homologia de sequência em bancos de dados de referência públicos que são preenchidos por vírus de ambientes extremos e muitos vírus arqueais não possuem homologia com essas referências [44]. Esses vírus arqueais “extremos” talvez não sejam bons representantes dos vírus arqueais de ambientes relativamente não extremos, independentemente da incrível variedade de morfologias e estilos de vida que exibem [29, 45,46,47,48]. Assim, distinguir bacteriófagos de vírus arqueais em conjuntos de dados de ambientes relativamente não extremos, usando abordagens atuais, continua a ser um desafio, apesar das claras diferenças genômicas e evolutivas entre fagos e vírus arqueais [29, 45, 46, 49,50,51,52 ]. Como consequência, os papéis ecológicos dos vírus arqueais em ambientes relativamente não extremos permanecem pouco claros, mesmo que as evidências sugiram que eles podem ser parte integrante do ciclo biogeoquímico e da dinâmica da comunidade hospedeira [36, 53,54,55].