top of page
Search
laipaconvapers

Spades assembler: como baixar e usar o software de montagem de sequências genômicas



Como baixar e usar o SPAdes Assembler




SPAdes - montador do genoma de São Petersburgo - é um kit de ferramentas de montagem que contém vários pipelines de montagem para diferentes tipos de dados de sequenciamento. Ele foi originalmente desenvolvido para a montagem de novo de genomas bacterianos e virais de células únicas ou amostras isoladas, mas foi estendido para suportar também a montagem metagenômica, plasmidial, transcriptômica e biossintética de clusters de genes. Os SPAdes também podem realizar montagem híbrida usando leituras curtas (Illumina ou IonTorrent) e leituras longas (PacBio, Oxford Nanopore ou Sanger). A SPAdes é uma das montadoras mais utilizadas na área, e apresenta diversas vantagens em relação às outras montadoras, como:




download spades assembler



  • Ele pode lidar com estruturas repetidas complexas e grandes variações do genoma.



  • Ele pode produzir montagens de alta qualidade com baixas taxas de erro e alta completude de genes.



  • Ele pode montar genomas de baixa cobertura ou dados distribuídos de forma desigual.



  • Ele pode montar vários genomas a partir de amostras mistas.



  • Ele pode montar novas sequências que não estão presentes nos genomas de referência.



Neste artigo, mostrarei como baixar e usar o montador SPAdes para seus próprios projetos de montagem de genoma. Abordarei os seguintes tópicos:


  • Como baixar binários SPAdes ou código-fonte para Linux ou Mac.



  • Como verificar sua instalação e executar um autoteste.



  • Como fornecer dados de entrada e opções de linha de comando para diferentes pipelines de montagem.



  • Como avaliar os arquivos de saída e as estatísticas.



Ao final deste artigo, você será capaz de realizar a montagem do genoma de novo usando SPAdes com confiança e facilidade. Vamos começar!


Baixando SPAdes




O primeiro passo é baixar SPAdes de seu site oficial: . Você pode optar por baixar os binários pré-compilados ou o código-fonte, dependendo do seu sistema operacional e preferência.A versão mais recente do SPAdes é a 3.15.5, lançada em 14 de julho de 2022 sob a licença GPLv2.


Baixando os binários SPAdes para Linux




Se você estiver usando um sistema Linux (somente 64 bits), poderá baixar os binários pré-compilados do site. O nome do arquivo é SPAdes-3.15.5-Linux.tar.gz. Você pode usar o seguinte comando para baixá-lo:


wget


Como alternativa, você pode usar um navegador da Web para baixá-lo manualmente. Após o download, você precisa extrair o arquivo usando o seguinte comando:


tar -xzf SPAdes-3.15.5-Linux.tar.gz


Isso criará uma pasta chamada SPAdes-3.15.5-Linux, que contém os arquivos executáveis e outros recursos para SPAdes.


Baixando os binários do SPAdes para Mac




Se você estiver usando um sistema Mac (somente 64 bits), também poderá baixar os binários pré-compilados do site. O nome do arquivo é SPAdes-3.15.5-Darwin.tar.gz. Você pode usar o seguinte comando para baixá-lo:


wget SPAdes-3.15.5-Darwin.tar.gz


Como alternativa, você pode usar um navegador da Web para baixá-lo manualmente. Após o download, você precisa extrair o arquivo usando o seguinte comando:


tar -xzf SPAdes-3.15.5-Darwin.tar.gz


Isso criará uma pasta chamada SPAdes-3.15.5-Darwin, que contém os arquivos executáveis e outros recursos para SPAdes.


Baixando o código-fonte do SPAdes




Se você preferir compilar SPAdes a partir do código-fonte ou se estiver usando um sistema operacional diferente, também poderá baixar o código-fonte do site. O nome do arquivo é SPAdes-3.15.5.tar.gz. Você pode usar o seguinte comando para baixá-lo:


wget


Como alternativa, você pode usar um navegador da Web para baixá-lo manualmente. Após o download, você precisa extrair o arquivo usando o seguinte comando:


tar -xzf SPAdes-3.15.5.tar.gz


Isso criará uma pasta chamada SPAdes-3.15.5, que contém o código-fonte e outros recursos para SPAdes.


Para compilar SPAdes a partir do código-fonte, você precisa ter alguns pré-requisitos instalados em seu sistema, como CMake, GCC, Python 2 ou 3, zlib, bzip2 e bibliotecas Boost. Você pode verificar as instruções detalhadas sobre como instalar esses pré-requisitos no site do SPAdes: . Depois de instalar os pré-requisitos, você pode usar os seguintes comandos para compilar SPAdes:


cd SPAdes-3.15.5 ./spades_compile.sh


Isso criará um arquivo executável chamado espadas.py no lixeira pasta.


Instalando SPAdes




Depois de baixar e extrair (ou compilar) SPAdes, você precisa instalá-lo em seu sistema. O processo de instalação é muito simples e direto. Você só precisa adicionar o lixeira pasta de SPAdes para o seu sistema CAMINHO variável, para que você possa executar SPAdes de qualquer diretório.


Instalando SPAdes no Linux




Se estiver usando um sistema Linux, você pode adicionar o lixeira pasta de SPAdes para o seu CAMINHO variável editando seu .bashrc arquivo (ou equivalente) em seu diretório pessoal. Você pode usar o seguinte comando para abrir o arquivo com um editor de texto (como o nano):


nano /.bashrc


Em seguida, adicione a seguinte linha no final do arquivo (substitua /caminho/para/SPAdes-3.15.5-Linux/bin com o caminho real de seus SPAdes lixeira pasta):


export PATH=$PATH:/caminho/para/SPAdes-3.15.5-Linux/bin


Salve e feche o arquivo e execute o seguinte comando para aplicar as alterações:


fonte /.bashrc


Agora você pode executar SPAdes de qualquer diretório digitando espadas.py.


Instalando SPAdes no Mac




Se estiver usando um sistema Mac, você pode adicionar o lixeira pasta de SPAdes para o seu CAMINHO variável editando seu .bash_profile arquivo (ou equivalente) em seu diretório pessoal. Você pode usar o seguinte comando para abrir o arquivo com um editor de texto (como o nano):


nano /.bash_profile


Em seguida, adicione a seguinte linha no final do arquivo (substitua /caminho/para/SPAdes-3.15.5-Darwin/bin com o caminho real de seus SPAdes lixeira pasta):


export PATH=$PATH:/caminho/para/SPAdes-3.15.5-Darwin/bin


Salve e feche o arquivo e execute o seguinte comando para aplicar as alterações:


fonte /.bash_profile


Agora você pode executar SPAdes de qualquer diretório digitando espadas.py.


Verificando a instalação do SPAdes e executando um autoteste




Depois de instalar o SPAdes, você deve verificar se ele funciona corretamente em seu sistema. Você pode fazer isso executando um autoteste que acompanha o SPAdes. O autoteste executará SPAdes em um pequeno conjunto de dados e verificará se a saída corresponde aos resultados esperados.


Para executar o autoteste, você precisa ir para o teste pasta do SPAdes, que está localizada dentro da pasta principal do SPAdes. Você pode usar o seguinte comando para ir até lá:


cd /caminho/para/SPAdes-3.15.5/teste


Em seguida, você pode executar o autoteste digitando:


./spades.py --teste


Isso iniciará o SPAdes no modo de teste e o executará em um pequeno conjunto de dados de leituras de E. coli. O teste levará alguns minutos para ser concluído e gerará alguns arquivos de saída em uma pasta chamada spades_test. Você deve ver algo assim no final do teste:


===== Teste aprovado =====


Isso significa que o SPAdes foi executado com sucesso e produziu a saída correta. Se você vir algum erro ou aviso, verifique o arquivo de log (espadas.log) para obter mais detalhes e solucionar o problema.


Correndo SPAdes




Agora que você instalou e verificou o SPAdes, está pronto para usá-lo em seus próprios projetos de montagem de genoma. Para executar SPAdes, você precisa fornecer alguns dados de entrada e algumas opções de linha de comando para diferentes pipelines de montagem.


Fornecendo dados de entrada




Os dados de entrada para SPAdes são leituras de sequenciamento de uma ou mais amostras. SPAdes podem lidar com vários tipos de leituras, como:


  • Leituras Illumina paired-end (PE) ou mate-pair (MP).



  • Leituras IonTorrent PE ou MP.



  • Leituras em tempo real (SMRT) de molécula única PacBio.



  • Leituras Oxford Nanopore MinION ou GridION.



  • Sanger lê.



  • Leituras mistas de fontes diferentes.



Você precisa especificar o tipo e o formato de suas leituras de entrada usando diferentes opções de linha de comando. As opções mais comuns são:


OpçãoDescrição


-1 O nome do arquivo com PE de encaminhamento lê (no formato FASTQ ou FASTA).


-2 O nome do arquivo com PE reverso lê (no formato FASTQ ou FASTA).


--s1 O nome do arquivo com leituras não pareadas (no formato FASTQ ou FASTA).


--pacbio O nome do arquivo com leituras PacBio SMRT (no formato FASTQ ou FASTA).


--nanopore O nome do arquivo com Oxford Nanopore lê (no formato FASTQ ou FASTA).


--sanger O nome do arquivo com Sanger lê (no formato FASTQ ou FASTA).


--pe1-12 O nome do arquivo com leituras de PE direta e reversa entrelaçadas (no formato FASTQ ou FASTA).


--mp1-12 O nome do arquivo com leituras de MP para frente e para trás entrelaçadas (no formato FASTQ ou FAST A).


Você pode usar várias opções para fornecer leituras de diferentes fontes ou bibliotecas. Por exemplo, se você tiver leituras de PE da Illumina e leituras de SMRT da PacBio, poderá usar as seguintes opções:


-1 illumina_pe_1.fastq -2 illumina_pe_2.fastq --pacbio pacbio_smrt.fastq


Você também pode usar o --dataset opção para fornecer um arquivo YAML que descreve seus dados de entrada com mais detalhes. Por exemplo, você pode especificar o tipo de biblioteca, orientação, tamanho de inserção, deslocamento de qualidade e cobertura para cada arquivo. Você pode encontrar mais informações sobre como criar um arquivo YAML no site do SPAdes: .


Escolhendo opções de linha de comando para diferentes pipelines de montagem




A próxima etapa é escolher as opções de linha de comando apropriadas para o pipeline de montagem adequado aos seus dados e objetivo. O SPAdes possui vários pipelines de montagem para diferentes tipos de dados, como:


  • --sc: Pipeline de montagem unicelular para genomas bacterianos ou virais a partir de amostras unicelulares ou isoladas.



  • --meta: Pipeline de montagem metagenômica para comunidades microbianas mistas.



  • --plasmídeo: Pipeline de montagem de plasmídeo para detecção e extração de plasmídeo.



  • --rna: Pipeline de montagem transcriptômica para dados de RNA-Seq.



  • --isolar: Isole o pipeline de montagem para genomas bacterianos ou virais de amostras isoladas.



  • --moleculo: Pipeline de montagem Moleculo para longas leituras sintéticas da tecnologia Moleculo.



  • --bga: Pipeline de montagem de cluster de genes biossintéticos para clusters de genes de metabólitos secundários.



Você pode usar uma dessas opções para executar o pipeline correspondente ou pode omiti-las para executar o pipeline padrão, que é adequado para a maioria dos casos. Por exemplo, se você deseja montar um genoma bacteriano a partir de dados de uma única célula, pode usar a seguinte opção:


--sc


Se você deseja montar uma amostra metagenômica a partir de leituras mistas, pode usar a seguinte opção:


--meta


Se você deseja montar um transcriptoma a partir de dados de RNA-Seq, pode usar a seguinte opção:


--rna Além dessas opções de pipeline, você também pode utilizar algumas outras opções para customizar seu processo de montagem, como:


  • -k : o tamanho k-mer a ser usado para montagem. Você pode especificar um único valor (por exemplo, -k 21) ou uma lista de valores separados por vírgula (por exemplo, -k 21,33,55). o valor padrão é auto, o que significa que SPAdes escolherá o tamanho k-mer ideal com base em seus dados.



  • -t : O número de encadeamentos a serem usados na montagem. o valor padrão é 16.



  • -m : a quantidade de RAM a ser usada para montagem em GB. o valor padrão é 250.



  • --cuidadoso: A opção de executar SPAdes em modo cuidadoso, o que reduzirá o número de incompatibilidades e indels curtos na montagem resultante.



  • --somente montador: A opção de executar apenas o módulo de montagem do SPAdes, sem realizar correção de erros ou mapeamento de leitura.



  • --continuar: A opção de retomar uma execução previamente interrompida de SPAdes a partir do último ponto de verificação disponível.



Você pode encontrar mais informações sobre as opções de linha de comando disponíveis no site do SPAdes: .


Avaliando a saída do SPAdes




Depois de executar o SPAdes, você obterá alguns arquivos de saída e estatísticas em uma pasta com o nome do seu projeto. Por exemplo, se você executar SPAdes com o seguinte comando:


./spades.py -1 illumina_pe_1.fastq -2 illumina_pe_2.fastq --pacbio pacbio_smrt.fastq -o meu_projeto


Você receberá uma pasta chamada meu projeto, que contém os seguintes arquivos e subpastas:


Arquivo ou subpastaDescrição


espadas.logO arquivo de log que registra o progresso e o status dos SPAdes.


params.txtO arquivo que contém os parâmetros e opções usados para SPAdes.


dataset.infoO arquivo que contém as informações sobre os dados de entrada.


corrigido/A subpasta que contém as leituras corrigidas de erros.


incompatibilidade_corretor/A subpasta que contém os contigs e scaffolds corrigidos pela incompatibilidade.


K21/ K33/ K55/ .../As subpastas que contêm os conjuntos intermediários para cada tamanho de k-mer.


scaffolds.fastaO arquivo de montagem final que contém os scaffolds (sequências com lacunas).


contigs.fastaO arquivo de montagem final que contém os contigs (sequências sem lacunas).


assembly_graph.fastgO arquivo de gráfico de montagem final no formato FASTG.


scaffolds.pathsO arquivo que contém os caminhos dos contigs em scaffolds.


contigs.paths(#mensagem) Continue escrevendo o artigo. [assistente](#mensagem) O arquivo que contém os caminhos das arestas em contigs.


espadas.yamlO arquivo que contém as estatísticas resumidas e as métricas de qualidade da montagem final.


Para avaliar a qualidade e a precisão de sua montagem, você pode examinar alguns desses arquivos de saída e estatísticas. Por exemplo, você pode verificar as seguintes métricas:


  • O número e comprimento de scaffolds e contigs. Você pode usar ferramentas como para gerar um relatório abrangente sobre essas métricas.



Os valores N50 e NG50 de scaffolds e contigs. Estas são medidas de contiguidade e completude de sua montagem. Quanto maiores os valores, melhor a montagem.Você A: Você pode citar SPAdes usando a seguinte referência: Bankevich A, Nurk S, Antipov D, Gurevich AA, Dvorkin M, Kulikov AS, Lesin VM, Nikolenko SI, Pham S, Prjibelski AD, Pyshkin AV, Sirotkin AV, Vyahhi N, Tesler G, Alekseyev MA, Pevzner PA. SPAdes: Um Novo Algoritmo de Montagem de Genoma e Suas Aplicações ao Sequenciamento de Células Únicas. Jornal de Biologia Computacional. 2012 maio;19(5):455-77. doi: 10.1089/cmb.2012.0021. Você também pode usar o formato BibTeX: @articlebankevich2012spades, title=SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing, author=Bankevich, Anton e Nurk, Sergey e Antipov, Dmitry e Gurevich, Alexey A e Dvorkin, Mikhail e Kulikov, Alexander S e Lesin, Vladislav M e Nikolenko, Sergey I e Pham, Son e Prjibelski, Andrey D e Pyshkin, Alexey V e Sirotkin, Alexander V e Vyahhi, Nikolay e Tesler, Glenn e Alekseyev, Max A e Pevzner, Pavel A, jornal=Journal of Computational Biology, volume=19, número=5, páginas=455--477, ano=2012, editor=Mary Ann Liebert Inc P: Como obtenho ajuda ou relato um bug do SPAdes?




R: Você pode obter ajuda ou relatar um bug do SPAdes entrando em contato com os desenvolvedores por e-mail ou GitHub. O endereço de e-mail é .


P: Como atualizo o SPAdes para a versão mais recente?




R: Você pode atualizar o SPAdes para a versão mais recente baixando os novos binários ou o código-fonte no site do SPAdes: . Você também pode usar o --check-for-updates opção ao executar SPAdes para verificar se há uma nova versão disponível.


P: Como eu desinstalo SPAdes do meu sistema?




R: Você pode desinstalar o SPAdes do seu sistema excluindo a pasta SPAdes e removendo-a do seu CAMINHO variável.Você também pode excluir quaisquer arquivos de saída ou pastas que você criou com SPAdes. 0517a86e26


0 views0 comments

Recent Posts

See All

Comments


bottom of page