Pipelines Reproduzíveis

Fontes checadas em 2026-06-04. Esta página descreve padrões educacionais de workflow. Ela não certifica que o Hack-Cancer mantém pipelines prontos para uso clínico ou pesquisa regulada, e não deve ser usada como protocolo de análise clínica.

Pipelines de genômica do câncer só são úteis quando a pergunta biológica, o desenho da coorte, os arquivos de referência, as versões de software, os limiares de controle de qualidade e a estratégia de validação estão documentados. Gerenciadores como Nextflow, Snakemake e CWL ajudam a reproduzir execuções, mas não tornam uma análise cientificamente válida por si só.

Como Ler Esta Página

Trate cada seção como um modelo do que um pipeline precisa documentar, não como um workflow publicado do Hack-Cancer.
Prefira workflows comunitários mantidos, como os pipelines nf-core, quando eles se ajustarem ao ensaio e à pergunta de pesquisa.
Fixe versões exatas do workflow, containers, genoma de referência, anotações e pacotes estatísticos.
Rode controles positivos e negativos pequenos antes de analisar uma coorte real.
Separe interpretação clínica de saída computacional, a menos que o workflow tenha sido validado sob a governança apropriada.

Padrão para Chamada de Variantes

Chamada de variantes pode significar coisas muito diferentes dependendo do estudo: germline, tumor-only, tumor-normal, painel direcionado, exoma ou genoma completo.

Decisões Centrais

Decisão	Por que importa
Tumor-only vs tumor-normal	Chamadas tumor-only têm mais incerteza sobre filtragem germline e clonabilidade.
Painel vs exoma vs genoma	O desenho de captura muda sensibilidade, cobertura e falsos negativos.
SNV/indel vs CNV/SV	Classes diferentes de variante exigem callers e validações diferentes.
Referência e anotação	Coordenadas hg19/GRCh37 e GRCh38 não são intercambiáveis.

Componentes Típicos

Alinhamento ou pré-processamento adequado ao ensaio.
Marcação de duplicatas, tratamento de qualidade de base e QC por amostra.
Chamada de variantes com caller e parâmetros documentados.
Anotação com modelo gênico e base de conhecimento versionados.
Validação ortogonal ou por benchmark quando o resultado sustentar uma afirmação de alto impacto.

Para trabalho real, comece por recursos mantidos como GATK Best Practices ou nf-core/sarek, em vez de assumir que comandos de exemplo deste site foram validados.

Padrão para RNA-seq

Análise de RNA-seq deve começar pelo endpoint: quantificação de expressão, expressão diferencial, detecção de fusões, deconvolução imune, análise de vias ou classificação de subtipo. Essas tarefas não são intercambiáveis.

Checagens Científicas Mínimas

Confirmar tipo de biblioteca, tamanho de leitura, strandedness e estrutura de batches.
Inspecionar taxa de mapeamento, duplicação, insert size, conteúdo de rRNA e troca de amostras.
Separar gráficos exploratórios de testes estatísticos.
Usar controle adequado de múltiplos testes para claims por gene e por via.
Evitar interpretar fold change sem desenho amostral, normalização e estimativa de variância.

Para workflows de pesquisa robustos, compare a análise planejada com pipelines mantidos como nf-core/rnaseq e com os pressupostos estatísticos de ferramentas como DESeq2 ou edgeR.

Padrão para Single-cell

Pipelines de single-cell RNA-seq são especialmente sensíveis à química de captura, dissociação tecidual, doublets, RNA ambiente, efeitos de batch e anotação de tipos celulares.

Falhas Comuns

Tratar clusters como tipos celulares sem revisão de marcadores.
Remover células de "baixa qualidade" de forma que elimine populações tumorais ou imunes raras.
Corrigir batches em excesso e apagar sinal biológico real.
Inferir trajetórias ou redes ligante-receptor sem suporte independente.
Comparar proporções sem considerar viés de amostragem e dissociação.

Cell Ranger, Seurat, Scanpy e nf-core/scrnaseq podem ser bons pontos de partida, mas QC específico do estudo e revisão biológica continuam obrigatórios.

Pipelines de Machine Learning

Workflows de machine learning em oncologia precisam de mais do que treinamento de modelo. Eles precisam de coorte documentada, definição de endpoint, auditoria de vazamento, calibração, validação externa e revisão de desempenho por subgrupo.

Não trate validação cruzada em dataset pequeno ou sintético como evidência clínica. Um modelo que performa bem no split errado ainda pode falhar em outro hospital, scanner, plataforma de sequenciamento ou população.

Execução em Nuvem

Infraestrutura em nuvem pode facilitar escala, mas adiciona requisitos:

Controle de acesso e logs de auditoria.
Região e armazenamento alinhados à governança dos dados.
Containers e revisões de workflow reproduzíveis.
Monitoramento de custo para cargas grandes de sequenciamento ou imagem.
Separação clara entre exemplos educacionais e processamento de dados regulados.

O que Documentar em um Pipeline Real

Pergunta de pesquisa e endpoint.
Critérios de inclusão e exclusão da coorte.
Identificadores de amostra, tipo de ensaio e proveniência.
Gerenciador de workflow e revisão exata do código.
Digests de imagens de container ou lock files de ambiente.
Genoma de referência, arquivos de anotação e versões de bancos de dados.
Limiares de QC e conduta quando uma amostra falha.
Métodos estatísticos e correção para múltiplos testes.
Dataset de validação ou truth set de benchmark.
Limitações e falhas conhecidas.

Pontos de Partida Mantidos

Área	Recurso público	Use com cuidado porque
Chamada germline e somática	GATK Best Practices	O workflow correto depende do ensaio e do pareamento das amostras.
Tumor-normal, painel, WES e WGS	nf-core/sarek	Parâmetros, referências e callers ainda precisam de revisão.
RNA-seq bulk	nf-core/rnaseq	Expressão diferencial é downstream do pipeline e depende do desenho do estudo.
Single-cell RNA-seq	nf-core/scrnaseq, Cell Ranger, Seurat, Scanpy	Claims de tipo celular exigem validação biológica, não apenas clustering.
Execução de workflows	Nextflow, Snakemake, CWL	Orquestração melhora reprodutibilidade, mas não valida a ciência.

Referências

GATK Best Practices Workflows. Broad Institute. https://gatk.broadinstitute.org/hc/en-us/sections/360007226651-Best-Practices-Workflows
nf-core/sarek. https://nf-co.re/sarek
nf-core/rnaseq. https://nf-co.re/rnaseq
nf-core/scrnaseq. https://nf-co.re/scrnaseq
Documentação do Nextflow. https://www.nextflow.io/docs/latest/
Documentação do Snakemake. https://snakemake.readthedocs.io/

Pipelines Reproduzíveis ​

Como Ler Esta Página ​

Padrão para Chamada de Variantes ​

Decisões Centrais ​

Componentes Típicos ​

Padrão para RNA-seq ​

Checagens Científicas Mínimas ​

Padrão para Single-cell ​

Falhas Comuns ​

Pipelines de Machine Learning ​

Execução em Nuvem ​

O que Documentar em um Pipeline Real ​

Pontos de Partida Mantidos ​

Referências ​