Skip to content

Conjuntos de Dados & Benchmarks

Bem-vindo à seção de conjuntos de dados e benchmarks! Aqui você encontrará conjuntos de dados de pesquisa do câncer curados, benchmarks padronizados e métricas de avaliação projetados para acelerar a pesquisa reproduzível e permitir comparações justas entre diferentes abordagens.

Qualidade sobre quantidade: Nos concentramos em conjuntos de dados com documentação adequada, metadados e validação, em vez de apenas grandes volumes de dados brutos.


O Que Você Encontrará

Conjuntos de Dados Curados

  • Dados Genômicos: WES, WGS, RNA-seq do TCGA, ICGC e outros consórcios
  • Dados Clínicos: Coortes de pacientes anotadas com dados de sobrevivência e tratamento
  • Dados de Imagem: Lâminas de patologia, exames de radiologia e imagem molecular
  • Multi-ômicas: Conjuntos de dados integrados combinando múltiplos tipos de dados

Benchmarks Padronizados

  • Métricas de Performance: Critérios de avaliação padronizados para diferentes tarefas
  • Rankings: Classificações dirigidas pela comunidade de métodos e abordagens
  • Testes de Reprodutibilidade: Validação de resultados e afirmações publicadas
  • Protocolos de Validação Cruzada: Frameworks de avaliação consistentes

Padrões de Qualidade

  • Princípios FAIR: Encontrável, Acessível, Interoperável, Reutilizável
  • Padrões de Metadados: Documentação abrangente e proveniência
  • Controle de Versão: Mudanças rastreadas e linhagem de dados
  • Acessibilidade: Licenciamento claro e termos de uso

Conjuntos de Dados Disponíveis

Lista curada em inglês: Datasets.


Categorias de Benchmark

1. Análise Genômica

  • Chamada de Variantes: Detecção de SNV, indel, CNV e variantes estruturais
  • Análise de Expressão: Expressão diferencial, enriquecimento de vias
  • Metilação: Padrões de metilação do DNA e regiões regulatórias
  • Single-cell: Identificação de tipos celulares e análise de trajetória

2. Predição Clínica

  • Análise de Sobrevivência: Predição de sobrevivência geral e livre de progressão
  • Resposta ao Tratamento: Predição de resposta e mecanismos de resistência
  • Estratificação de Risco: Avaliação de risco do paciente e monitoramento
  • Descoberta de Biomarcadores: Identificação de marcadores preditivos

3. Imagem & Patologia

  • Detecção de Tumor: Detecção e segmentação automatizadas
  • Graduação & Estadiamento: Graduação histológica e estadiamento TNM
  • Correlatos Moleculares: Características de imagem ligadas a dados moleculares
  • Planejamento de Tratamento: Radioterapia e planejamento cirúrgico

Métricas de Avaliação

Tarefas de Classificação

  • Acurácia, Precisão, Recall, F1-Score
  • AUC-ROC, AUPRC
  • Cohen's Kappa, Correlação de Matthews

Análise de Sobrevivência

  • C-index (Índice de Concordância)
  • AUC dependente do tempo
  • Integrated Brier Score

Tarefas de Regressão

  • Mean Squared Error (MSE)
  • Mean Absolute Error (MAE)
  • R² Score

Começando

1. Escolha Seu Conjunto de Dados

  • Navegue pelos conjuntos de dados disponíveis por tipo de câncer, tipo de dados ou tamanho
  • Verifique a documentação e exemplos de uso
  • Verifique licenciamento e requisitos de acesso

2. Configure Seu Ambiente

  • Use contêineres Docker fornecidos ou ambientes conda
  • Instale dependências e ferramentas necessárias
  • Configure pipelines de processamento e armazenamento de dados

3. Execute Benchmarks

  • Siga protocolos de avaliação padronizados
  • Use scripts de avaliação e métricas fornecidos
  • Submeta resultados para rankings da comunidade

Contribuindo

Adicionar Novos Conjuntos de Dados

  • Submeta conjuntos de dados bem documentados com metadados claros
  • Inclua validação e métricas de qualidade
  • Forneça exemplos de uso e tutoriais

Melhorar Benchmarks

  • Sugira novas métricas de avaliação
  • Proponha protocolos padronizados
  • Ajude a manter rankings

Reportar Problemas

  • Sinalize problemas de qualidade de dados
  • Reporte bugs em scripts de avaliação
  • Sugira melhorias na documentação

Recursos

  • Padrões de Dados: Princípios FAIR e esquemas de metadados
  • Ferramentas de Avaliação: Scripts e bibliotecas para benchmarking
  • Melhores Práticas: Diretrizes para pesquisa reproduzível
  • Comunidade: Fóruns e grupos de discussão

Esta seção é seu portal para dados de pesquisa do câncer de alta qualidade. Comece com conjuntos de dados pequenos para aprender, depois escale para desafios maiores. Lembre-se: bons dados vencem grandes dados sempre.

Versão inicial pública. Conteúdo evolui com revisão contínua. Dúvidas: [email protected] · CC BY 4.0 quando aplicável.