Conjuntos de Dados & Benchmarks
Bem-vindo à seção de conjuntos de dados e benchmarks! Aqui você encontrará conjuntos de dados de pesquisa do câncer curados, benchmarks padronizados e métricas de avaliação projetados para acelerar a pesquisa reproduzível e permitir comparações justas entre diferentes abordagens.
Qualidade sobre quantidade: Nos concentramos em conjuntos de dados com documentação adequada, metadados e validação, em vez de apenas grandes volumes de dados brutos.
O Que Você Encontrará
Conjuntos de Dados Curados
- Dados Genômicos: WES, WGS, RNA-seq do TCGA, ICGC e outros consórcios
- Dados Clínicos: Coortes de pacientes anotadas com dados de sobrevivência e tratamento
- Dados de Imagem: Lâminas de patologia, exames de radiologia e imagem molecular
- Multi-ômicas: Conjuntos de dados integrados combinando múltiplos tipos de dados
Benchmarks Padronizados
- Métricas de Performance: Critérios de avaliação padronizados para diferentes tarefas
- Rankings: Classificações dirigidas pela comunidade de métodos e abordagens
- Testes de Reprodutibilidade: Validação de resultados e afirmações publicadas
- Protocolos de Validação Cruzada: Frameworks de avaliação consistentes
Padrões de Qualidade
- Princípios FAIR: Encontrável, Acessível, Interoperável, Reutilizável
- Padrões de Metadados: Documentação abrangente e proveniência
- Controle de Versão: Mudanças rastreadas e linhagem de dados
- Acessibilidade: Licenciamento claro e termos de uso
Conjuntos de Dados Disponíveis
Lista curada em inglês: Datasets.
Categorias de Benchmark
1. Análise Genômica
- Chamada de Variantes: Detecção de SNV, indel, CNV e variantes estruturais
- Análise de Expressão: Expressão diferencial, enriquecimento de vias
- Metilação: Padrões de metilação do DNA e regiões regulatórias
- Single-cell: Identificação de tipos celulares e análise de trajetória
2. Predição Clínica
- Análise de Sobrevivência: Predição de sobrevivência geral e livre de progressão
- Resposta ao Tratamento: Predição de resposta e mecanismos de resistência
- Estratificação de Risco: Avaliação de risco do paciente e monitoramento
- Descoberta de Biomarcadores: Identificação de marcadores preditivos
3. Imagem & Patologia
- Detecção de Tumor: Detecção e segmentação automatizadas
- Graduação & Estadiamento: Graduação histológica e estadiamento TNM
- Correlatos Moleculares: Características de imagem ligadas a dados moleculares
- Planejamento de Tratamento: Radioterapia e planejamento cirúrgico
Métricas de Avaliação
Tarefas de Classificação
- Acurácia, Precisão, Recall, F1-Score
- AUC-ROC, AUPRC
- Cohen's Kappa, Correlação de Matthews
Análise de Sobrevivência
- C-index (Índice de Concordância)
- AUC dependente do tempo
- Integrated Brier Score
Tarefas de Regressão
- Mean Squared Error (MSE)
- Mean Absolute Error (MAE)
- R² Score
Começando
1. Escolha Seu Conjunto de Dados
- Navegue pelos conjuntos de dados disponíveis por tipo de câncer, tipo de dados ou tamanho
- Verifique a documentação e exemplos de uso
- Verifique licenciamento e requisitos de acesso
2. Configure Seu Ambiente
- Use contêineres Docker fornecidos ou ambientes conda
- Instale dependências e ferramentas necessárias
- Configure pipelines de processamento e armazenamento de dados
3. Execute Benchmarks
- Siga protocolos de avaliação padronizados
- Use scripts de avaliação e métricas fornecidos
- Submeta resultados para rankings da comunidade
Contribuindo
Adicionar Novos Conjuntos de Dados
- Submeta conjuntos de dados bem documentados com metadados claros
- Inclua validação e métricas de qualidade
- Forneça exemplos de uso e tutoriais
Melhorar Benchmarks
- Sugira novas métricas de avaliação
- Proponha protocolos padronizados
- Ajude a manter rankings
Reportar Problemas
- Sinalize problemas de qualidade de dados
- Reporte bugs em scripts de avaliação
- Sugira melhorias na documentação
Recursos
- Padrões de Dados: Princípios FAIR e esquemas de metadados
- Ferramentas de Avaliação: Scripts e bibliotecas para benchmarking
- Melhores Práticas: Diretrizes para pesquisa reproduzível
- Comunidade: Fóruns e grupos de discussão
Esta seção é seu portal para dados de pesquisa do câncer de alta qualidade. Comece com conjuntos de dados pequenos para aprender, depois escale para desafios maiores. Lembre-se: bons dados vencem grandes dados sempre.