Skip to content

Dados e APIs para Pesquisa sobre Câncer

Bem-vindo à seção de dados e APIs! Aqui você encontrará fontes confiáveis de dados genômicos, clínicos e moleculares para acelerar sua pesquisa sobre câncer.

Categorias de Dados

Dados Genômicos

  • Sequenciamento: WGS, WES, RNA-Seq
  • Mutações: Variantes somáticas e germinativas
  • Expressão: Perfis de expressão gênica
  • Metilação: Padrões de metilação do DNA

Dados Clínicos

  • Histórico: Idade, gênero, etnia
  • Diagnóstico: Tipo e estágio do câncer
  • Tratamento: Protocolos e respostas
  • Sobrevida: Tempo de sobrevida e recorrência

Dados Moleculares

  • Proteômica: Perfis de proteínas
  • Metabolômica: Metabólitos e vias
  • Imunologia: Resposta imune e microambiente
  • Patologia: Imagens histopatológicas

APIs Disponíveis

Recursos detalhados em inglês: Data & APIs.

Principais Fontes de Dados

TCGA (The Cancer Genome Atlas)

  • Descrição: Caracterização molecular de 20.000+ amostras
  • Tipos: Genômica, transcriptômica, epigenômica
  • Acesso: Portal web e API REST
  • Formato: FASTQ, BAM, VCF, MAF

GDC (Genomic Data Commons)

  • Descrição: Plataforma unificada para dados de câncer
  • Tipos: Dados harmonizados de múltiplas fontes
  • Acesso: API REST, portal web, cliente Python
  • Formato: Padrões internacionais (BAM, VCF, MAF)

cBioPortal

  • Descrição: Exploração e análise de dados de câncer
  • Tipos: Dados integrados de múltiplos estudos
  • Acesso: Interface web, API REST
  • Formato: Dados processados e visualizações

ICGC (International Cancer Genome Consortium)

  • Descrição: Colaboração internacional para genômica do câncer
  • Tipos: Dados de 50+ tipos de câncer
  • Acesso: Portal web, downloads diretos
  • Formato: VCF, MAF, dados clínicos

Como Acessar os Dados

Via API REST

python
import requests

# Exemplo: GDC API
url = "https://api.gdc.cancer.gov/cases"
params = {
    "filters": '{"op":"in","content":{"field":"cases.project.project_id","value":["TCGA-BRCA"]}}',
    "format": "json",
    "size": "10"
}

response = requests.get(url, params=params)
data = response.json()

Via Cliente Python

python
from gdc import GDCClient

client = GDCClient()
cases = client.search_cases(project_id="TCGA-BRCA", size=10)

Via Download Direto

bash
# Usando wget
wget "https://api.gdc.cancer.gov/data/TCGA-BRCA-01A-01R-A00Z-07"

# Usando curl
curl -O "https://api.gdc.cancer.gov/data/TCGA-BRCA-01A-01R-A00Z-07"

Formatos de Dados

Arquivos de Sequência

  • FASTQ: Sequências brutas com scores de qualidade
  • FASTA: Sequências sem scores de qualidade
  • BAM/SAM: Alinhamentos de sequência
  • VCF: Variantes genômicas

Dados Clínicos

  • CSV/TSV: Dados tabulares
  • JSON: Dados estruturados
  • XML: Dados hierárquicos
  • Excel: Planilhas

Metadados

  • JSON-LD: Dados semânticos
  • YAML: Configurações e metadados
  • RDF: Dados de conhecimento

Considerações de Privacidade

Dados Públicos

  • TCGA: Dados anonimizados e públicos
  • GDC: Dados harmonizados e seguros
  • cBioPortal: Dados agregados e anonimizados

Dados Restritos

  • Controle de acesso: Baseado em aprovação
  • Anonimização: Identificadores removidos
  • Compliance: HIPAA, GDPR, LGPD

Recursos Adicionais

Contribuindo

Conhece uma fonte de dados útil? Ajude a documentar!

  1. Teste a API e documente os endpoints
  2. Crie exemplos de uso prático
  3. Documente formatos e estruturas de dados
  4. Compartilhe casos de uso interessantes

Estas fontes de dados são essenciais para democratizar a pesquisa sobre câncer e acelerar descobertas científicas.

Versão inicial pública. Conteúdo evolui com revisão contínua. Dúvidas: [email protected] · CC BY 4.0 quando aplicável.