Skip to content

IA e aprendizado de máquina em oncologia

Esta página é educacional e reflete o estado da literatura em 2025. Não substitui orientação clínica.

TL;DR

Aprendizado de máquina já permeia a oncologia — rastreamento (TC de baixa dose para pulmão, mamografia), patologia digital, radiômica, interpretação genômica, descoberta de fármacos, matching de ensaios e predição de desfechos. Os avanços técnicos são reais, mas a maioria das implantações em produção enfrenta os mesmos problemas duros: distribution shift, qualidade de rótulos, calibração em subgrupos, enquadramento regulatório e a lacuna entre AUC em conjunto de teste e melhora real de desfecho clínico. Esta página é o mapa de orientação; ver Armadilhas de ML em oncologia para os modos de falha que você precisa internalizar.


1. Onde ML hoje tem impacto mensurável

DomínioExemplos (2024–2025)Status
Rastreamento de pulmão por TC de baixa doseDetecção de nódulos por IA, escore de risco de malignidade, predição end-to-end[1]Várias ferramentas com aval da FDA; integradas em fluxo clínico em escala
Triagem de mamografiaPriorização de worklist, redução de câncer perdidoMúltiplas ferramentas aprovadas; uso em programas de rastreamento
Patologia digitalApoio a Gleason em próstata, quantificação HER2/Ki-67 em mama, predição de MSI a partir de H&EFerramentas aprovadas; integração com LIS em expansão
Predição de PD-L1 / TMB / TMEEscore por ML para sinais de benefício de imunoterapia a partir de imagem e ômicas[2]Em pesquisa; algumas validações IVD em curso
Predição de variantes genômicasPatogenicidade, impacto em splice, classificação de variantes estruturaisAmplamente usado em pipelines de interpretação clínica
Descoberta de fármacosEstrutura proteica (AlphaFold), química generativa, predição de propriedadesReformulou a fase inicial; tradução clínica é mais lenta
Matching de ensaiosProntuário/NLP → elegibilidade, ligação com ClinicalTrials.govVárias plataformas em produção
Predição de desfecho / riscoSobrevida, resposta a tratamento, toxicidadeMuitos modelos; poucos bem validados para implantação
OperaçõesOtimização de agenda, predição de no-show, alerta de sepseComum em centros acadêmicos

Para profundidade nos eixos de rastreamento e imunoterapia, ver refs e. Fontes: [1], [2]


2. Modalidades de dado, em resumo

  • Genômica / multi-ômicas — VCF, matrizes de expressão, metilação, interpretação de variante. Ver De FASTQ a variantes e Multi-ômicas.
  • Imagem — radiologia (TC, RM, PET, US, mamografia), patologia (WSI), endoscopia, dermatologia.
  • Texto livre — laudos de patologia, radiologia, notas de oncologia, sumários de alta.
  • Prontuário estruturado — laboratórios, sinais vitais, medicações, códigos CID, procedimentos.
  • Registros de ensaio / desfecho — desfechos pré-registrados, relatos de EA.
  • Desfechos relatados pelo paciente — diários de sintomas, ePROs, sinais de wearables.

Cada modalidade tem suas peculiaridades: imagem precisa de pipelines de pré-processamento e consciência de protocolo de aquisição; genômica precisa de referência versionada e anotação de variantes; texto precisa de desidentificação forte e grounding em ontologias.


3. Classes de modelos comuns

ClasseOnde brilha
Boosting de árvores (XGBoost, LightGBM)Dados tabulares de prontuário; baseline forte
CNNsImagem médica (ainda dominante em produção)
Transformers / vision transformersPatologia em lâminas inteiras, fusão multimodal
Foundation models para imagemRETFound, BiomedCLIP, FMs de patologia — emergentes
Foundation models para textoBioGPT, GatorTron, Med-PaLM — usos operacionais iniciais
GNNs (graph neural networks)Descoberta de fármacos, biologia de redes, similaridade entre pacientes
Modelos de sobrevidaCox-PH, DeepSurv, transformers com tempo
Modelos de difusãoDados sintéticos, aumento, química generativa
Aprendizado por reforçoDesenho adaptativo de ensaio, otimização de dose (pesquisa)

A classe do modelo costuma importar menos do que como os dados são divididos, o que os rótulos realmente significam e como o modelo é avaliado dentro do fluxo clínico.


4. Avaliação honesta

Três camadas de avaliação, em rigor crescente:

  1. Discriminação — AUC, sensibilidade/especificidade em pontos de operação.
  2. Calibração — a probabilidade prevista bate com a frequência observada? Bem mais importante que AUC para uso clínico; bem menos reportado.
  3. Utilidade clínica — o modelo muda uma decisão que melhora um desfecho? Análise de curva de decisão, implantação prospectiva, ensaios randomizados de IA vs. sem IA.

Falhas comuns de reporte:

  • AUC reportado no mesmo site/equipamento do treino (sem validação externa).
  • Vazamento no conjunto de teste (várias fatias do mesmo paciente entre treino e teste).
  • Desbalanceamento ignorado (cânceres raros sempre parecem ter "alta acurácia" se você prediz "sem câncer").
  • Sem análise por subgrupo (sexo, idade, raça/etnia, fabricante de equipamento, geografia).
  • Threshold otimizado a posteriori para maximizar uma métrica única.

Padrões de referência: TRIPOD-AI, CONSORT-AI, SPIRIT-AI para reporte e desenho de ensaios de IA clínica.


5. Contexto regulatório e de implantação

  • FDA (EUA) — framework SaMD; piloto pre-cert; Predetermined Change Control Plan (PCCP) para gestão do ciclo de vida em IA/ML.
  • UE — MDR + AI Act (2024) — IA médica de alto risco exige avaliação de conformidade, transparência, supervisão humana, vigilância pós-mercado.
  • Brasil — ANVISA RDC 657/2022 e RDC 751/2022 cobrem SaMD; orientação específica para IA em evolução; LGPD para proteção de dados.

Obrigações em deployment, além da acurácia:

  • Versionamento e reprodutibilidade — modelo + pré-processamento exato reprodutível a partir de uma tag.
  • Monitoramento de drift — distribuição de entrada e calibração de desfecho ao longo do tempo.
  • Logs de segurança — alertas acionáveis quando o desempenho cair.
  • Interface e suporte à decisão — exibir confiança e incerteza do modelo de forma significativa.
  • Supervisão humana — obrigatória em recomendações de alto risco.
  • Recall e rollback — capacidade de desabilitar ou reverter um modelo rapidamente quando problemas forem detectados.

Para o detalhamento regulatório, ver Regulação e ética.


6. Justiça, equidade e o problema do data shift

Modelos treinados em populações EUA/UE costumam ter desempenho pior em populações brasileira, africana, asiática ou indígena.Causas: Fontes: [2]

  • Distribution shift — equipamento de aquisição diferente, demografia distinta, padrões de comorbidade.
  • Viés de rótulo — disparidades históricas de cuidado codificadas como verdade-de-base.
  • Viés de amostragem — populações sub-representadas seguem sub-representadas no treino.

Mitigações:

  • Testar em dados locais antes de implantar, ponto.
  • Monitorar desempenho por subgrupo, não só métrica global.
  • Recalibrar modelos para populações locais quando viável.
  • Construir conjuntos de dados locais — iniciativas brasileiras (ex.: A.C. Camargo, Albert Einstein, USP, INCA, ABRACE) preenchem parte da lacuna.
  • Aprendizado federado quando centralização não é possível.

7. Boas práticas para tecnólogos construindo ML em oncologia

  1. Leia o protocolo antes de escrever código. O enquadramento de domínio é a decisão de maior alavancagem.
  2. Tenha um clínico no time. Não como stakeholder — como co-desenvolvedor.
  3. Prefira baselines simples e bem calibrados antes de partir para foundation models.
  4. Faça split por paciente, por site, por tempo — não por linha.
  5. Validação externa não é negociável para uso clínico.
  6. Calibração > AUC para suporte à decisão clínica.
  7. Planeje o monitoramento antes de planejar a implantação.
  8. Documente tudo como um regulador esperaria ler (pipelines, linhagem de dados, avaliação, histórico de mudanças).
  9. Meça utilidade clínica, não só desempenho estatístico. Um ensaio de "IA vs. sem IA" é o padrão-ouro.
  10. Leia Armadilhas de ML em oncologia antes de começar.

8. Mitos comuns que vale rebater

  • "Modelo maior = melhor." Para uso clínico, não. Modelos menores, bem calibrados e validados localmente costumam performar melhor.
  • "Vamos substituir radiologistas / patologistas." Augmentação é a história realista de 5 anos; substituição em geral não é o objetivo nem é viável.
  • "Privacidade não é problema se desidentificarmos." Dados genômicos são intrinsecamente re-identificáveis; trate-os como PHI.
  • "AUC maior sempre ajuda o paciente." Frequentemente não: calibração, threshold e integração ao fluxo importam mais.
  • "Se funciona em um site, funciona em todos." Quase nunca verdade.

Veja também


Referências

  1. Adams SJ, Mikhael P, Wohlwend J, et al. Artificial Intelligence and Machine Learning in Lung Cancer Screening. Thorac Surg Clin 2023;33:401-409. PMID 37806742. https://doi.org/10.1016/j.thorsurg.2023.03.001
  2. Gao Q, Yang L, Lu M, Jin R, Ye H, Ma T. The artificial intelligence and machine learning in lung cancer immunotherapy. J Hematol Oncol 2023;16:55. PMID 37226190. https://doi.org/10.1186/s13045-023-01456-y
  3. Meyer ML, Fitzgerald BG, Paz-Ares L, et al. New promises and challenges in the treatment of advanced non-small-cell lung cancer. Lancet 2024;404:803-822. PMID 39121882. https://doi.org/10.1016/S0140-6736(24)01029-8
  4. U.S. National Cancer Institute. https://www.cancer.gov/about-cancer/understanding/what-is-cancer
  5. American Cancer Society. https://www.cancer.org/cancer.html
  6. Cleveland Clinic. Cancer (visão geral). https://my.clevelandclinic.org/health/diseases/12194-cancer
  7. A.C. Camargo Cancer Center. https://accamargo.org.br
  8. Fundação do Câncer (Brasil). https://www.cancer.org.br/
  9. Ministério da Saúde / BVS. ABC do câncer. https://bvsms.saude.gov.br/bvs/publicacoes/abc_do_cancer.pdf
  10. ANVISA — Agência Nacional de Vigilância Sanitária. https://www.gov.br/anvisa/pt-br

Versão inicial pública. Conteúdo evolui com revisão contínua. Dúvidas: [email protected] · CC BY 4.0 quando aplicável.