IA e aprendizado de máquina em oncologia

Esta página é educacional e reflete o estado da literatura em 2025. Não substitui orientação clínica.

TL;DR

Aprendizado de máquina já permeia a oncologia — rastreamento (TC de baixa dose para pulmão, mamografia), patologia digital, radiômica, interpretação genômica, descoberta de fármacos, matching de ensaios e predição de desfechos. Os avanços técnicos são reais, mas a maioria das implantações em produção enfrenta os mesmos problemas duros: distribution shift, qualidade de rótulos, calibração em subgrupos, enquadramento regulatório e a lacuna entre AUC em conjunto de teste e melhora real de desfecho clínico. Esta página é o mapa de orientação; ver Armadilhas de ML em oncologia para os modos de falha que você precisa internalizar.

1. Onde ML hoje tem impacto mensurável

Domínio	Exemplos (2024–2025)	Status
Rastreamento de pulmão por TC de baixa dose	Detecção de nódulos por IA, escore de risco de malignidade, predição end-to-end[1]	Várias ferramentas com aval da FDA; integradas em fluxo clínico em escala
Triagem de mamografia	Priorização de worklist, redução de câncer perdido	Múltiplas ferramentas aprovadas; uso em programas de rastreamento
Patologia digital	Apoio a Gleason em próstata, quantificação HER2/Ki-67 em mama, predição de MSI a partir de H&E	Ferramentas aprovadas; integração com LIS em expansão
Predição de PD-L1 / TMB / TME	Escore por ML para sinais de benefício de imunoterapia a partir de imagem e ômicas[2]	Em pesquisa; algumas validações IVD em curso
Predição de variantes genômicas	Patogenicidade, impacto em splice, classificação de variantes estruturais	Amplamente usado em pipelines de interpretação clínica
Descoberta de fármacos	Estrutura proteica (AlphaFold), química generativa, predição de propriedades	Reformulou a fase inicial; tradução clínica é mais lenta
Matching de ensaios	Prontuário/NLP → elegibilidade, ligação com ClinicalTrials.gov	Várias plataformas em produção
Predição de desfecho / risco	Sobrevida, resposta a tratamento, toxicidade	Muitos modelos; poucos bem validados para implantação
Operações	Otimização de agenda, predição de no-show, alerta de sepse	Comum em centros acadêmicos

Para profundidade nos eixos de rastreamento e imunoterapia, ver refs e. Fontes: [1], [2]

2. Modalidades de dado, em resumo

Genômica / multi-ômicas — VCF, matrizes de expressão, metilação, interpretação de variante. Ver De FASTQ a variantes e Multi-ômicas.
Imagem — radiologia (TC, RM, PET, US, mamografia), patologia (WSI), endoscopia, dermatologia.
Texto livre — laudos de patologia, radiologia, notas de oncologia, sumários de alta.
Prontuário estruturado — laboratórios, sinais vitais, medicações, códigos CID, procedimentos.
Registros de ensaio / desfecho — desfechos pré-registrados, relatos de EA.
Desfechos relatados pelo paciente — diários de sintomas, ePROs, sinais de wearables.

Cada modalidade tem suas peculiaridades: imagem precisa de pipelines de pré-processamento e consciência de protocolo de aquisição; genômica precisa de referência versionada e anotação de variantes; texto precisa de desidentificação forte e grounding em ontologias.

3. Classes de modelos comuns

Classe	Onde brilha
Boosting de árvores (XGBoost, LightGBM)	Dados tabulares de prontuário; baseline forte
CNNs	Imagem médica (ainda dominante em produção)
Transformers / vision transformers	Patologia em lâminas inteiras, fusão multimodal
Foundation models para imagem	RETFound, BiomedCLIP, FMs de patologia — emergentes
Foundation models para texto	BioGPT, GatorTron, Med-PaLM — usos operacionais iniciais
GNNs (graph neural networks)	Descoberta de fármacos, biologia de redes, similaridade entre pacientes
Modelos de sobrevida	Cox-PH, DeepSurv, transformers com tempo
Modelos de difusão	Dados sintéticos, aumento, química generativa
Aprendizado por reforço	Desenho adaptativo de ensaio, otimização de dose (pesquisa)

A classe do modelo costuma importar menos do que como os dados são divididos, o que os rótulos realmente significam e como o modelo é avaliado dentro do fluxo clínico.

4. Avaliação honesta

Três camadas de avaliação, em rigor crescente:

Discriminação — AUC, sensibilidade/especificidade em pontos de operação.
Calibração — a probabilidade prevista bate com a frequência observada? Bem mais importante que AUC para uso clínico; bem menos reportado.
Utilidade clínica — o modelo muda uma decisão que melhora um desfecho? Análise de curva de decisão, implantação prospectiva, ensaios randomizados de IA vs. sem IA.

Falhas comuns de reporte:

AUC reportado no mesmo site/equipamento do treino (sem validação externa).
Vazamento no conjunto de teste (várias fatias do mesmo paciente entre treino e teste).
Desbalanceamento ignorado (cânceres raros sempre parecem ter "alta acurácia" se você prediz "sem câncer").
Sem análise por subgrupo (sexo, idade, raça/etnia, fabricante de equipamento, geografia).
Threshold otimizado a posteriori para maximizar uma métrica única.

Padrões de referência: TRIPOD-AI, CONSORT-AI, SPIRIT-AI para reporte e desenho de ensaios de IA clínica.

5. Contexto regulatório e de implantação

FDA (EUA) — framework SaMD; piloto pre-cert; Predetermined Change Control Plan (PCCP) para gestão do ciclo de vida em IA/ML.
UE — MDR + AI Act (2024) — IA médica de alto risco exige avaliação de conformidade, transparência, supervisão humana, vigilância pós-mercado.
Brasil — ANVISA RDC 657/2022 e RDC 751/2022 cobrem SaMD; orientação específica para IA em evolução; LGPD para proteção de dados.

Obrigações em deployment, além da acurácia:

Versionamento e reprodutibilidade — modelo + pré-processamento exato reprodutível a partir de uma tag.
Monitoramento de drift — distribuição de entrada e calibração de desfecho ao longo do tempo.
Logs de segurança — alertas acionáveis quando o desempenho cair.
Interface e suporte à decisão — exibir confiança e incerteza do modelo de forma significativa.
Supervisão humana — obrigatória em recomendações de alto risco.
Recall e rollback — capacidade de desabilitar ou reverter um modelo rapidamente quando problemas forem detectados.

Para o detalhamento regulatório, ver Regulação e ética.

6. Justiça, equidade e o problema do data shift

Modelos treinados em populações EUA/UE costumam ter desempenho pior em populações brasileira, africana, asiática ou indígena.Causas: Fontes: [2]

Distribution shift — equipamento de aquisição diferente, demografia distinta, padrões de comorbidade.
Viés de rótulo — disparidades históricas de cuidado codificadas como verdade-de-base.
Viés de amostragem — populações sub-representadas seguem sub-representadas no treino.

Mitigações:

Testar em dados locais antes de implantar, ponto.
Monitorar desempenho por subgrupo, não só métrica global.
Recalibrar modelos para populações locais quando viável.
Construir conjuntos de dados locais — iniciativas brasileiras (ex.: A.C. Camargo, Albert Einstein, USP, INCA, ABRACE) preenchem parte da lacuna.
Aprendizado federado quando centralização não é possível.

7. Boas práticas para tecnólogos construindo ML em oncologia

Leia o protocolo antes de escrever código. O enquadramento de domínio é a decisão de maior alavancagem.
Tenha um clínico no time. Não como stakeholder — como co-desenvolvedor.
Prefira baselines simples e bem calibrados antes de partir para foundation models.
Faça split por paciente, por site, por tempo — não por linha.
Validação externa não é negociável para uso clínico.
Calibração > AUC para suporte à decisão clínica.
Planeje o monitoramento antes de planejar a implantação.
Documente tudo como um regulador esperaria ler (pipelines, linhagem de dados, avaliação, histórico de mudanças).
Meça utilidade clínica, não só desempenho estatístico. Um ensaio de "IA vs. sem IA" é o padrão-ouro.
Leia Armadilhas de ML em oncologia antes de começar.

8. Mitos comuns que vale rebater

"Modelo maior = melhor." Para uso clínico, não. Modelos menores, bem calibrados e validados localmente costumam performar melhor.
"Vamos substituir radiologistas / patologistas." Augmentação é a história realista de 5 anos; substituição em geral não é o objetivo nem é viável.
"Privacidade não é problema se desidentificarmos." Dados genômicos são intrinsecamente re-identificáveis; trate-os como PHI.
"AUC maior sempre ajuda o paciente." Frequentemente não: calibração, threshold e integração ao fluxo importam mais.
"Se funciona em um site, funciona em todos." Quase nunca verdade.

Veja também

Referências

Adams SJ, Mikhael P, Wohlwend J, et al. Artificial Intelligence and Machine Learning in Lung Cancer Screening. Thorac Surg Clin 2023;33:401-409. PMID 37806742. https://doi.org/10.1016/j.thorsurg.2023.03.001
Gao Q, Yang L, Lu M, Jin R, Ye H, Ma T. The artificial intelligence and machine learning in lung cancer immunotherapy. J Hematol Oncol 2023;16:55. PMID 37226190. https://doi.org/10.1186/s13045-023-01456-y
Meyer ML, Fitzgerald BG, Paz-Ares L, et al. New promises and challenges in the treatment of advanced non-small-cell lung cancer. Lancet 2024;404:803-822. PMID 39121882. https://doi.org/10.1016/S0140-6736(24)01029-8
U.S. National Cancer Institute. https://www.cancer.gov/about-cancer/understanding/what-is-cancer
American Cancer Society. https://www.cancer.org/cancer.html
Cleveland Clinic. Cancer (visão geral). https://my.clevelandclinic.org/health/diseases/12194-cancer
A.C. Camargo Cancer Center. https://accamargo.org.br
Fundação do Câncer (Brasil). https://www.cancer.org.br/
Ministério da Saúde / BVS. ABC do câncer. https://bvsms.saude.gov.br/bvs/publicacoes/abc_do_cancer.pdf
ANVISA — Agência Nacional de Vigilância Sanitária. https://www.gov.br/anvisa/pt-br

IA e aprendizado de máquina em oncologia ​

TL;DR ​

1. Onde ML hoje tem impacto mensurável ​

2. Modalidades de dado, em resumo ​

3. Classes de modelos comuns ​

4. Avaliação honesta ​

5. Contexto regulatório e de implantação ​

6. Justiça, equidade e o problema do data shift ​

7. Boas práticas para tecnólogos construindo ML em oncologia ​

8. Mitos comuns que vale rebater ​

Veja também ​

Referências ​