IA e aprendizado de máquina em oncologia
Esta página é educacional e reflete o estado da literatura em 2025. Não substitui orientação clínica.
TL;DR
Aprendizado de máquina já permeia a oncologia — rastreamento (TC de baixa dose para pulmão, mamografia), patologia digital, radiômica, interpretação genômica, descoberta de fármacos, matching de ensaios e predição de desfechos. Os avanços técnicos são reais, mas a maioria das implantações em produção enfrenta os mesmos problemas duros: distribution shift, qualidade de rótulos, calibração em subgrupos, enquadramento regulatório e a lacuna entre AUC em conjunto de teste e melhora real de desfecho clínico. Esta página é o mapa de orientação; ver Armadilhas de ML em oncologia para os modos de falha que você precisa internalizar.
1. Onde ML hoje tem impacto mensurável
| Domínio | Exemplos (2024–2025) | Status |
|---|---|---|
| Rastreamento de pulmão por TC de baixa dose | Detecção de nódulos por IA, escore de risco de malignidade, predição end-to-end[1] | Várias ferramentas com aval da FDA; integradas em fluxo clínico em escala |
| Triagem de mamografia | Priorização de worklist, redução de câncer perdido | Múltiplas ferramentas aprovadas; uso em programas de rastreamento |
| Patologia digital | Apoio a Gleason em próstata, quantificação HER2/Ki-67 em mama, predição de MSI a partir de H&E | Ferramentas aprovadas; integração com LIS em expansão |
| Predição de PD-L1 / TMB / TME | Escore por ML para sinais de benefício de imunoterapia a partir de imagem e ômicas[2] | Em pesquisa; algumas validações IVD em curso |
| Predição de variantes genômicas | Patogenicidade, impacto em splice, classificação de variantes estruturais | Amplamente usado em pipelines de interpretação clínica |
| Descoberta de fármacos | Estrutura proteica (AlphaFold), química generativa, predição de propriedades | Reformulou a fase inicial; tradução clínica é mais lenta |
| Matching de ensaios | Prontuário/NLP → elegibilidade, ligação com ClinicalTrials.gov | Várias plataformas em produção |
| Predição de desfecho / risco | Sobrevida, resposta a tratamento, toxicidade | Muitos modelos; poucos bem validados para implantação |
| Operações | Otimização de agenda, predição de no-show, alerta de sepse | Comum em centros acadêmicos |
Para profundidade nos eixos de rastreamento e imunoterapia, ver refs e. Fontes: [1], [2]
2. Modalidades de dado, em resumo
- Genômica / multi-ômicas — VCF, matrizes de expressão, metilação, interpretação de variante. Ver De FASTQ a variantes e Multi-ômicas.
- Imagem — radiologia (TC, RM, PET, US, mamografia), patologia (WSI), endoscopia, dermatologia.
- Texto livre — laudos de patologia, radiologia, notas de oncologia, sumários de alta.
- Prontuário estruturado — laboratórios, sinais vitais, medicações, códigos CID, procedimentos.
- Registros de ensaio / desfecho — desfechos pré-registrados, relatos de EA.
- Desfechos relatados pelo paciente — diários de sintomas, ePROs, sinais de wearables.
Cada modalidade tem suas peculiaridades: imagem precisa de pipelines de pré-processamento e consciência de protocolo de aquisição; genômica precisa de referência versionada e anotação de variantes; texto precisa de desidentificação forte e grounding em ontologias.
3. Classes de modelos comuns
| Classe | Onde brilha |
|---|---|
| Boosting de árvores (XGBoost, LightGBM) | Dados tabulares de prontuário; baseline forte |
| CNNs | Imagem médica (ainda dominante em produção) |
| Transformers / vision transformers | Patologia em lâminas inteiras, fusão multimodal |
| Foundation models para imagem | RETFound, BiomedCLIP, FMs de patologia — emergentes |
| Foundation models para texto | BioGPT, GatorTron, Med-PaLM — usos operacionais iniciais |
| GNNs (graph neural networks) | Descoberta de fármacos, biologia de redes, similaridade entre pacientes |
| Modelos de sobrevida | Cox-PH, DeepSurv, transformers com tempo |
| Modelos de difusão | Dados sintéticos, aumento, química generativa |
| Aprendizado por reforço | Desenho adaptativo de ensaio, otimização de dose (pesquisa) |
A classe do modelo costuma importar menos do que como os dados são divididos, o que os rótulos realmente significam e como o modelo é avaliado dentro do fluxo clínico.
4. Avaliação honesta
Três camadas de avaliação, em rigor crescente:
- Discriminação — AUC, sensibilidade/especificidade em pontos de operação.
- Calibração — a probabilidade prevista bate com a frequência observada? Bem mais importante que AUC para uso clínico; bem menos reportado.
- Utilidade clínica — o modelo muda uma decisão que melhora um desfecho? Análise de curva de decisão, implantação prospectiva, ensaios randomizados de IA vs. sem IA.
Falhas comuns de reporte:
- AUC reportado no mesmo site/equipamento do treino (sem validação externa).
- Vazamento no conjunto de teste (várias fatias do mesmo paciente entre treino e teste).
- Desbalanceamento ignorado (cânceres raros sempre parecem ter "alta acurácia" se você prediz "sem câncer").
- Sem análise por subgrupo (sexo, idade, raça/etnia, fabricante de equipamento, geografia).
- Threshold otimizado a posteriori para maximizar uma métrica única.
Padrões de referência: TRIPOD-AI, CONSORT-AI, SPIRIT-AI para reporte e desenho de ensaios de IA clínica.
5. Contexto regulatório e de implantação
- FDA (EUA) — framework SaMD; piloto pre-cert; Predetermined Change Control Plan (PCCP) para gestão do ciclo de vida em IA/ML.
- UE — MDR + AI Act (2024) — IA médica de alto risco exige avaliação de conformidade, transparência, supervisão humana, vigilância pós-mercado.
- Brasil — ANVISA RDC 657/2022 e RDC 751/2022 cobrem SaMD; orientação específica para IA em evolução; LGPD para proteção de dados.
Obrigações em deployment, além da acurácia:
- Versionamento e reprodutibilidade — modelo + pré-processamento exato reprodutível a partir de uma tag.
- Monitoramento de drift — distribuição de entrada e calibração de desfecho ao longo do tempo.
- Logs de segurança — alertas acionáveis quando o desempenho cair.
- Interface e suporte à decisão — exibir confiança e incerteza do modelo de forma significativa.
- Supervisão humana — obrigatória em recomendações de alto risco.
- Recall e rollback — capacidade de desabilitar ou reverter um modelo rapidamente quando problemas forem detectados.
Para o detalhamento regulatório, ver Regulação e ética.
6. Justiça, equidade e o problema do data shift
Modelos treinados em populações EUA/UE costumam ter desempenho pior em populações brasileira, africana, asiática ou indígena.Causas: Fontes: [2]
- Distribution shift — equipamento de aquisição diferente, demografia distinta, padrões de comorbidade.
- Viés de rótulo — disparidades históricas de cuidado codificadas como verdade-de-base.
- Viés de amostragem — populações sub-representadas seguem sub-representadas no treino.
Mitigações:
- Testar em dados locais antes de implantar, ponto.
- Monitorar desempenho por subgrupo, não só métrica global.
- Recalibrar modelos para populações locais quando viável.
- Construir conjuntos de dados locais — iniciativas brasileiras (ex.: A.C. Camargo, Albert Einstein, USP, INCA, ABRACE) preenchem parte da lacuna.
- Aprendizado federado quando centralização não é possível.
7. Boas práticas para tecnólogos construindo ML em oncologia
- Leia o protocolo antes de escrever código. O enquadramento de domínio é a decisão de maior alavancagem.
- Tenha um clínico no time. Não como stakeholder — como co-desenvolvedor.
- Prefira baselines simples e bem calibrados antes de partir para foundation models.
- Faça split por paciente, por site, por tempo — não por linha.
- Validação externa não é negociável para uso clínico.
- Calibração > AUC para suporte à decisão clínica.
- Planeje o monitoramento antes de planejar a implantação.
- Documente tudo como um regulador esperaria ler (pipelines, linhagem de dados, avaliação, histórico de mudanças).
- Meça utilidade clínica, não só desempenho estatístico. Um ensaio de "IA vs. sem IA" é o padrão-ouro.
- Leia Armadilhas de ML em oncologia antes de começar.
8. Mitos comuns que vale rebater
- "Modelo maior = melhor." Para uso clínico, não. Modelos menores, bem calibrados e validados localmente costumam performar melhor.
- "Vamos substituir radiologistas / patologistas." Augmentação é a história realista de 5 anos; substituição em geral não é o objetivo nem é viável.
- "Privacidade não é problema se desidentificarmos." Dados genômicos são intrinsecamente re-identificáveis; trate-os como PHI.
- "AUC maior sempre ajuda o paciente." Frequentemente não: calibração, threshold e integração ao fluxo importam mais.
- "Se funciona em um site, funciona em todos." Quase nunca verdade.
Veja também
- Multi-ômicas
- Biologia de redes
- Medicina de precisão
- Armadilhas de ML em oncologia
- Biomarcadores e diagnósticos companheiros
- Regulação e ética
- Governança de dados e LGPD
Referências
- Adams SJ, Mikhael P, Wohlwend J, et al. Artificial Intelligence and Machine Learning in Lung Cancer Screening. Thorac Surg Clin 2023;33:401-409. PMID 37806742. https://doi.org/10.1016/j.thorsurg.2023.03.001
- Gao Q, Yang L, Lu M, Jin R, Ye H, Ma T. The artificial intelligence and machine learning in lung cancer immunotherapy. J Hematol Oncol 2023;16:55. PMID 37226190. https://doi.org/10.1186/s13045-023-01456-y
- Meyer ML, Fitzgerald BG, Paz-Ares L, et al. New promises and challenges in the treatment of advanced non-small-cell lung cancer. Lancet 2024;404:803-822. PMID 39121882. https://doi.org/10.1016/S0140-6736(24)01029-8
- U.S. National Cancer Institute. https://www.cancer.gov/about-cancer/understanding/what-is-cancer
- American Cancer Society. https://www.cancer.org/cancer.html
- Cleveland Clinic. Cancer (visão geral). https://my.clevelandclinic.org/health/diseases/12194-cancer
- A.C. Camargo Cancer Center. https://accamargo.org.br
- Fundação do Câncer (Brasil). https://www.cancer.org.br/
- Ministério da Saúde / BVS. ABC do câncer. https://bvsms.saude.gov.br/bvs/publicacoes/abc_do_cancer.pdf
- ANVISA — Agência Nacional de Vigilância Sanitária. https://www.gov.br/anvisa/pt-br