Skip to content

Aprendizado de máquina em oncologia: armadilhas frequentes

Modelos em dados clínicos e ômicos falham por razões previsíveis se não forem tratados no planejamento do estudo.

Vazamento de dados (leakage)

Etiquetas ou informação futura a entrar em features; normalização em todo o conjunto antes de dividir treino/teste.

Lotes e confundidores

Plataforma de sequenciamento, centro hospitalar, protocolo de coleta — o modelo “aprende o lote”.

small n, large p

Muitas variáveis, poucas amostras; regularização, validação cruzada bem planejada, penalização.

Métricas enganadoras

AUC alta com prevalência extrema; calibração; grupos subrepresentados.

Sobrevivência

Censura, risk sets, evitar misturar tempos de seguimento de forma ingênua.

Reprodutibilidade

Sementes, versões, dados versionados; pré-registro, quando aplicável.

Ver também

Versão inicial pública. Conteúdo evolui com revisão contínua. Dúvidas: [email protected] · CC BY 4.0 quando aplicável.