Aprendizado de máquina em oncologia: armadilhas frequentes
Modelos em dados clínicos e ômicos falham por razões previsíveis se não forem tratados no planejamento do estudo.
Vazamento de dados (leakage)
Etiquetas ou informação futura a entrar em features; normalização em todo o conjunto antes de dividir treino/teste.
Lotes e confundidores
Plataforma de sequenciamento, centro hospitalar, protocolo de coleta — o modelo “aprende o lote”.
small n, large p
Muitas variáveis, poucas amostras; regularização, validação cruzada bem planejada, penalização.
Métricas enganadoras
AUC alta com prevalência extrema; calibração; grupos subrepresentados.
Sobrevivência
Censura, risk sets, evitar misturar tempos de seguimento de forma ingênua.
Reprodutibilidade
Sementes, versões, dados versionados; pré-registro, quando aplicável.