- 06-03-2024
- Machine Learning
Um estudo de Yale destaca o impacto perturbador do vazamento de dados nos modelos de Machine Learning distorcendo as previsões. Vigilância na prevenção é crucial para manter a confiabilidade do modelo.
Num estudo publicado na Nature Communications, investigadores da Universidade de Yale investigaram como o vazamento de dados afeta os modelos de Machine Learning. A fuga de dados, em que as informações do conjunto de dados de ensaio influenciam a formação do modelo, pode distorcer os resultados. Eles descobriram que o vazamento pode inflacionar o desempenho de previsão do modelo, particularmente por meio de tipos de vazamento de "seleção de recursos" e "assunto repetido". Essa inflação pode induzir os pesquisadores a acreditar que o modelo tem um bom desempenho quando luta com dados verdadeiramente invisíveis. Além disso, os efeitos das fugas são mais pronunciados em amostras mais pequenas. Para mitigar isso, os pesquisadores defendem a transparência, o compartilhamento de código e a manutenção de um ceticismo saudável sobre os resultados. Ao evitar o vazamento de dados, a confiabilidade e a reprodutibilidade dos modelos de Machine Learning podem ser garantidas.