Curadoria automática de dados: Aumentando a eficiência e a precisão do treino de IA.

Uma equipa de investigadores da FAIR na Meta, INRIA, Université Paris Saclay e Google desenvolveu uma técnica automatizada para curadoria de dados que aprimora o pré-treinamento autosupervisionado de conjuntos de dados de IA. Este novo método envolve um processo de três etapas: usar um modelo de extração de recursos para incorporar pontos de dados, aplicar clustering sucessivo de k-means para agrupar pontos de dados semelhantes e empregar clustering hierárquico de k-means em várias etapas para garantir clusters de dados equilibrados. Os testes com modelos de visão mostraram que sua técnica teve um desempenho tão bom ou melhor que a curadoria manual, destacando o seu potencial para melhorar a eficiência e a precisão do treino de IA. São necessários mais testes para avaliar a sua eficácia em dados do mundo real e em vários sistemas de IA.