
- 25-04-2025
- Artificial Intelligence
Investigadores do MIT desenvolveram o SASA, um método que reduz a toxicidade e o viés na linguagem da IA em tempo real, mantendo a fluência sem retraining.
Um novo método chamado Self-Disciplined Autoregressive Sampling (SASA), desenvolvido por investigadores do MIT e da IBM, apresenta uma forma eficiente para os grandes modelos de linguagem (LLMs) controlarem e desintoxicarem a sua própria geração de linguagem sem necessidade de retraining. O SASA funciona durante a fase de inferência, analisando a representação interna do LLM para distinguir entre linguagem tóxica e não tóxica. Constrói um classificador no espaço de embeddings do modelo para definir uma fronteira entre conteúdo prejudicial e aceitável. Ao reajustar as probabilidades de amostragem de cada token potencial seguinte com base na sua proximidade a esta fronteira, o SASA orienta a geração para respostas mais seguras e apropriadas, preservando a fluidez.
Este método oferece uma alternativa leve e eficaz às abordagens tradicionais de desintoxicação, que dependem de retraining dispendiosos ou modelos de recompensa complexos. Avaliações em diferentes LLMs e conjuntos de dados, como RealToxicityPrompts, BOLD e AttaQ, mostram que o SASA reduz significativamente a toxicidade e mitiga preconceitos, como diferenças de género nas respostas. O SASA tem um desempenho comparável aos modelos mais avançados na desintoxicação, mantendo um menor custo computacional. Além disso, o SASA pode ser alargado para incorporar múltiplos valores humanos, como justiça, utilidade e veracidade, tornando-se uma estrutura promissora para gerar comunicação de IA alinhada de forma ética.