AI converte gravações de áudio em imagens precisas de visualização de ruas.

AI Converts Sounds into Realistic Street Images

AI AI converte gravações de áudio em imagens precisas de visualização de ruas.

06-12-2024
AI

Investigadores da Universidade do Texas desenvolveram um modelo de IA inovador que pode converter gravações de áudio em imagens precisas de rua, demonstrando a conexão da IA entre som e visão.

Investigadores da Universidade do Texas em Austin desenvolveram um modelo de IA inovador capaz de converter gravações de áudio em imagens precisas de ruas. A equipe treinou este modelo usa dados emparelhados de áudio e vídeo de várias localizações urbanas e rurais da América do Norte, Ásia e Europa. Eles usaram clipes de áudio de 10 segundos de vídeos do YouTube de diferentes cidades e imagens correspondentes para treinar o modelo, que depois foi capaz de gerar imagens em alta resolução a partir de novos inputs de áudio.

As imagens geradas pela IA mostraram fortes correlações com as imagens do mundo real, em termos das proporções de elementos-chave, como céu, vegetação e edifícios. Juízes humanos conseguiram associar as imagens geradas aos clipes de áudio correspondentes com uma taxa de acerto de 80%. O modelo também manteve os estilos arquitetônicos e o arranjo espacial dos objetos, refletindo a hora do dia com base em sons ambientais, como ruídos de tráfego ou o canto de insetos.

Esta pesquisa demonstra que a IA pode replicar uma habilidade humana de associar som a ambientes visuais, destacando o potencial das máquinas de aproximar-se das experiências sensoriais que os humanos têm ao interagir com seus arredores. O estudo não apenas avança nossa compreensão da capacidade da IA de reconhecer e replicar ambientes físicos, mas também oferece novos insights sobre como fatores multissensoriais influenciam nossa perceção do lugar.