
- 25-07-2025
- Computer Vision
Avanços recentes em visão computacional dão às máquinas perceção semelhante à humana com transformadores, aprendizagem autónoma e modelação 3D.
A visão computacional está a passar por uma revolução impulsionada por desenvolvimentos de ponta em aprendizagem profunda e inteligência artificial. Arquiteturas baseadas em transformadores, como Vision Transformer (ViT) e Swin Transformer, redefiniram a forma como as máquinas interpretam imagens, superando as CNNs tradicionais em tarefas como deteção de objetos e segmentação de cenas. Ao mesmo tempo, métodos de aprendizagem auto-supervisionada como DINO, SimCLR e MoCo eliminam a necessidade de grandes conjuntos de dados rotulados, desbloqueando o potencial de dados não anotados.
A integração entre visão e linguagem, através de modelos como CLIP e ALIGN, permite às máquinas raciocinar sobre imagens e linguagem, permitindo classificação sem treino específico e compreensão mais complexa. Paralelamente, avanços na modelação 3D — como os Neural Radiance Fields (NeRF) — e modelos otimizados para dispositivos, como o MobileViT, estão a tornar sistemas de visão realistas, em tempo real e eficientes uma realidade. Estes avanços estão a moldar o futuro da IA em áreas como robótica, AR/VR, navegação autónoma e muito mais.