Llama 3.2 Vision, o novo LLM multimodal da Meta

LLM Llama 3.2 Vision, o novo LLM multimodal da Meta

04-10-2024
LLM

Os modelos Llama 3.2 da Meta combinam processamento de texto e imagem, permitindo tarefas como legendagem de imagens, perguntas e respostas, sumarização e reescrita com recursos multimodais.

Os novos modelos Llama 3.2 da Meta trazem poderosas capacidades multimodais, combinando processamento de texto e imagem para tarefas como legendagem de imagens e resposta visual a perguntas. O Modelo de Visão 90B foi projetado para raciocínio de nível empresarial, enquanto o Modelo de Visão 11B é mais compacto, ideal para a criação de conteúdo. Modelos de texto 1B e 3B menores se concentram em tarefas como sumarização e reescrita, otimizadas para uso local. Construídos no Llama 3.1, os novos modelos adicionam compreensão de imagem através de uma torre de visão e adaptador de imagem para raciocínio visual-textual. As avaliações da Meta mostram a competitividade do Llama 3.2 com os principais modelos de IA..