A Meta surpreendeu a todos lançando, em um fim de semana, seus novos modelos de IA multimodal, Llama 4 Scout e Llama 4 Maverick. Anunciados como grandes avanços, com uma janela de contexto enorme (10 milhões de tokens para o Scout!), a recepção inicial da comunidade de IA foi, no mínimo, mista. Será que a ambição da Meta superou a realidade?
A Realidade dos Novos Modelos Llama 4
A Meta se posiciona como competidora de gigantes como OpenAI e Google, mas seu “código aberto” tem restrições. É mais preciso dizer que são modelos de “pesos abertos”. Você pode baixá-los, mas precisa aceitar os termos de licença.
Funcionalidades Multimodais
Os modelos Llama 4 são “nativamente multimodais”, processando texto e imagens simultaneamente (“early fusion”). Isso permite um aprendizado conjunto com texto, imagens e vídeos, prometendo uma compreensão visual ampla. A Meta os colocou em competição direta com modelos como o GPT-4o da OpenAI e o Gemini 2.5 do Google.
Arquitetura MoE: Uma Abordagem Diferente
Para lidar com modelos enormes, a Meta usou uma arquitetura “Mixture-of-Experts” (MoE). Imagine uma equipe especializada: cada membro trabalha em tarefas específicas. No Maverick (400 bilhões de parâmetros), apenas 17 bilhões estão ativos de cada vez. Já no Scout (109 bilhões de parâmetros), também só 17 bilhões são ativos simultaneamente. Isso reduz a computação necessária.
A Janela de Contexto e Seus Desafios
Modelos de IA têm memória de curto prazo limitada. A janela de contexto simula isso, definindo a quantidade de informação processada ao mesmo tempo. Apesar dos 10 milhões de tokens do Scout, usar uma fração desse total se mostrou desafiador por limitações de memória.
Serviços de terceiros limitaram o contexto do Scout a 128.000 ou 328.000 tokens. Executar um contexto de 1,4 milhão de tokens exigiu oito GPUs NVIDIA H100 de alta performance, segundo a própria Meta.
Testes mostraram resultados ruins em resumos de discussões online (20.000 tokens), com saídas repetitivas e sem sentido.
Desempenho e Recepção da Comunidade
A Meta afirma que o Maverick supera concorrentes em benchmarks técnicos. Mas a verificação independente ainda é limitada. Uma versão experimental do Llama 4 está bem posicionada em um ranking de chatbots, porém, difere do modelo disponível para download.
A recepção foi mista. Houve decepção com recursos multimodais limitados, preocupação com a quantidade reduzida de parâmetros ativos e críticas sobre um lançamento apressado. Comparado a competidores como DeepSeek e Qwen, o Llama 4 mostrou desempenho inferior em tarefas de codificação.
Alguns especialistas questionam o foco em modelos base monolíticos gigantes, sugerindo que aumentar o tamanho sem técnicas de raciocínio reforçado não garante melhorias significativas, como visto em lançamentos recentes do GPT-4.5 e do próprio Llama 4.
Conclusão
O lançamento do Llama 4 expôs a distância entre a ambição e a realidade no desenvolvimento de IA. Apesar dos desafios atuais, a esperança é que futuras versões sejam mais úteis e eficientes, talvez com modelos menores e otimizados para dispositivos móveis, seguindo o exemplo do Llama 3.
Deixe seu comentário abaixo compartilhando suas impressões sobre o lançamento do Llama 4!
Fonte: Ars Technica