Você já se perguntou como os modelos de IA que se dizem capazes de “raciocinar” realmente funcionam? Eles resolvem problemas matemáticos rotineiros com impressionante precisão, mas fracassam miseravelmente em desafios mais complexos, como demonstrações matemáticas de nível olímpico. Um novo estudo revela justamente essa contradição intrigante.
Pesquisadores da ETH Zurich e INSAIT na Universidade de Sofia realizaram um estudo revelador sobre modelos de raciocínio simulado (SR). Eles testaram diferentes modelos em problemas da Olimpíada Americana de Matemática de 2025 (USAMO).
Prova versus respostas: um teste diferente
A diferença entre resolver problemas matemáticos e demonstrá-los é crucial. Em problemas, basta a resposta correta. Nas provas, é preciso explicar o raciocínio, mostrando por que algo é verdadeiro. A USAMO exige demonstrações completas, avaliadas pela correção, clareza e completude.
O Desafio da USAMO
A USAMO é um desafio de alto nível, muito mais difícil que outros exames de matemática. Os participantes precisam elaborar provas matemáticas completas em nove horas, distribuídas em dois dias. Os problemas exigem muito mais do que apenas encontrar respostas numéricas.
Como os modelos falharam
O estudo identificou padrões de falhas recorrentes nos modelos de IA. As respostas apresentavam lacunas lógicas, argumentos baseados em suposições não comprovadas e persistiam em abordagens incorretas mesmo com resultados contraditórios.
Um exemplo concreto
Um problema específico da USAMO 2025 exigia encontrar números inteiros “k” que satisfaziam uma determinada condição. Um dos modelos cometeu um erro significativo: excluiu incorretamente possibilidades não inteiras, o que levou a uma resposta final errada, apesar de ter identificado corretamente as condições necessárias.
A maior parte dos modelos de IA obteve pontuações abaixo de 5% de acerto na geração de provas matemáticas completas. Mesmo quando produziam provas com falhas significativas, os modelos apresentavam suas soluções com linguagem afirmativa, sem indicar incerteza ou “consciência” dos erros.
A ilusão da fluência matemática
A diferença de desempenho entre problemas e provas destaca a diferença entre reconhecimento de padrões e raciocínio matemático genuíno. Os modelos SR atuais funcionam bem em tarefas onde padrões semelhantes aparecem nos dados de treinamento, permitindo respostas numéricas relativamente precisas. Mas eles carecem da “compreensão conceitual” necessária para a matemática baseada em demonstrações.
Por que o raciocínio em cadeia melhora os resultados?
O raciocínio em cadeia (chain-of-thought) utiliza mais recursos computacionais em passos menores e mais direcionados. Cada passo serve como contexto para o próximo, restringindo as saídas do modelo e melhorando a precisão.
Fundamentalmente, os modelos de IA baseados em Transformers são máquinas de correspondência de padrões. Eles “emprestam” habilidades de raciocínio de exemplos nos dados de treinamento.
O que vem a seguir?
Os resultados do estudo sugerem que simplesmente aumentar a escala dos modelos SR atuais e seus métodos de treinamento pode não ser suficiente para alcançar o raciocínio matemático genuíno. Pesquisadores estão explorando abordagens alternativas, como a integração de mecanismos de raciocínio simbólicos e o desenvolvimento de melhores técnicas de verificação de provas.
Sistemas neuro-simbólicos, que combinam redes neurais com métodos formais da IA simbólica, são uma alternativa promissora. Embora possam falhar em encontrar uma prova, sua estrutura impede que eles criem provas incorretas, uma falha crucial observada nos modelos SR avaliados.
Apesar dos avanços, o caminho para uma IA verdadeiramente capaz de raciocínio matemático ainda é longo e cheio de desafios.
Compartilhe suas experiências e reflexões sobre este tema nos comentários!