Ao usar este site, você concorda com a Política de Privacidade e nossa Politica de Cookies.
Accept
TechParaTodosTechParaTodosTechParaTodos
Notificação Ver Mais
Tamanho da FonteAa
  • Inovação
  • Produtividade
  • Games
    • Listas e Tops
  • Segurança
  • Criptomoedas
TechParaTodosTechParaTodos
Tamanho da FonteAa
Buscar
  • Inovação
  • Produtividade
  • Games
    • Listas e Tops
  • Segurança
  • Criptomoedas
Follow US
Inovação

LLMs inventam fatos: pesquisa revela o porquê

Redação TechParaTodos
Atualizado em: 28 de março de 2025 22:33
Redação TechParaTodos
Compartilhar
Compartilhar

Você já se frustrou ao usar um modelo de linguagem grande (LLM) e receber informações inventadas? Aquele momento em que a máquina “alucina” respostas sem base nos dados de treinamento? Neste post, vamos explorar uma pesquisa recente que investiga exatamente por que os LLMs inventam coisas, mergulhando em sua “caixa-preta” neural.

Contents
Quando uma “entidade conhecida” não éReconhecimento vs. recordação

Novas pesquisas estão revelando parte da “circuitaria” interna de uma rede neural que ajuda um LLM a decidir entre dar uma resposta (talvez inventada) ou se recusar a responder. Embora a compreensão humana desse processo interno de “decisão” ainda seja incipiente, esse tipo de pesquisa pode levar a melhores soluções para o problema da invenção de informações pelas IAs.

Quando uma “entidade conhecida” não é

Uma pesquisa inovadora utilizou um sistema de autoencoders esparsos para iluminar os grupos de neurônios artificiais ativados quando o LLM encontra conceitos internos, de “Ponte Golden Gate” a “erros de programação”. Esses agrupamentos são chamados de “recursos”. A pesquisa recente expande esse trabalho, rastreando como esses recursos afetam outros grupos de neurônios que representam os “circuitos” de decisão computacional que o LLM segue na elaboração de sua resposta.

A pesquisa detalha como um exame parcial desses circuitos neuronais internos fornece informações sobre como o LLM “pensa” em vários idiomas, como pode ser enganado por certas técnicas e até mesmo se suas explicações são precisas. Mas a seção que descreve o processo de “reconhecimento de entidades e alucinação” forneceu uma das explicações mais detalhadas de um problema complicado que já vimos.

Essencialmente, os LLMs são projetados para prever qual texto provavelmente seguirá um dado texto – um design que levou alguns a rotular a tarefa como “autocompletar glorificado”. Esse design é útil quando o texto da solicitação coincide com o que foi encontrado nos dados de treinamento. No entanto, para fatos ou tópicos relativamente obscuros, essa tendência de sempre completar a solicitação “incentiva os modelos a adivinhar completações plausíveis para blocos de texto”.

O ajuste fino ajuda a mitigar esse problema, guiando o modelo a agir como um assistente útil e a se recusar a completar uma solicitação quando os dados de treinamento são esparsos. Esse processo cria conjuntos distintos de neurônios artificiais que os pesquisadores podem observar ativando-se quando o LLM encontra o nome de uma “entidade conhecida” (por exemplo, “Michael Jordan”) ou um “nome desconhecido” (por exemplo, “Michael Batkin”).

Reconhecimento vs. recordação

A ativação do recurso “nome desconhecido” tende a promover um circuito interno de “não posso responder” no modelo, incentivando-o a fornecer uma resposta como “Peço desculpas, mas não posso…”. De fato, os pesquisadores descobriram que o circuito de “não posso responder” tende a ficar na posição “ligado” na versão “assistente” do modelo, tornando o modelo relutante em responder a uma pergunta, a menos que outros recursos ativos sugiram o contrário.

Isso acontece quando o modelo encontra um termo conhecido como “Michael Jordan”, ativando o recurso “entidade conhecida” e, por sua vez, fazendo com que os neurônios no circuito “não posso responder” fiquem “inativos ou mais fracamente ativos”. Uma vez que isso acontece, o modelo pode aprofundar-se em seu gráfico de recursos relacionados a Michael Jordan para fornecer sua melhor estimativa de resposta à pergunta “Qual esporte Michael Jordan pratica?”.

Aumentar artificialmente os pesos dos neurônios no recurso “resposta conhecida” poderia forçar o LLM a alucinar confiantemente informações sobre atletas completamente inventados, como “Michael Batkin”. Esse tipo de resultado leva os pesquisadores a sugerirem que “pelo menos algumas” das alucinações do LLM estão relacionadas a um “mal funcionamento” do circuito que inibe o caminho “não posso responder” – ou seja, situações em que o recurso “entidade conhecida” (ou outros semelhantes) é ativado mesmo quando o termo não está bem representado nos dados de treinamento.

Infelizmente, o modelo de conhecimento e desconhecimento do LLM nem sempre é preciso. Em outro exemplo, pedir ao LLM para nomear um artigo escrito por um pesquisador de IA faz com que o modelo invente o título plausível, mas completamente falso, de um artigo. Perguntar o mesmo sobre outro pesquisador, por outro lado, faz com que o LLM responda que “não pode nomear confiantemente um artigo específico… sem verificar as informações”.

Após experimentar com pesos de recursos, os pesquisadores teorizam que a alucinação pode ser causada porque o modelo reconhece o nome do pesquisador, ativando certos recursos “resposta/entidade conhecida”. Esses recursos, então, inibem o circuito padrão “não responda”, mesmo que o modelo não tenha informações mais específicas sobre os nomes dos artigos do pesquisador (que o modelo então adivinha depois de se comprometer a responder). Um modelo ajustado para ter conjuntos mais robustos e específicos desses tipos de recursos “entidade conhecida” poderia então ser capaz de melhor distinguir quando deve ou não ter confiança em sua capacidade de responder.

Esta e outras pesquisas sobre a operação de baixo nível dos LLMs fornecem contexto crucial sobre como e por que os modelos fornecem os tipos de respostas que fornecem. Mas os pesquisadores advertem que seu processo investigativo atual “apenas captura uma fração do cálculo total realizado pelo LLM” e requer “algumas horas de esforço humano” para entender os circuitos e recursos envolvidos mesmo em uma breve solicitação “com dezenas de palavras”. Com sorte, este é apenas o primeiro passo para métodos de pesquisa mais poderosos que podem fornecer insights ainda mais profundos sobre o problema da invenção de informações pelos LLMs e, talvez um dia, como corrigi-lo.

Deixe seu comentário abaixo e compartilhe suas experiências com LLMs!

Fonte: Ars Technica

TAGGED:inovation

Assine Nossa Newsletter Diária

Fique por dentro! Receba as últimas notícias de última hora diretamente na seu e-mail.

Ao se inscrever, você concorda e reconhece as práticas de dados descritas em nossa Política de Privacidade. Você pode cancelar a inscrição a qualquer momento.
Compartilhe esse Artigo
Facebook Whatsapp Whatsapp Reddit Telegram Copiar Link Print
Deixe um Comentário Deixe um Comentário

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

No TechParaTodos, acreditamos que a tecnologia deve ser simples e acessível. Nosso objetivo é descomplicar o mundo digital com dicas, tutoriais e tendências, ajudando você a aproveitar ao máximo as inovações tecnológicas no dia a dia. 🚀

You Might Also Like

Inovação

Robô humanoide com músculos sintéticos: o futuro chegou?

4 Min de Leitura
Inovação

Queda de vendas da Tesla na Europa: O que aconteceu?

4 Min de Leitura
Inovação

iPhone SE: Novo design chega na semana que vem?

4 Min de Leitura
Inovação

IA e Criatividade Humana: Um Recurso em Risco?

7 Min de Leitura

Redes Sociais

TechParaTodos - Alguns direitos reservados.
  • Início
  • Quem Somos
  • Fale Conosco
  • Política de Privacidade
  • Política de Cookies
  • Todos os posts
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?