Você já tentou burlar um sistema de inteligência artificial? A Anthropic, criadora do modelo de IA Claude, lançou um desafio: tente burlar seu novo sistema de segurança! Será que você consegue?
Modelos de IA, mesmo os mais permissivos, possuem limites. Existem assuntos sensíveis que seus criadores preferem que eles não discutam, como armas de destruição em massa ou atividades ilegais. Por anos, usuários criativos usaram diversas técnicas para “quebrar” essas barreiras e obter respostas proibidas.
Respeitando a Constituição
A Anthropic desenvolveu um novo sistema chamado “Classificador Constitucional”. Ele funciona com base em uma “constituição” – um conjunto de regras em linguagem natural que define o que é permitido e proibido para o modelo. A ideia é simples: o modelo deve seguir essas regras.
Para treinar esse sistema, a Anthropic criou muitos exemplos de perguntas, algumas permitidas e outras não, seguindo a “constituição”. Incluíram ainda exemplos de tentativas anteriores de burlar modelos de IA, simulando diferentes estratégias de usuários.
Isso gerou um enorme banco de dados para treinar novos “classificadores”, melhorando a segurança. Esses classificadores analisam tanto a pergunta quanto a resposta, buscando informações proibidas, mesmo que disfarçadas.
Um exemplo disso é um longo texto que envolve a pergunta original. Este texto alerta o sistema sobre possíveis informações prejudiciais, em diferentes formas, e como os usuários podem tentar enganá-lo.
Para a resposta, o sistema calcula a probabilidade de o texto conter informações proibidas. A resposta é interrompida se essa probabilidade ultrapassar um determinado limite.
Agora é sua vez!
A Anthropic realizou um programa de recompensas, oferecendo prêmios para quem conseguisse burlar seu sistema. Muitos especialistas tentaram, mas o sistema se mostrou bastante resistente.
Em testes com 10.000 perguntas feitas para burlar o sistema, o Classificador Constitucional bloqueou 95% das tentativas! Já o modelo sem proteção bloqueou apenas 14%. Apesar do sucesso, o sistema tem um custo computacional maior.
Apesar do alto índice de sucesso, a Anthropic admite que novas técnicas de burla podem ser criadas. No entanto, eles acreditam que o sistema pode ser adaptado rapidamente para lidar com essas novas estratégias.
Por isso, a Anthropic está abrindo o sistema para testes públicos. Você pode tentar burlar o Classificador Constitucional e descobrir novas formas de contornar as proteções! Até 10 de fevereiro, será possível testar o sistema.
Então, e aí? Você se sente desafiado? Vamos ver se você consegue burlar o sistema da Anthropic!
Deixe seu comentário abaixo e compartilhe suas experiências!