Você já se perguntou como os modelos de IA generativa (genAI) se saem em diferentes idiomas? A resposta pode surpreender, principalmente para os CIOs que gerenciam operações globais. Neste artigo, vamos explorar os desafios enfrentados por esses líderes de TI ao lidar com a qualidade inferior dos modelos genAI em idiomas que não o inglês.
O problema central é a disparidade na quantidade de dados usados para treinar esses modelos. Modelos em inglês são beneficiados por conjuntos de dados gigantescos, enquanto modelos em outros idiomas frequentemente são treinados com quantidades muito menores de informações.
Modelos em inglês versus modelos em outros idiomas
A diferença é gritante. Consultorias especializadas em IA afirmam que o tamanho dos conjuntos de dados para modelos não-inglês pode ser de 10 a 100 vezes menor do que seus equivalentes em inglês. Isso impacta diretamente a precisão e a relevância das respostas geradas. Menos dados significam menos compreensão do contexto, maior propensão a erros e até mesmo “alucinações” — a IA inventa informações quando não encontra a resposta correta.
A falta de transparência dos fornecedores
A maioria dos grandes fornecedores de modelos genAI não divulga publicamente o tamanho e a qualidade dos dados usados em seus treinamentos. Isso dificulta a avaliação real do desempenho dos modelos em línguas além do inglês. Os testes normalmente se concentram nos modelos em inglês, deixando os demais em segundo plano.
Essa falta de transparência força os CIOs a realizarem testes extensivos, mas esses testes muitas vezes são focados primariamente no idioma inglês.
A questão do tamanho dos dados
A diferença no tamanho dos conjuntos de dados pode ser extrema, variando muito de um idioma para outro. Não é apenas a quantidade de falantes que importa, mas sim a disponibilidade de dados digitais em determinado idioma. Uma boa maneira de estimar essa disponibilidade é verificar o número de páginas na Wikipédia correspondente a cada idioma.
A disponibilidade também varia de acordo com o setor, o tema e o caso de uso. Imagine comparar dados de saúde do New England Journal of Medicine com um site pessoal de um quiroprático. A qualidade da informação é crucial.
Soluções rápidas e suas limitações
Existem algumas soluções rápidas, mas elas têm suas desvantagens. A tradução automática, por exemplo, pode gerar inconsistências e erros de interpretação. Já o uso de dados sintéticos para complementar os dados reais pode amplificar vieses presentes nos dados originais.
Usar tradutores automáticos pode ser uma solução rápida, porém, pode introduzir inconsistências idiomáticas.
Abordagens práticas (e algumas vezes caras)
Então, o que os líderes de TI podem fazer? Primeiro, durante o processo de compra, é preciso focar também nos modelos não-inglês, exigindo mais transparência dos fornecedores sobre os dados de treinamento. É preciso entender a origem e a qualidade dos dados para cada modelo.
Outra opção é optar por fornecedores regionais de genAI, mais familiarizados com as nuances da língua e cultura locais. Entretanto, muitas empresas preferem os grandes fornecedores já consolidados no mercado.
Um mercado para modelos genAI
Plataformas que funcionam como marketplaces de modelos genAI, similares a lojas online, podem oferecer uma alternativa interessante. Elas permitem acesso a diversos fornecedores, de grandes a pequenos, reduzindo alguns riscos e dificuldades. No entanto, é importante lembrar que a responsabilidade pela qualidade e o suporte do modelo ainda permanece com o fornecedor original.
Olhando para o futuro
Há motivos para otimismo. A qualidade dos modelos não-inglês pode melhorar nos próximos anos à medida que mais dados de alta qualidade se tornam disponíveis. Os fornecedores estão cada vez mais se voltando para fontes de dados privados, como empresas e universidades, para complementar os dados públicos disponíveis na internet.
Esse acesso a dados privados, incluindo dados de diferentes países e línguas, pode melhorar a qualidade do treinamento dos modelos. Além disso, o aumento de dados não estruturais (como vídeos), poderia minimizar as restrições linguísticas. Mas essa mudança também pode elevar o custo dos modelos, tornando-os mais caros para as empresas.
Apesar das melhorias esperadas, os CIOs devem continuar exigindo transparência dos fornecedores e investir mais em testes e ajustes finos para modelos não-inglês. Isso garante um desempenho melhor e a qualidade esperada em todas as suas operações globais.
Compartilhe suas experiências com modelos genAI em diferentes idiomas abaixo!