Você já se perguntou por que os modelos de IA generativa em português (e outros idiomas além do inglês) são menos eficientes? A resposta pode ser mais complexa do que imaginamos, e envolve questões de transparência de dados e custos. Vamos explorar isso!
A Desigualdade de Qualidade em Modelos de IA Generativa
É cada vez mais claro que modelos de linguagem grandes (LLMs) em português e outros idiomas não-ingleses apresentam menor precisão e utilidade em comparação aos seus equivalentes em inglês – às vezes, de forma drástica. Empresas que pagam por esses modelos deveriam saber exatamente o que estão recebendo e, consequentemente, buscar reduções de preço.
A falta de transparência na formação dos dados é um problema antigo nas ferramentas e plataformas de IA generativa. Empresas, muitas vezes, desconhecem o volume e a qualidade dos dados utilizados no treinamento desses modelos.
Mas por que os CIOs não conseguem descontos nos modelos não-ingleses? Simplesmente porque, sem transparência de dados, raramente sabem que estão pagando mais por menos.
Os Motivos por Trás da Falta de Transparência
Existem diversas razões pelas quais os criadores dos modelos não divulgam os detalhes do treinamento dos seus dados. Um dos motivos, sem entrar em detalhes legais, é a hipocrisia de algumas empresas que reclamam da falta de permissão antes do treinamento com seus dados.
Outro ponto importante é que, mesmo modelos com custo aparentemente menor, como alguns de código aberto, podem ter recebido financiamento governamental indireto ou direto, o que torna difícil avaliar o custo real e a real eficiência.
Se a concorrência for capaz de pressionar os preços para baixo, ótimo – e os executivos de TI também devem querer isso. Mas, até que vejamos reduções de preços significativas, a falta de transparência de dados em modelos não-ingleses deve ser usada para negociar preços mais justos.
O Problema Não É Apenas o Idioma
A questão dos modelos não-ingleses não se trata apenas do idioma em si, mas principalmente da quantidade de dados disponíveis naquele idioma. Estima-se que os conjuntos de dados para modelos não-ingleses podem ser apenas 1/10 ou até mesmo 1/100 do tamanho de seus equivalentes em inglês.
Uma forma de estimar a quantidade de dados disponíveis em diferentes idiomas é observar o número de páginas na Wikipédia daquele idioma. Essa métrica tem uma boa correlação com a quantidade de dados disponíveis.
Além disso, o problema pode não estar apenas no idioma ou nos dados disponíveis, mas também nos dados relacionados às atividades na região onde um determinado idioma é predominante.
A Pressão por Transparência e Redução de Preços
Se os criadores de modelos começarem a enfrentar uma pressão significativa por preços mais baixos de empresas preocupadas com a qualidade do modelo, eles terão poucas opções. Eles podem negociar preços mais baixos para modelos não-ingleses secretamente para alguns clientes, ou podem se tornar mais transparentes sobre os dados.
Considerando os bilhões investidos em IA generativa, diminuir os preços não parece ser uma alternativa atrativa. A segunda opção, a transparência total sobre todos os modelos – em termos de quantidade e qualidade – e o preço de seus produtos de acordo com isso, é a mais provável.
Como a qualidade é difícil de representar numericamente, isso significa divulgar todos os detalhes dos dados de treinamento para que cada cliente possa determinar a qualidade para os tópicos, setores e regiões que lhe interessam.
A Busca pelo Retorno sobre o Investimento (ROI)
A disparidade de preços entre o que um modelo pode entregar e o que uma empresa é obrigada a pagar está no cerne do porquê os CIOs ainda estão lutando para entregar o ROI de investimentos em IA generativa.
O ideal seria a redução de preços. Mas, até lá, a transparência total dos dados é a melhor alternativa. Há um ponto crucial: os criadores de modelos provavelmente percebem que a transparência total dos dados de treinamento provavelmente os forçará a diminuir os preços, pois isso mostraria a baixa qualidade de seus dados.
A recusa em fornecer qualquer tipo de transparência de treinamento de dados revela muito sobre a qualidade dos dados e sobre o estado atual do mercado.
Em resumo, a baixa qualidade dos modelos não-ingleses de IA generativa está intrinsecamente ligada à falta de transparência dos dados de treinamento. A pressão por maior transparência e, consequentemente, preços mais justos, é essencial para o desenvolvimento e o êxito da tecnologia de IA generativa global.
Deixe seu comentário abaixo e compartilhe suas experiências com modelos de IA generativa em diferentes idiomas!
Fonte: Computerworld