Você já se perguntou como funcionam os modelos de inteligência artificial por trás dos chatbots mais avançados? A DeepSeek, uma empresa que recentemente revolucionou o mundo da IA, está prestes a revelar mais detalhes sobre seu funcionamento, e isso pode mudar o jogo! Prepare-se para descobrir o que a DeepSeek está planejando para tornar seus modelos ainda mais acessíveis à comunidade.
A DeepSeek causou impacto ao lançar um modelo de raciocínio simulado competitivo, disponível para download e uso gratuito sob uma licença MIT. Mas a novidade agora é ainda maior: a empresa anunciou o lançamento de cinco repositórios de código aberto em sua “Semana de Código Aberto”.
Código Aberto: O que esperar?
Embora a DeepSeek não tenha especificado exatamente qual código será compartilhado, a empresa promete fornecer acesso aos “blocos de construção” usados em seu serviço online. Eles descrevem o processo como compartilhar seu “progresso pequeno, mas sincero, com total transparência”. A página no GitHub menciona ainda um artigo de 2024 detalhando a arquitetura de treinamento e a pilha de software da DeepSeek.
Esse movimento cria um contraste interessante com a OpenAI, que mantém seus modelos ChatGPT proprietários. A liberação de código aberto da DeepSeek pode facilitar o acesso ao seu modelo, especialmente com as restrições internacionais enfrentadas por seu aplicativo móvel devido a preocupações com a privacidade.
O que significa “abrir” o código?
O lançamento inicial do modelo da DeepSeek já incluiu acesso aos chamados “pesos abertos”, os dados que representam a força das conexões entre os bilhões de neurônios simulados do modelo. Isso permite que os usuários finais ajustem esses parâmetros com dados de treinamento adicionais para finalidades específicas.
Modelos de grandes empresas, como o Gemma do Google e o Llama do Meta, já foram lançados com essa estrutura de pesos abertos. Muitas vezes, o código-fonte para as instruções de inferência (processo de resposta a uma consulta) também é disponibilizado.
Abrindo o processo de treinamento
Ainda não está claro se o lançamento de código aberto da DeepSeek incluirá o código usado durante o treinamento do modelo. Isso é crucial para atender à definição formal de “IA de Código Aberto” do Instituto de Código Aberto (OSI). A definição inclui informações detalhadas sobre os dados usados para treinar o sistema, permitindo que um especialista construa um sistema substancialmente equivalente.
Um lançamento totalmente de código aberto, incluindo o código de treinamento, oferece aos pesquisadores maior visibilidade sobre o funcionamento do modelo em um nível fundamental. Isso pode revelar vieses ou limitações inerentes à arquitetura do modelo, além dos pesos dos parâmetros. Também facilita a reprodução de um modelo do zero, potencialmente com novos dados de treinamento.
Outras empresas, como a xAI de Elon Musk, também liberaram código aberto parcialmente, mas não integralmente. Enquanto alguns códigos de inferência foram liberados, as versões completas de seus modelos mais atualizados permanecem proprietárias.
Recentemente, o HuggingFace lançou um clone de código aberto de um recurso proprietário da OpenAI. Embora o clone tenha usado um modelo de pesos fechados em seu lançamento inicial, seu “pipeline aberto” facilita a substituição por um modelo de pesos abertos, conforme necessário.
Em resumo, a iniciativa da DeepSeek representa um passo significativo na democratização da IA. Ao liberar partes de seu código-fonte, a empresa incentiva a colaboração e a inovação na área, contrapondo abordagens mais fechadas do setor. A transparência gerada por este tipo de iniciativa pode beneficiar consideravelmente a pesquisa e o desenvolvimento na área da inteligência artificial.
Compartilhe suas experiências com código aberto e IA! Deixe seu comentário abaixo.
Fonte: Ars Technica