Você já imaginou criar imagens realistas a partir de simples comandos de texto? A OpenAI lançou uma nova ferramenta de geração de imagens por IA que promete revolucionar a maneira como interagimos com a tecnologia e, ao mesmo tempo, gerar debates acalorados. Prepare-se para conhecer o 4o Image Generation (4o IG)!
O surgimento do DALL-E 2, em 2022, foi um marco. A geração de imagens a partir de texto se tornou acessível, criando uma comunidade de exploradores digitais. Mas as primeiras versões tinham limitações: texto distorcido nas imagens e dificuldades com prompts complexos.
Uma Nova Era na Geração de Imagens
A OpenAI busca superar essas limitações. Com o 4o IG, integrado ao modelo de linguagem GPT-4o, a criação de imagens ficou mais precisa. O processamento de texto nas imagens melhorou significativamente. A ferramenta também responde ao contexto da conversa, permitindo modificações mais sutis e sofisticadas nas imagens.
O 4o IG está disponível para usuários do ChatGPT Free, Plus, Pro e Team. O acesso para usuários Enterprise e Education virá posteriormente. A funcionalidade também está integrada na ferramenta de geração de vídeo Sora. A OpenAI afirma que o modelo de geração usado pelo GPT-4o e pelo GPT 4.5 é o mesmo.
Saída Multimodal: Uma Revolução?
O 4o IG representa uma mudança para a “geração de imagens multimodais nativas”. O modelo de linguagem processa e gera imagens diretamente como tokens, compartilhando a mesma rede neural com os tokens de texto. Isso aumenta a flexibilidade na criação e modificação de imagens.
Apesar do anúncio em Maio de 2024, a OpenAI levou mais de 10 meses para liberar a funcionalidade. A demora pode ser explicada pela complexidade do processo. Para imagens em boa resolução e com detalhes, o 4o IG é extremamente lento: de 30 segundos a um minuto (ou mais) para cada imagem.
A lentidão se deve ao processo autoregressivo. A IA gera a imagem token por token, de forma sequencial. Isso difere dos métodos baseados em difusão, como o DALL-E 3, que refinam toda a imagem iterativamente.
Edição de Imagens Conversacional
A OpenAI destaca a capacidade do 4o IG de ir além de cenas surreais. A meta é gerar imagens para uso prático, como logos, diagramas e infográficos. A melhoria na renderização de texto é notável, resolvendo um problema das versões anteriores.
Algumas melhorias importantes são: refinamento de imagens via conversa, incorporação de detalhes de imagens carregadas em novas gerações, e melhor realismo fotográfico—embora a percepção de realismo seja subjetiva.
A OpenAI sugere diversos usos: diagramas, infográficos, artes para redes sociais, logos, pôsteres, cartões de visita, fotos com fundo transparente, edição de fotos e visualização de conceitos discutidos em uma conversa.
Vale ressaltar a ausência de menções ao impacto na vida profissional de artistas e designers gráficos. A preocupação com o impacto no mercado de trabalho continua sendo uma crítica recorrente à geração de imagens por IA.
Manipulação Fluida de Mídia
O 4o IG permite manipulações sofisticadas de mídia. Usuários nas redes sociais já testaram a ferramenta: inserção de rostos em imagens, criação de screenshots falsos, e conversão de memes para estilos diversos, como Studio Ghibli e South Park.
Entramos em uma “realidade” de mídia fluida, onde a conversão entre estilos visuais é simples. Isso levanta questões sobre a propriedade intelectual. A facilidade de imitar estilos de artistas renomados gera preocupação e polêmica.
Limitações e Considerações Éticas
Apesar de suas capacidades, o 4o IG tem suas limitações. Às vezes, ele corta imagens de forma inadequada, ou inclui informações incorretas em prompts vagos. A ferramenta tem dificuldades com mais de 10-20 objetos ou conceitos simultaneamente e com fontes não latinas. A edição de imagens em múltiplas passagens ainda é pouco confiável.
Apesar das limitações, o 4o IG é um passo importante em direção a uma realidade de mídia plenamente manipulável. Isso abre caminho para benefícios, mas também para riscos éticos e potenciais abusos.
A geração de imagens de figuras públicas adultas (não crianças) é permitida, com salvaguardas e a opção de opt-out. Conteúdo como violência gráfica, nudez e sexo são bloqueados.
A capacidade de imitar celebridades e marcas reforça a preocupação com a violação de direitos autorais. O modelo foi treinado a partir de um scraping massivo da internet, sem consentimento prévio de artistas em muitos casos. Discussões sobre os riscos do uso da ferramenta são extremamente relevantes.
Em resumo, o 4o IG da OpenAI é uma ferramenta poderosa, com potencial para revolucionar a criação de imagens. Sua velocidade, no entanto, precisa melhorar. A capacidade de manipulação de mídia também levanta questões éticas e legais importantes que devem ser consideradas. A ferramenta apresenta grandes avanços, mas o debate a respeito de seus impactos continua e precisa ser conduzido de forma responsável.
Compartilhe suas experiências com o 4o Image Generation!
Fonte: Ars Technica