Novo gerador de imagens da OpenAI: poder e polêmica

Você já imaginou criar imagens realistas a partir de simples comandos de texto? A OpenAI lançou uma nova ferramenta de geração de imagens por IA que promete revolucionar a maneira como interagimos com a tecnologia e, ao mesmo tempo, gerar debates acalorados. Prepare-se para conhecer o 4o Image Generation (4o IG)!

Contents

Uma Nova Era na Geração de Imagens Saída Multimodal: Uma Revolução?Edição de Imagens Conversacional Manipulação Fluida de Mídia Limitações e Considerações Éticas

O surgimento do DALL-E 2, em 2022, foi um marco. A geração de imagens a partir de texto se tornou acessível, criando uma comunidade de exploradores digitais. Mas as primeiras versões tinham limitações: texto distorcido nas imagens e dificuldades com prompts complexos.

Uma Nova Era na Geração de Imagens

A OpenAI busca superar essas limitações. Com o 4o IG, integrado ao modelo de linguagem GPT-4o, a criação de imagens ficou mais precisa. O processamento de texto nas imagens melhorou significativamente. A ferramenta também responde ao contexto da conversa, permitindo modificações mais sutis e sofisticadas nas imagens.

O 4o IG está disponível para usuários do ChatGPT Free, Plus, Pro e Team. O acesso para usuários Enterprise e Education virá posteriormente. A funcionalidade também está integrada na ferramenta de geração de vídeo Sora. A OpenAI afirma que o modelo de geração usado pelo GPT-4o e pelo GPT 4.5 é o mesmo.

Saída Multimodal: Uma Revolução?

O 4o IG representa uma mudança para a “geração de imagens multimodais nativas”. O modelo de linguagem processa e gera imagens diretamente como tokens, compartilhando a mesma rede neural com os tokens de texto. Isso aumenta a flexibilidade na criação e modificação de imagens.

Apesar do anúncio em Maio de 2024, a OpenAI levou mais de 10 meses para liberar a funcionalidade. A demora pode ser explicada pela complexidade do processo. Para imagens em boa resolução e com detalhes, o 4o IG é extremamente lento: de 30 segundos a um minuto (ou mais) para cada imagem.

A lentidão se deve ao processo autoregressivo. A IA gera a imagem token por token, de forma sequencial. Isso difere dos métodos baseados em difusão, como o DALL-E 3, que refinam toda a imagem iterativamente.

Edição de Imagens Conversacional

A OpenAI destaca a capacidade do 4o IG de ir além de cenas surreais. A meta é gerar imagens para uso prático, como logos, diagramas e infográficos. A melhoria na renderização de texto é notável, resolvendo um problema das versões anteriores.

Algumas melhorias importantes são: refinamento de imagens via conversa, incorporação de detalhes de imagens carregadas em novas gerações, e melhor realismo fotográfico—embora a percepção de realismo seja subjetiva.

A OpenAI sugere diversos usos: diagramas, infográficos, artes para redes sociais, logos, pôsteres, cartões de visita, fotos com fundo transparente, edição de fotos e visualização de conceitos discutidos em uma conversa.

Vale ressaltar a ausência de menções ao impacto na vida profissional de artistas e designers gráficos. A preocupação com o impacto no mercado de trabalho continua sendo uma crítica recorrente à geração de imagens por IA.

Manipulação Fluida de Mídia

O 4o IG permite manipulações sofisticadas de mídia. Usuários nas redes sociais já testaram a ferramenta: inserção de rostos em imagens, criação de screenshots falsos, e conversão de memes para estilos diversos, como Studio Ghibli e South Park.

Entramos em uma “realidade” de mídia fluida, onde a conversão entre estilos visuais é simples. Isso levanta questões sobre a propriedade intelectual. A facilidade de imitar estilos de artistas renomados gera preocupação e polêmica.

Limitações e Considerações Éticas

Apesar de suas capacidades, o 4o IG tem suas limitações. Às vezes, ele corta imagens de forma inadequada, ou inclui informações incorretas em prompts vagos. A ferramenta tem dificuldades com mais de 10-20 objetos ou conceitos simultaneamente e com fontes não latinas. A edição de imagens em múltiplas passagens ainda é pouco confiável.

Apesar das limitações, o 4o IG é um passo importante em direção a uma realidade de mídia plenamente manipulável. Isso abre caminho para benefícios, mas também para riscos éticos e potenciais abusos.

A geração de imagens de figuras públicas adultas (não crianças) é permitida, com salvaguardas e a opção de opt-out. Conteúdo como violência gráfica, nudez e sexo são bloqueados.

A capacidade de imitar celebridades e marcas reforça a preocupação com a violação de direitos autorais. O modelo foi treinado a partir de um scraping massivo da internet, sem consentimento prévio de artistas em muitos casos. Discussões sobre os riscos do uso da ferramenta são extremamente relevantes.

Em resumo, o 4o IG da OpenAI é uma ferramenta poderosa, com potencial para revolucionar a criação de imagens. Sua velocidade, no entanto, precisa melhorar. A capacidade de manipulação de mídia também levanta questões éticas e legais importantes que devem ser consideradas. A ferramenta apresenta grandes avanços, mas o debate a respeito de seus impactos continua e precisa ser conduzido de forma responsável.

Compartilhe suas experiências com o 4o Image Generation!

Fonte: Ars Technica

Uma Nova Era na Geração de Imagens

Saída Multimodal: Uma Revolução?

Edição de Imagens Conversacional

Manipulação Fluida de Mídia

Limitações e Considerações Éticas

Assine Nossa Newsletter Diária

Fique por dentro! Receba as últimas notícias de última hora diretamente na seu e-mail.

Deixe um comentário Cancelar resposta