Você já imaginou um robô capaz de dobrar origami com delicadeza ou fechar um saquinho ziplock sem o danificar? Parece ficção científica, mas a Google DeepMind está revolucionando o mundo da robótica com suas novas IAs! Prepare-se para conhecer o Gemini Robotics, uma inteligência artificial que está prometendo mudar como interagimos com os robôs.
A Google DeepMind apresentou dois novos modelos de IA projetados para controlar robôs: o Gemini Robotics e o Gemini Robotics-ER. Esses modelos prometem ajudar robôs de diversos formatos e tamanhos a compreender e interagir com o mundo físico de forma mais eficiente e delicada do que sistemas anteriores. Isto abre portas para assistentes robóticos humanoides, por exemplo.
Gemini Robotics: Visão, Linguagem e Ação
O Gemini Robotics possui habilidades “visão-linguagem-ação” (VLA). Isso significa que ele processa informações visuais, entende comandos de linguagem e gera movimentos físicos. Você pode pedir para o robô “pegar a banana e colocá-la na cesta”, e ele usará a visão de câmera para reconhecer a banana, guiando um braço robótico para realizar a ação com sucesso. Ou, imagine pedir: “dobre uma raposa de origami”, e ele vai usar seu conhecimento de origami para realizar a tarefa com cuidado.
Gemini Robotics-ER: Raciocínio Encorporado
Já o Gemini Robotics-ER foca no “raciocínio encorporado”, com melhor entendimento espacial. Ele permite que roboticistas o conectem a seus sistemas de controle de robôs existentes. A combinação de ambos os modelos representa um salto significativo em relação a modelos anteriores.
Resultados Generalizados Aprimorados
O Gemini Robotics demonstra uma capacidade de generalização muito maior. Isso significa que ele consegue executar tarefas novas, sem treinamento específico. A Google afirma que ele “mais que dobra o desempenho em um benchmark abrangente de generalização em comparação com outros modelos de visão-linguagem-ação de última geração”. Para o futuro da robótica, a generalização é crucial. Robôs capazes de se adaptar a novos cenários sem treinamento específico para cada situação poderão um dia trabalhar em ambientes do mundo real imprevisíveis.
É importante notar que ainda existe ceticismo quanto à utilidade dos robôs humanoides atualmente. A Google, com o Gemini Robotics, busca criar uma “mente” robótica generalista. Eles anunciaram uma parceria para construir a próxima geração de robôs humanoides usando o Gemini 2.0.
Segurança e Limitações
Para garantir a segurança, a Google usa uma abordagem holística, mantendo medidas de segurança tradicionais, como evitar colisões e limitar a força. A empresa desenvolveu um framework chamado “Constituição de Robôs”, inspirado nas famosas Leis da Robótica de Asimov, e lançou um conjunto de dados chamado “ASIMOV” para ajudar pesquisadores a avaliar as implicações de segurança das ações robóticas.
Apesar dos vídeos de demonstração mostrarem avanços, os ambientes de pesquisa controlados ainda deixam perguntas em aberto sobre o desempenho desses sistemas em cenários do mundo real imprevisíveis. A Google ainda não anunciou cronogramas de disponibilidade ou aplicações comerciais específicas para os novos modelos de IA.
Em resumo, o Gemini Robotics representa um grande avanço na área da robótica. Sua capacidade de executar tarefas delicadas, aliada à sua capacidade de generalização, sugere que estamos perto de ver robôs verdadeiramente úteis no nosso dia a dia. O futuro da robótica parece promissor!
Compartilhe suas experiências e expectativas para o futuro da robótica com o Gemini Robotics!
Fonte: Ars Technica