Robótica com IA em alta

Depois dos robôs da Hugging Face, a robótica ganha mais uma ferramenta de peso. Desta vez, a novidade vem do Google. Em um salto significativo para o campo da inteligência artificial (IA) na robótica, a Google DeepMind revelou um novo modelo linguístico chamado Gemini Robotics On-Device.
A tecnologia inovadora traz o raciocínio multimodal do Gemini 2.0 para robôs sem a necessidade de internet. A nova IA foi projetada para casos de uso sensíveis à latência e ambientes com conectividade ruim ou inexistente. Como o nome indica, o modelo Gemini Robotics On-Device é baseado na plataforma anterior da Google, Gemini Robotics, que foi introduzida em março.
Gemini Robotics
Em março, o Google lançou uma família de modelos de IA projetados propositadamente para a robótica. Os modelos foram construídos sobre a base do Gemini 2.0.
O modelo mais importante da série, Gemini Robotics, é uma IA generalista avançada de Visão-Linguagem-Ação (VLA). Ela consegue controlar robôs diretamente. Gemini Robotics consegue direcioná-los a executar movimentos suaves e reativos para lidar com uma ampla gama de tarefas complexas de manipulação. Seu comportamento também é robusto a variações nos tipos e posições de objetos e ao lidar com ambientes invisíveis. Em termos de capacidade linguística, Gemini Robots segue instruções de vocabulário diversas e abertas.

Com ajustes finos adicionais, o modelo Gemini Robotics pode ser especializado em novos recursos, incluindo a resolução de tarefas de longo prazo e altamente hábeis. Ele também apresenta aprendizado de novas tarefas de curto prazo a partir de apenas 100 demonstrações. Tudo isso é possível porque o Gemini Robotics se baseia no modelo Gemini Robotics-ER, outro modelo da série. O Gemini Robotics-ER (Raciocínio Incorporado) estende os recursos de raciocínio multimodal do Gemini para o mundo físico, mas com compreensão espacial e temporal aprimorada.
O que é Gemini Robotics On-Device?
Depois do lançamento dos modelos Gemini Robotics e Gemini Robotics-ER, chegou a vez do Gemini Robotics On-Device. A grande novidade do Gemini Robotics On-Device é a sua capacidade de funcionar localmente, sem precisar de internet. O novo modelo avança ainda mais ao não apenas controlar o movimento dos robôs, mas também ajustar seus comportamentos com prompts linguísticos naturais. Isso permite que os desenvolvedores adaptem o modelo a diversas necessidades e aplicações.
Na fase de testes, o Gemini Robotics On-Device demonstrou desempenho impressionante, competindo com o modelo Gemini Robotics baseado na nuvem em vários benchmarks. A novidade também supera outros modelos em dispositivos em geral.

Futuro à vista
As implicações do Gemini Robotics On-Device são vastas. O modelo foi inicialmente treinado para robôs ALOHA. Ele foi posteriormente adaptado para funcionar de forma suave com outras plataformas, como o robô Franka FR3 bi-manejo e o robô humanoide Apollo. O recurso mais impressionante do Gemini Robotics On-Device é a sua capacidade para lidar com cenários e objetos não vistos, mesmo em tarefas complexas de montagem em uma correia industrial. Esse nível de autonomia e adaptabilidade tem grande potencial para indústrias como manufatura, logística e saúde.
Disponibilidade
Para facilitar a adoção mais ampla, a Google DeepMind liberou um SDK Gemini Robotics, que permite que os desenvolvedores treinem robôs utilizando esses modelos no simulador físico MuJoCo. Com apenas 100 demonstrações, o modelo pode aprender novas tarefas com uma precisão impressionante.
Conclusão
A emergência da IA na robótica tem se acelerado nos últimos anos. O desenvolvimento mais recente da Google DeepMind marca mais um importante progresso nessa área. Outras empresas notáveis, como a Nvidia e a Hugging Face, também estão se envolvendo na robótica com suas próprias iniciativas. Portanto, mantenha os olhos abertos, pois a robótica turbinada com IA promete.