Gemma 3n: Rápido, compacto e de alto desempenho

No recente evento Google I/O 2025, o gigante tecnológico revelou sua mais recente ferramenta de IA: o Gemma 3n. A novidade é um modelo grande de linguagem (LLM) capaz de ser executado diretamente em dispositivos móveis, como celulares, oferecendo desempenho e versatilidade sem precedentes.
O Gemma 3n foi especialmente projetado para abordar alguns dos desafios mais urgentes no processamento de linguagem natural (NLP), incluindo entradas multimodais, línguas não inglesas e execução local.
Gemma 3: O Modelo de Referência
Gemma 3n foi desenvolvido a partir do Gemma 3. O Gemma 3 é o modelo de IA de referência do Google, projetado para alto desempenho em processamento computacional em um único acelerador (GPU/TPU). Suas capacidades em raciocínio textual e visual, janelas de contexto grandes e suporte linguístico amplo o tornam uma escolha ideal para aplicações de alta capacidade de throughput que exigem o manejo de grandes janelas de contexto.
Arquitetura de ponta como chave para o sucesso
Em contraste com o pioneiro Gemma 3, o Gemma 3n foi projetado para uso primário em dispositivos móveis. Por isso, ele vem em tamanhos menores, variando entre 5 -8B (B = bilhões de parametros).
Além de ser compacto, outro fator que diferencia o Gemma 3n é a sua capacidade de responder 1.5 vezes mais rápido que a sua versão predecessora em dispositivos móveis. E a velocidade vem acompanhada de uma qualidade muito melhor. Isso tudo foi possível graças a várias estratégias arquitetônicas de ponta.
O modelo base Gemma 3 introduziu várias melhorias arquitetônicas, incluindo:
1. QK-norm: substitui os mecanismos de corte suave de modelos anteriores, fornecendo cálculos de atenção mais estáveis e precisos.
2. Atenção Intercalada: reduz a necessidade de memória, permitindo janelas de contexto mais longas sem comprometer o desempenho.
O Gemma 3n, construído a partir dessa arquitetura, possui como novidade adicional a arquitetura MatFormer (Matryoshka Transformer), que permite carregamento e ativação seletiva de parâmetros. Isso possibilita reduzir consideravelmente a sobrecarga de computação e memória.
Adicionalmente, o Gemma 3n conta com técnicas como KVC sharing, quantização avançada de ativação e capacidade de mix‘n’match, que permitem que o modelo crie submodelos dinamicamente adaptados a casos específicos. Além dessas características, a inovação breakthrough do modelo – Per-Layer Embeddings (PLE) – reduz significativamente seus requisitos de memória, permitindo que ele seja instalado em dispositivos pequenos.
Ideal para execução local
Um dos aspectos mais poderosos do Gemma 3n é a sua execução local. Suas inovações em gerenciamento de parâmetros e arquitetura permitem a implantação dessa IA multimodal avançada em dispositivos com recursos limitados, como smartphones, tablets e laptops.
Além disso, o Gemma 3n pode ser usado offline. Isso significa que ele pode operar totalmente em seu dispositivo sem enviar dados para um servidor. Essa característica o torna uma excelente opção para áreas com conectividade de internet limitada.
Muito além de um modelo de linguagem
As capacidades do Gemma 3n vão além do entendimento de linguagem. O novo modelo é extremamente hábil com entradas multimodais. Ele lida sem problemas com áudios, textos, imagens e vídeos. Isso permite que o modelo execute tarefas complexas, como transcrições, traduções e entradas intercaladas entre modalidades diferentes. O desempenho em línguas não inglesas é particularmente notável, com resultados fortes em japonês, alemão, coreano, espanhol e francês.
Acessibilidade
Para tornar o Gemma 3n acessível tanto para desenvolvedores quanto para usuários, o Google introduziu uma interface baseada em navegador através do AI Studio, sem necessidade de configuração ou instalação.
Tal como acontece com outros modelos Gemma, o Gemma 3n é fornecido com pesos abertos e licenciado para uso comercial responsável. Sua licença permite o ajuste e implantação do modelo em projetos e aplicativos.