DeepSeek lança mais uma super IA de código aberto

DeepSeek revoluciona de novo! Poucos dias após lançar sua nova IA, DeepSeek-V3.1-Terminus, a startup lança outro modelo: DeepSeek-V3.2-Exp. A nova IA, uma versão experimental de seu modelo principal, já está disponível na plataforma Hugging Face.
A nova versão se baseia no V3.1-Terminus e apresenta o DeepSeek Sparse Attention, um recurso revolucionário projetado para tornar o treinamento e a inferência mais eficientes para longos trechos de textos. Com a novidade, a DeepSeek, que já faz parte da história da IA, está dando mais um passo para tornar seus modelos poderosos mais acessíveis a desenvolvedores em todo o mundo. A empresa tem se concentrado no desenvolvimento de uma arquitetura de última geração que extrai eficiência dos modelos transformers sem comprometer o desempenho.
O segredo do sucesso: DeepSeek Sparse Attention
O DeepSeek Sparse Attention é um mecanismo de atenção avançado desenvolvido pela DeepSeek que aprimora a autoatenção tradicional usada em modelos de transformadores (transformers). A autoatenção tradicional tem uma complexidade computacional que cresce quadraticamente com o comprimento da sequência (O(n²)). Isso a torna cara para sequências de textos longas. A atenção esparsa torna o padrão de atenção mais eficiente e barato.
Em vez de fazer com que cada token atenda a todos os outros tokens como nos mecanismos tradicionais, a atenção esparsa usa uma combinação de atenção local e atenção global. Na atenção local, os tokens atendem apenas aos tokens próximos. Já na atenção global, tokens selecionados atendem a todos os tokens. Essas alterações tornam o modelo mais eficiente sem perder sua robustez. Você pode ler mais sobre os detalhes técnicos aqui.
DeepSeek-V3.2-Exp: eficiência para causar redução de custos
A nova versão é um marco empolgante para a DeepSeek. Conforme a startup se aprofunda em pesquisa e desenvolvimento, ela se estabelece cada vez mais entre os grandes players da IA. Ao incorporar o DeepSeek Sparse Attention, a empresa conseguiu enfrentar com sucesso um dos desafios mais significativos no treinamento de modelos de IA: lidar com grandes quantidades de dados de texto com eficiência. A consequência foi mais uma grande redução de custos!
Para colocar isso em perspectiva, considere os custos de treinamento associados a modelos de IA rivais. O GPT-4 da OpenAI, apoiado pela Microsoft, supostamente queimou mais de 10.000 GPUs durante sua fase de treinamento e custou cerca de US$ 63.000.000, enquanto o modelo R1 da DeepSeek exigiu impressionantes US$ 294.000 para treinar usando pouco mais de 500 GPUs Nvidia H800.
Acesso à API muito mais barato
Mas o que isso significa para os desenvolvedores? A novidade é muito importante se você desenvolve apps alimentados por IAs através de chamadas a APIs. Com o DeepSeek-V3.2-Exp, as chamadas de API ficaram muito mais baratas. As entradas agora custam apenas US$ 0,028, menos da metade do preço anterior de US$ 0,07 (para 1 milhão de tokens). As saídas caíram de US$ 1,68 para US$ 0,42. Essa redução significativa de preço ressalta o compromisso da startup em tornar os modelos de IA poderosos mais acessíveis.

Além de preço baixo, IA disponível para download de graça
Como mencionado no início da postagem, seguindo o padrão de sempre, a DeepSeek já liberou o DeepSeek-V3.2-Exp como código aberto na plataforma Hugging Face. Você pode baixar o novo modelo e realizar ajuste fino sem se preocupar com termos de licença obscuros. A nova IA está liberada sob licença MIT!
Conclusões
Com a novidade da DeepSeek, os desenvolvedores de todo o mundo podem aproveitar o poder dos modelos baseados em transformadores sem gastar muito. Essa democratização do acesso à IA permite que países como o Brasil possam se aventurar no desenvolvimento de apps inteligentes com uma menor barreira de acesso. E, com um pouquinho de criatividade, apps com DeepSeek podem revolucionar a maneira como abordamos o processamento de linguagem natural, análise de sentimentos e outras tarefas com uso intensivo de IA.