Tratorada no mundo da IA
Nos últimos anos, os Large Language Models (LLMs) têm feito avanços rápidos em direção à Inteligência Artificial Geral (AGI). A cada lançamento, somos surpreendidos com novos capacidades impressionantes. Mas o lançamento da IA DeepSeek-R1 na última semana foi um pouco diferente. Ele foi um furacão não apenas no mundo da IA. A novidade deixou muita, mas muita gente impressionada (e preocupada). E derrubou as ações das Big Techs de forma surpreendente. A principal vítima até o momento foi a gigante de chips Nvidia. Neste post, abordaremos algumas das causas técnicas para toda essa euforia (e inveja!).

DeepSeep destruiu as ações da Nvida.
DeepSeek: excelente, barato, de código aberto e rodando em chips da Huawei

O DeepSeek-R1 é um modelo de IA que atinge o topo em termos de desempenho para um LLM. Mas essa não é sua única qualidade. A DeepSeek, a start-up que construiu o modelo, o liberou como “peso aberto”, o que significa que os pesquisadores podem estudar e desenvolver o algoritmo. Publicado sob uma licença do MIT, o modelo pode ser reutilizado livremente.
O desempenho do DeepSeek-R1 supera os LLMs comuns (Llama e companhia). Ele é comparável aos principais modelos de raciocínio da OpenAI em uma variedade de tarefas, incluindo matemática, codificação e raciocínio complexo. Em alguns benchmarks, seu desempenho é melhor do que o dos modelos o1 da openAI. Por exemplo, no benchmark matemático AIME 2024, o DeepSeek-R1 obteve 79,8% em comparação com os 79,2% do OpenAI-o1. No benchmark MATH-500, o DeepSeek-R1 alcançou 97,3% contra 96,4% do o1. Mas o mais importante é que a startup DeepSeek conseguiu isso em grande parte por meio de inovação, em vez de depender dos chips caros.
Devido às sanções americanas, a empresa DeepSeek, que é chinesa, teve que inovar para criar seu modelo de IA sem depender dos chips mais modernos da Nvidia.
O modelo R1 da DeepSeek foi inicialmente treinado em GPUs NVIDIA H800. Atualmente, o R1 está utilizando os chips Ascend 910C AI da Huawei para inferência, destacando os avanços da China em IA, apesar (ou por causa!) das restrições de exportação dos EUA. Os chips Ascend 910C estão configurados para rivalizar com o H100 da Nvidia. A produção em massa desses chips está prevista para começar no início de 2025.

Conheça a família
DeepSeek-R1 consiste numa família de modelos de IA. O principal modelo da família, também chamado de DeepSeek-R1, foi treinado por meio de aprendizado por reforço em larga escala para executar o raciocínio em cadeia de pensamentos. Ele foi desenvolvido a partir de outra IA da empresa, o modelo DeepSeek-V3.
Além da super IA com raciocínio e do modelo V3, a família conta com vários pequenos modelos destilados do DeepSeek-R1. Especificamente, essas são versões ajustadas do Qwen e do Llama, em um conjunto de dados de 800 mil amostras geradas pelo DeepSeek-R1.
aprendizado por reforço em pipeline inovador
O desempenho impressionante do DeepSeek-R1 é atribuído ao seu pipeline inovador. Entre as principais novidades do pipeline estão a presença de dois estágios de aprendizado por reforço e ajuste fino não-supervisionado em etapas.
A introdução de um novo estágio de aprendizado por reforço no modelo é uma novidade importante. O objetivo deste estágio secundário de aprendizado por reforço é melhorar a utilidade e a inocuidade do modelo ao mesmo tempo em que aprimora sua capacidade de raciocinar. Para conseguir isso, os pesquisadores usaram uma combinação de sinais de recompensa e diversas distribuições rápidas. Os sinais de recompensa foram projetados para capturar as preferências humanas em cenários complexos, garantindo que o modelo gere respostas relevantes e úteis. Através destas técnicas, o modelo é capaz de se autoverificar, refletir e gerar cadeias de pensamentos longas. Leia mais sobre esses detalhes aqui.
Destilação para inserir recursos de raciocínio em modelos menores
Outra novidade da família DeepSeek-R1 é o uso de destilação para capacitar modelos menores com recursos de raciocínio semelhantes a modelos maiores, como o DeepSeek-R1. Ao ajustar os modelos de código aberto Qwen e Llama usando as 800 mil amostras selecionadas com o DeepSeek-R1, os pesquisadores demonstram que esse método pode melhorar significativamente as habilidades de raciocínio de modelos menores. A descoberta desta técnica tem o potencial de democratizar ainda mais o acesso a recursos avançados de IA. Com ela, os modelos de grande escala não serão mais aos únicos capazes de fornecer respostas baseadas em raciocínio. Modelos menores, muito mais econômicos e acessíveis, agora podem ser capacitados com esses recursos, tornando-os mais versáteis e eficazes em uma ampla gama de aplicações. As versões disponíveis incluem destilados de código aberto com tamanhos 1.5B, 7B, 8B, 14B, 32B e 70B baseados nas séries Qwen2.5 e Llama3.
Onde encontrar
Os modelos DeepSeek podem ser encontrados nas principais plataformas de modelos de IA, incluindo Hugging Face e Ollama. Ele também pode ser encontrado diretamente no site de sua empresa criadora. Você também pode acessá-lo baixando o app da empresa.
Conclusões
DeepSeek-R1 é a nova família de LLMs revolucionários que pegou o mundo da IA de surpresa. A capacidade do modelo principal da série de lidar com compreensão de contextos longos e apresentar recursos de raciocínio com baixo custo o torna uma ferramenta valiosa para desenvolvedores. Além disso, seus recursos de destilação mostraram que modelos menores também podem ser poderosos, com versões destiladas superando os modelos de código aberto anteriores. As implicações desse avanço são de longo alcance. Com o DeepSeek-R1, A IA acaba de se tornar mais acessível e econômica.