DeepSeek lança IA multimodal supereficiente e de código aberto
Muito burburinho rolando em volta do novo modelo de IA multimodal da DeepSeek. A novidade transforma textos em tokens visuais até vinte vezes mais compactos.

Receba nossa newsletter

Nova IA multimodal da DeepSeek

deepseek

Enquanto as big techs americanas só prometem datacenters e modelos de IA cada vez maiores, a DeepSeek tem chamado a atenção seguindo um caminho diferente. A startup chinesa parece estar apostando cada vez mais no desenvolvimento de tecnologias de IA próprias e de baixo custo.

A cada lançamento, somos surpreendidos por mais um desenvolvimento tecnológico que visa aumentar a eficiência e reduzir o custo computacional de seus modelos de IA sem comprometer a qualidade. Evidentemente, a novidade da vez segue essa tendência, mas surpreende por sua originalidade.

Apelidado de DeepSeek-OCR, o novo modelo de IA é um multimodal que deve abalar o status quo no processamento de linguagem natural. Ele tem o potencial de revolucionar a maneira como abordamos os grandes modelos de linguagem (LLMs), aproveitando a percepção visual como um meio de compressão de informações.

Percepção visual para compactar textos

A DeepSeek apresentou seu lançamento como um modelo de OCR – uma tecnologia para converter imagens de texto em caracteres digitais. O DeepSeek-OCR usa a percepção visual para compactar textos em unidades menores, conhecidas como tokens. O modelo demonstra que as representações visuais podem servir como um meio de compressão superior para informações textuais. Essa descoberta inverte a hierarquia convencional na qual os tokens de texto eram considerados mais eficientes do que os tokens de visão.

A compactação obtida pelo DeepSeek-OCR possibilita que os LLMs processem grandes quantidades de textos sem incorrer em um aumento proporcional no custo de computação. Na prática, isso significa que os LLMs agora podem lidar com documentos complexos com facilidade, sem sacrificar o desempenho ou a precisão. E os resultados práticos já são comprovam isso. Segundo a DeepSeek, o DeepSeek-OCR pode processar mais de 200.000 páginas por dia usando uma única GPU Nvidia A100-40G. Escalando para um cluster de 20 servidores com oito GPUs cada, a taxa de transferência chega a 33 milhões de páginas diárias.

A IA multimodal DeepSeek-OCR

O modelo DeepSeek-OCR consiste em dois componentes principais: o DeepEncoder e o decodificador. O primeiro componente atua como o mecanismo central do modelo. Ele mantém baixa ativação sob entradas de alta resolução enquanto alcança fortes taxas de compactação para reduzir o número de tokens. Por sua vez, o decodificador, um modelo de Mistura de Especialistas (MoE) com 570 milhões de parâmetros, reconstrói o texto original.

O DeepSeek-OCR é particularmente apropriado para lidar com contextos longos de forma mais eficiente e sem perda de acurácia. Isso sugere que o DeepSeek-OCR pode abrir caminho para arquiteturas de contexto teoricamente ilimitadas que equilibram a retenção de informações com eficiência.

DeepSeek IA multimodal

Conheça mais detalhes técnicos do DeepSeek-OCR aqui.

Redução de custo computacional sem perder acurácia

O que é notável sobre o DeepSeek-OCR é sua capacidade de alcançar uma redução significativa de tokens. Sua compactação varia de sete a 20 vezes para diferentes estágios de contexto histórico. Com isso, a nova arquitetura oferece uma direção promissora para enfrentar desafios de longos contextos em LLMs. De acordo com testes de benchmark, o modelo alcançou 97% de precisão de decodificação, mesmo com uma taxa de compressão de 10x.

Código aberto

Seguindo a sua tradição, a DeepSeek liberou o DeepSeek-OCR como código aberto (licença MIT). Portanto, os usuários já podem aproveitar essa poderosa tecnologia para criar e treinar seus próprios modelos e desenvolver aplicativos com IA. A natureza de código aberto do DeepSeek-OCR também o torna uma opção atraente para pesquisadores e desenvolvedores que desejam explorar novas fronteiras em IA. Para quem se interessou, o DeepSeek-OCR está disponível em plataformas como Hugging Face e GitHub.

Conclusões

Com o lançamento do DeepSeek-OCR, a DeepSeek se posiciona ainda mais como um grande player de IA. A startup também tem deixado claro seu direcionamento para priorizar IAs econômicas e eficientes. Isso a coloca numa posição estratégica bastante diferenciada. Parte do movimento certamente se deve às tarifas e imposições americanas que têm dificultado cada vez mais o acesso das empresas chinesas aos chips da Nvidia. Os últimos movimentos da DeepSeek deixam claro que ela vai enfrentar esse desafio criando tecnologias capazes de serem treinadas com os chips chineses.

Para nós, as novas IAs robustas e baratas são uma ótima novidade. Elas reduzem a barreira de acesso para o desenvolvimento de aplicativos inteligentes. Portanto, as implicações do DeepSeek-OCR são abrangentes e empolgantes. Ao aproveitar a percepção visual como um meio de compactação, os usuários agora podem lidar com o processamento de contextos ultralongos consumindo menos recursos de computação.

Imagem com IA Generativa – Dia 585

IA generativa - img585

Arte com IA generativa: imagem do dia

Todos os dias postamos um exemplo de imagem artística gerada com inteligência artificial.

Tutoriais

Postagens Mais Recentes

Outras Postagens Que Podem Interessar

Veja
Mais

Fique em contato

Se inscreva para receber nossa newsletter com novidades.

aprendiz artificial