Voxtral TTS: Nova IA TTS da Mistral
Para os entusiastas dos modelos de IA de código aberto, tem novidade na área. A empresa francesa de IA Mistral acaba de lançar um modelo de texto para fala (text-to-speech, ou TTS).
Batizado de Voxtral TTS, a nova IA permite que empresas criem agentes de voz personalizados para vendas e engajamento do cliente, competindo diretamente com gigantes do setor como ElevenLabs, Deepgram e OpenAI.
Um passo à frente no suporte de idiomas
O que diferencia o TTS da Mistral dos demais é seu impressionante suporte a idiomas. Com nove idiomas disponíveis, incluindo inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe, esse modelo é um divisor de águas para empresas que atuam globalmente e desenvolvedores com foco num mercado com clientes de várias nacionalidades.
Outra enorme vantagem do Voxtral TTS é a sua capacidade de alternar facilmente entre idiomas sem comprometer as características da voz. Isso o torna uma solução atraente para dublagem ou aplicações de tradução em tempo real.
Desempenho impressionante em Tempo Real
Um dos aspectos mais impressionantes do Voxtral TTS é seu desempenho em tempo real. Com um intervalo para iniciar sua fala de apenas 90 milissegundos (time-to-first-audio, TTFA) para uma amostra de 10 segundos, essa IA pode se adaptar rapidamente a novas entradas e manter sua qualidade semelhante à humana. O fator em tempo real (RTF) de 6x garante que o modelo possa renderizar um clipe de 10 segundos em apenas 1,6 segundos.
A Mistral também garante que o novo modelo de IA pode adaptar uma voz personalizada com uma amostra inferior a cinco segundos. Ele consegue capturar características como sotaques sutis, inflexões, entoações e irregularidades no fluxo da fala.
Custo operacional mais baixo que o dos concorrentes e código aberto
Com uma arquitetura enxuta, o Voxtral TTS tem um custo operacional menor do que outros modelos do mercado. Além do custo, para cativar desenvolvedores e empresas que não abrem mão de controle e personalização, o Voxtral TTS foi lançado como código aberto (na verdade, como se trata de um modelo de IA, o termo correto é pesos abertos, mas você deve ter entendido, certo?). Com essa medida, a Mistral pretende superar seus concorrentes oferecendo uma solução mais flexível e fácil de utilizar.
Para os interessados, o modelo pode ser baixado na plataforma Hugging Face.
Você também pode conhecer alguns demos gerados pela nova IA aqui.