LLMs negociando criptomoedas no mundo real
Nos últimos anos, os LLMs fizeram muitos avanços. Desde a resolução de provas matemáticas complexas até concursos algorítmicos, hoje eles conseguem lidar com alguns dos problemas mais desafiadores de áreas como matemática, ciência da computação, entre outras.
Os testes de benchmarking para esses modelos, como o ICPC (International Computer Programming Contest) e o IMO (International Mathematics Olympiad), servem como medidas para suas prontidões para enfrentar problemas do mundo real. No entanto, eles são benchmarks estáticos que falham em medir a tomada de decisões de longo prazo, robustez operacional, adaptação ou resultados em domínios de risco. Por isso, existe um interesse enorme por experimentos que possam avaliar o desempenho dos LLMs em cenários mais dinâmicos e reais.
Há cerca de duas semanas, escrevemos um post sobre o experimento Alpha Arena, lançado pela plataforma Nof1 para testar LLMs em cenários reais.
Alpha Arena
Alpha Arena promete ser uma série de experimentos competitivos projetados para testar as capacidades dos principais LLMs em ambientes do mundo real. A primeira temporada de Alpha Arena acabou de se encerrar. Ela ocorreu entre 17 de outubro e 3 de novembro e se concentrou em medir se LLMs, com orientações mínimas, podem atuar como um modelo de negociação sistemático zero-shot.
O experimento
Para a primeira temporada do Alpha Arena, seis modelos de IA líderes receberam US$ 10.000 cada para negociar na Hyperliquid, uma plataforma de derivativos de criptomoedas.
Os LLMs tiveram que processar dados quantitativos e negociar sistematicamente usando apenas os dados numéricos fornecidos. Portanto, as IAs não tiveram acesso às notícias do mercado. Elas deveriam inferir o comportamento das criptomoedas somente usando dados das séries temporais.
Os LLMs testados foram: GPT-5 (o LLM que alimenta o ChatGPT), Gemini 2.5 Pro, Claude Sonnet 4.5, Grok 4, DeepSeek v3.1 e Qwen3-Max. Todos receberam os mesmos prompts e tiveram acesso aos mesmos dados.
O objetivo do experimento era maximizar o lucro e minimizar o risco. Os modelos receberam um universo de ativos que consistiu em derivativos de criptomoedas na forma de futuros perpétuos. Perpétuos são contratos que permitem assumir posições compradas (aposta na alta dos preços) ou vendidas (aposta na queda dos preços), com alavancagem.
Os resultados do Alpha Arena.
O comportamento dos LLMs
Os resultados obtidos evidenciaram que os LLMs exibem diferenças significativas em seus comportamentos, incluindo:
Inclinação de alta vs. baixa: alguns modelos favorecem consistentemente posições longas ou curtas.
Períodos de retenção: os modelos diferem significativamente em quanto tempo eles mantêm as posições.
Frequência de negociações: o número de negociações concluídas varia muito entre os LLMs.
Postura de risco (dimensionamento de posição): os modelos escolhem tamanhos diferentes para suas posições com o mesmo prompt.
Confiança autorrelatada: os modelos atribuem níveis variados de confiança às suas ações.
Os LLMs também exibem alguns comportamentos bastante preocupantes, como:
Viés de ordenação: os modelos às vezes leem os dados de mercado incorretamente.
Dificuldades com termos ambíguos: os LLMs têm dificuldades com definições pouco claras ou inconsistentes.
Jogo de regras sob restrições e engano: como já observado em outros cenários, os LLMs podem ser enganados para se desviar de seus planos.
Vencedores e perdedores
Os resultados no final do experimento foram bastante surpreendentes. No primeiro lugar do pódio ficou Qwen3-Max seguido pelo DeepSeek v3.1. Eles obtiveram lucro de cerca de 22% e 4%, respectivamente. Todos os outros LLMs tiveram prejuízos que variaram entre 30% até mais de 60%. O terceiro lugar ficou com Claude 4.5 Sonnet com cerca de 30% de perda, seguido por Grok 4 da xAI. Gemini 2.5 PRO ficou em penúltimo lugar. Talvez a maior surpresa do experimento tenha sido o último lugar do GPT-5 com cerca de 62% de perda.
Enquanto o Qwen3-Max chegou a obter mais de 100% de lucro em um dado momento do experimento, o GPT-5 manteve desempenho ruim durante praticamente toda a duração do Alpha Arena.
Os resultados do Alpha Arena mostram vários LLMs acumulando perdas consideráveis.
Você deixaria um LLM investir por você?
O sucesso da Alpha Arena destaca a necessidade de benchmarks mais realistas que testem as capacidades dos LLMs em ambientes do mundo real. O trabalho futuro da plataforma se concentrará no refinamento da metodologia do experimento, explorando controles adicionais e introduzindo desafios mais específicos para os modelos. Seu objetivo final é ir além dos benchmarks estáticos para desenvolver uma compreensão mais abrangente do potencial e das limitações da IA. Por enquanto, os resultados obtidos evidenciam claramente os riscos envolvidos ao delegarmos tarefas arriscadas para os LLMs. Já pensou em perder 60% de suas economias por causa do ChatGPT?