Chatbot Arena no centro de mais um escândalo envolvendo grandes players da IA
Em mais uma revelação chocante, um artigo recente publicado com autores dos principais laboratórios de IA expôs o lado sombrio dos benchmarks usados para testar o desempenho dos modelos de IA. Desta vez, no centro da polêmica está o Chatbot Arena.
Chatbot Arena é um benchmark popular de crowdsourcing para avaliar modelos de IA conversacional. Ele é tido como um dos principais testes de benchmark para os LLMs que alimentam aplicativos como o ChatGPT e Gemini.
O estudo recém-publicado, conduzido por uma equipe de pesquisadores de várias instituições, acusou a LM Arena, a organização por trás do Chatbot Arena, de se envolver em práticas desleais que favorecem empresas selecionadas de IA.

Clique aqui para acessar o artigo original.
Entenda o caso
As alegações são sérias. Segundo os autores do artigo, a LM Arena permitiu que certas empresas de IA líderes do setor, como Meta, OpenAI, Google e Amazon, testassem várias variantes de seus modelos de IA antes de lançá-los ao público. Esses testes privados permitiram que essas empresas ganhassem uma vantagem injusta na competição. Alguns dos modelos alcançaram as melhores pontuações na tabela de classificação sem nem mesmo serem divulgados publicamente. Ou seja, eles usaram vários modelos nos testes, divulgaram os resultados somente do melhor, mas liberaram outro.

E nós sabemos que essa prática acontece com alguma frequência. A OpenAI confirmou recentemente o uso de modelos diferentes para testes. O modelo o3 disponível no site da empresa não é a versão testada para validação de desempenho.
Mas esse tipo de malandragem parecia ser uma prática ocasional. Agora fica claro que a realidade é outra.
No escândalo envolvendo o Chatbot Arena, uma empresa em particular, a Meta, supostamente testou 27 variantes de modelos antes do lançamento do Llama 4. A versão lancada ao público possui desempenho bem pior do que o obtido com a variante testada oficialmente.

Mais burla
Ainda segundo o estudo, algumas empresas tiveram acesso a testes privados, o que lhes permitiu coletar mais dados do Chatbot Arena. Esse aumento na taxa de amostragem deu a essas empresas uma vantagem injusta na competição.
Diante destes fatos, os autores do estudo estão pedindo à LM Arena que implemente mudanças para garantir que todos os modelos na arena apareçam no mesmo número de batalhas e que os testes privados sejam transparentes. Eles também sugerem que a LM Arena estabeleça um limite claro para o número de testes privados que os laboratórios de IA podem realizar e divulguem publicamente as pontuações desses testes.
Práticas antiéticas de poucos podem contaminar toda a área
As descobertas do estudo em questão têm implicações significativas para a comunidade de IA. Elas sugerem que o processo de benchmarking da LM Arena não é tão imparcial quanto afirma. Os autores argumentam que as práticas observadas prejudicam a integridade do Chatbot Arena e cria um campo de jogo desigual para laboratórios e startups menores de IA.
A LM Arena respondeu às alegações, dizendo que o estudo contém imprecisões e análises questionáveis. Porém, é inquestionável que as implicações deste estudo vão além da Chatbot Arena. Elas destacam a necessidade de maior transparência e responsabilidade nos processos de benchmarking de IA. Se as práticas observadas no estudo se tornarem comuns, isso poderá minar a integridade de todo o campo e criar uma competição manipulada que favorece os interesses de grandes corporações em detrimento de startups menores.