Benchmarking de IA não perdoa nem o Pokémon

Quem conhece um pouco o fascinante mundo da inteligência artificial (IA) e, principalmente, os grandes modelos de linguagem (LLMs), já deve estar familiarizado com os benchmarking. Sempre usados como ferramenta de propaganda, o desempenho dos modelos de IA nos benchmarks já faz parte da rotina de lançamento das novas maravilhas. Mas um fato inédito tem chamado a atenção da comunidade de IA. Se antes os benchmarks consistiam em provas ou testes padronizados desenvolvidos por grandes empresas e universidades famosas, hoje qualquer coisa serve para afirmar que um modelo de IA é melhor do que o outro.
Nessa corrida maluca, frequentemente nos deparamos com resultados de benchmarking que nos deixam questionando as verdadeiras capacidades desses modelos de ponta. A mais recente controvérsia reportada pela TechCrush em torno da série de videogames Pokémon trouxe a atenção para essa questão mais uma vez.
Pokémon e a corrida maluca pelo melhor desempenho
Uma publicação viral no X/Twitter recente afirmou que o modelo Gemini do Google havia superado o modelo Claude, carro-chefe da Anthropic, na trilogia Pokémon original (fonte). Sim, é isso mesmo, os gênios da Anthropic e Google estão se digladiando para saber qual modelo se sai melhor jogando Pokémon!

Na disputa atual, o Gemini supostamente alcançou Lavender Town em uma transmissão da Twitch de um desenvolvedor. No entanto, como exploraremos mais adiante, esse feito aparentemente impressionante vem com uma ressalva crucial: Gemini tinha uma vantagem que distorcia os resultados.
Bom desempenho ou trapaça?
A chave para essa vantagem estava em um minimapa personalizado criado pelo desenvolvedor que mantinha a transmissão Gemini. Esse minimapa permitiu que o Gemini identificasse blocos no jogo, como árvores cortáveis, com mais eficiência do que Claude, o que reduziu a necessidade de o modelo analisar capturas de tela antes de tomar decisões de jogo.
As sutilezas dos desempenhos dos modelos de IA

A controvérsia sobre o jogo do Pokémon não é um incidente isolado. Ela faz parte de uma tendência mais ampla na pesquisa em IA. Diferentes implementações de benchmarks podem influenciar significativamente os resultados. A Anthropic, por exemplo, relatou duas pontuações para seu modelo Claude mais recente no benchmark SWE-bench Verified. A melhor pontuação foi obtida usando um teste personalizado desenvolvido pela própria empresa. Isso destaca a importância de considerar implementações não padronizadas ao comparar modelos.
Ou seja, os benchmarks de IA são medidas imperfeitas. Todos nós que usamos com frequência os LLMs disponíveis sabemos disso. As implementações personalizadas benchmarks de IA podem complicar ainda mais as coisas. Portanto, conforme os pesquisadores continuam a expandir os limites das capacidades de IA, é essencial reconhecer suas limitações e considerá-las ao avaliar o desempenho dos modelos.
Fique ligado para mais atualizações sobre os últimos desenvolvimentos em IA e Python, enquanto exploramos os tópicos e avanços mais interessantes dos principais veículos de notícias do mundo!