Como grande usuário de ferramentas de IA, sempre fiquei fascinado com seu potencial para revolucionar nossas vidas. No entanto, as notícias recentes levantam suspeitas sobre a real confiabilidade e precisão desses sistemas. E, entre elas, um problema crescente é o colapso de modelo.
O que é colapso de modelo?

Esse termo, tema de um artigo da Nature, se refere a um evento cada vez mais provável: modelos de IA, treinados com seus próprios resultados, perdem precisão, diversidade e confiabilidade. Portanto, o colapso de modelo é um processo degenerativo. E a razão para sua ocorrência é simples.
O colapso de modelo é particularmente comum quando diversas gerações de uma família de modelos generativos são treinadas com dados gerados por suas versões anteriores. Os dados gerados pelos modelos de gerações passadas acabam contaminando o conjunto de treinamento da geração seguinte. Treinados com dados contaminados, os novos modelos percebem a realidade incorretamente.
Conforme a internet é inundada por dados gerados por IA e, simultaneamente, é a principal fonte de dados para treinamento de IA, a probabilidade de um modelo novo ser treinado com dados de suas gerações passadas é muito alta.
Fontes de erros diversas
Na prática, três fontes específicas de erro podem causar desvio no comportamento de um modelo em relação ao comportamento do modelo original. O primeiro é o acúmulo de erros. Nele, cada geração de modelo herda e amplifica falhas de versões anteriores, fazendo com que as saídas se desviem dos padrões dos dados originais.
Outra fonte é a perda de dados da cauda. Durante o treinamento sucessivo de gerações de modelos, eventos raros são apagados dos dados de treinamento e, eventualmente, conceitos inteiros deixam de fazer parte do conjunto de treino.
Outra causa importante de erros são os loops de feedback. Eles reforçam padrões estreitos e contribuem para a criação de textos repetitivos ou recomendações tendenciosas.
Colapso de modelo: evento cada vez mais provável?
Todos sabemos que conteúdos gerados por IA já são uma parte muito significativa de tudo que é criado e disponibilizado na internet. Códigos, vídeos, músicas e textos gerados por IA inundam redes sociais, revistas, blogs e até as escolas e faculdades. Consequentemente, a chance de modelos de IA treinados com dados da internet serem expostos a dados gerados por eles mesmos é crescente. Por isso, já existem autores que preveem que os desempenhos dos modelos de IA devem piorar com o tempo.
Estratégias de mitigação?
Alguns pesquisadores argumentam que o colapso de modelo pode ser mitigado misturando dados sintéticos com conteúdos humano recém-criados. No entanto, essa abordagem apresenta seus próprios desafios e limitações. Com a pressão constante para gerar cada vez mais e mais conteúdos, as pessoas estão se vendo forçadas a recorrer à IA. Portanto, se essa tendência não mudar, cada vez mais o conteúdo presente na internet terá vindo de modelos de IA. Similarmente, vemos empresas priorizando eficiência operacional ($$$) sobre qualidade. Isso já leva a uma substituição dos trabalhadores por sistemas inteligentes, mesmo quando a consequência é a proliferação de saídas de IA de baixa qualidade.
As implicações
O colapso de modelo levanta importantes questões sobre o uso da IA em diversas aplicações. Erros em modelos de IA podem ter implicações vastas e severas. Portanto, devemos priorizar qualidade sobre quantidade e garantir que as ferramentas de IA sejam projetadas para produzir resultados precisos e confiáveis. No entanto, não é isso que temos observado. O que vemos é uma aceleração da expansão do uso de IA sem grandes preocupações com suas consequências. Aparentemente, vamos coletivamente investir cada vez mais em IA, até um ponto onde o colapso dos modelos nos afete fortemente e seja impossível ignorá-lo.
