Agentes e LLMs: a combinação que está revolucionando a IA

Posts Relacionados:

Gemini 1.5: acesse a API do melhor LLM do Google com Python

Novo LLM Phi-4 da Microsoft: o pequeno notável

LLaMA 3.3: nova IA eficiente e econômica da Meta

22.01.25

Os grandes modelos de linguagem (LLMs) já dominam o mundo da inteligência artificial (IA). Mas agora, para adquirir novas habilidades, eles têm sido reforçados com agentes.

Receba nossa newsletter

Os grandes modelos de linguagem (LLMs) já reinam absolutos no reino da inteligência artificial (IA). Mas agora, para adquirir novas habilidades, eles têm contado com a ajuda de agentes. Neste post, abordaremos o que são agentes no contexto dos LLMs e por que eles devem dominar o mundo da IA neste ano.

LLMs e agentes

LLMs são treinados em massivos conjuntos de dados. Uma vez treinados, eles respondem às interações com usuários inferindo as respostas a partir de seus dados de treinamento. Ou seja, eles não têm acesso a dados atuais nem a recursos específicos de que uma resposta pode precisar. Mediante técnicas como RAG, podemos fornecer documentos que auxiliam um LLM na realização de interações mais precisas. Mas, mesmo assim, um LLM comum – com ou sem RAG – não tem acesso a dados atuais. Consequentemente, todos nós que interagimos com LLMs rotineiramente sabemos que, apesar de suas capacidades, eles têm limitações importantes.

Se perguntarmos para um LLM a previsão do tempo para amanhã, é provável que ele alucine e não forneça uma resposta precisa. Isso ocorre porque essa questão, embora banal, requer que um LLM tenha acesso a uma API de pesquisa e saiba buscar corretamente a informação de que precisa para responder à solicitação. E muitos dos LLMs populares não possuem – ou não possuíam – esse tipo de recurso. Porém, essa limitação é facilmente superada com o uso de agentes.

Para responder corretamente sobre a previsão do clima para a sua cidade, um LLM equipado com um agente pode consultar diretamente a API do INPE e obter os dados em tempo real. Já um LLM convencional equipado com RAG dependeria de informações desatualizadas de sua base de conhecimento. Portanto, o acesso a APIs é uma das tarefas que os agentes podem desempenhar no contexto dos LLMs. Mas eles podem fazer muito mais do que isso.

O que são agentes no contexto dos LLMs?

Os agentes baseados em LLMs são sistemas avançados de IA. Eles utilizam os LLMs como cérebro ou centro de controle para executar tarefas complexas. Ou seja, no contexto dos LLMs, os agentes são sistemas de IA com recursos de raciocínio, planejamento, memória e meios para executar tarefas. Tipicamente, um agente é composto pelos seguintes componentes principais: núcleo do agente, módulo de memória, ferramentas e módulo de planejamento.

Estrutura de um agente baseado em LLM (fonte).

O núcleo de um agente

O núcleo de um agente é o módulo de coordenação central onde reside o LLM. Podemos pensar nele como o cérebro do agente. Ele contém suas metas e objetivos gerais. Além disso, ele recebe instruções, processa informações e toma decisões com base nos resultados do LLM. O núcleo também orquestra o uso de ferramentas e interage com o módulo de memória para atingir seus objetivos a partir de uma memória relevante. Esta memória é uma seção dinâmica que preenche os itens mais importantes de conversas anteriores com o usuário no momento da inferência.

O núcleo de um agente também pode conter uma descrição de sua persona. Embora não seja obrigatório, a descrição de uma persona pode incluir detalhes específicos sobre personalidade, informações sociais e outras informações demográficas. Essa descrição opcional é usada para direcionar o modelo para preferir o uso de determinados tipos de ferramentas ou estratégias para executar suas tarefas.

Módulo de memória

O módulo de memória armazena os registros internos do agente, incluindo pensamentos, ações, observações passadas do ambiente e interações entre o agente e o usuário. Existem dois tipos principais de memória: memória de curto prazo e memória de longo prazo.

A memória de curto prazo armazena informações de contexto sobre as situações atuais do agente. Ela consiste em informações mantidas com um armazenamento simples na memória.

A memória de longo prazo inclui os comportamentos e pensamentos passados do agente que precisam ser retidos e lembrados por um longo período. Esse tipo de memória geralmente usa um armazenamento de vetor externo (banco de dados vetorial) para fornecer informações relevantes para o agente, conforme necessário. Para obter essas informações, a memória requer mais do que recuperação baseada em similaridade semântica. Normalmente, uma informação é selecionada por um ranking composto de similaridade semântica, importância e outras métricas específicas.

Ferramentas

As ferramentas comumente consistem em APIs ou programas externos bem definidos que os agentes podem usar para executar tarefas ou ações específicas. Por exemplo, os agentes podem usar um pipeline RAG para gerar respostas com reconhecimento de contexto, uma API para acessar informações atuais, ou um interpretador de código para resolver tarefas de forma programática. Ou seja, as ferramentas aprimoram as capacidades do agente além das limitações do próprio LLM.

Módulo de Planejamento

O módulo de planejamento é fundamental na resolução de tarefas complexas. Para um agente baseado em LLM, essas tarefas podem ser abordadas usando uma combinação de duas técnicas: decomposição e reflexão ou crítica (planejamento com feedback).

Na decomposição de tarefas, o módulo de planejamento aproveitará um LLM para criar um plano detalhado que incluirá subtarefas para resolver uma questão complexa do usuário. Técnicas populares de decomposição de tarefas incluem a cadeia de pensamento (CoT) e a árvore de pensamentos. Elas podem ser definidas, respectivamente, como raciocínio de caminho único e raciocínio de vários caminhos. Ambas as técnicas, embora poderosas, não envolvem nenhum feedback. E essa ausência dificulta alcançar um planejamento de longo prazo para resolver tarefas complexas.

Para enfrentar o desafio de resolver tarefas com planejamento de longo termo, é possível implementar mecanismos que permitem que o modelo reflita iterativamente sobre seu plano de execução com base em ações e observações passadas. O objetivo deste procedimento é corrigir e melhorar os erros do passado iterativamente. Esse tipo de estratégia reflexiva é particularmente importante para a execução de tarefas complexas do mundo real, onde tentativa e erro são fundamentais. Técnicas como ReAct e Reflexion são alguns exemplos de estratégias usadas para fornecer reflexão e crítica aos agentes baseados em LLMs.

Esquema ilustrativo para reflexão em agentes. Neste procedimento, o modelo precisa “pensar” através de processos de feedback antes de responder (fonte).

Principais aplicações

Agentes LLMs podem ser usados em várias tarefas envolvendo tanto contextos específicos quanto situações complexas. Um de seus usos mais importantes é na execução de tarefas específicas para processamento de documentos e análise de dados. Eles também são excelentes em tarefas de conversação, como atendimento ao cliente e assistência virtual. Nestas situações, eles superam largamente o desempenho dos chatbots comuns, pois podem acessar dados atuais e informações relevantes para as consultar. Agentes também podem ser usados no apoio à tomada de decisões estratégicas em vários domínios. Portanto, as aplicações de agentes baseados em LLMs são praticamente infinitas.

Desafios

O desenvolvimento de agentes baseados em LLM continua em sua infância. Consequentemente, há muitos desafios e limitações que precisam ser superados. Um dos principais desafios é o planejamento de longo prazo, no qual os LLMs podem apresentar problemas irrecuperáveis durante uma interação. Os LLMs também são limitados no comprimento do contexto que podem suportar. Essa limitação pode levar a restrições nas capacidades do agente, como aproveitar a memória de curto prazo.

Além disso, agentes baseados em LLM recebem instruções mediante prompts e, em consequência, são suscetíveis a técnicas como injeções de prompts. Uma solução potencial envolve o uso de estratégias avançadas de prompting incluindo a presença de LLMs que atuam como guardiões.

Outro problema comum com LLMs é a alucinação, que também é prevalente com agentes baseados em LLMs. Como esses agentes contam com a linguagem natural para interagir com componentes externos, informações conflitantes podem levar a alucinações e problemas de factualidade.

Conclusões

Agentes baseados em LLM são o tópico do momento. Com estrutura complexa e poderosa, eles possuem possibilidades de aplicações quase infinitas. Consequentemente, eles oferecem uma ótima oportunidade para desenvolvedores aproveitarem ao máximo o poder dos LLMs através de combinações variadas. Embora o uso de agentes baseados em LLMs ainda tenha limitações importantes, com criatividade, bons LLMs disponíveis gratuitamente e engenharia de prompt cuidadosa, podemos construir aplicativos fantásticos e – muito importante – de baixo custo.