Aprendizagem não supervisionada em machine learning
Já pensou em usar algoritmos que conseguem extrair padrões ocultos diretamente dos dados? Esse é o poder da aprendizagem não supervisionada.

Receba nossa newsletter

Machine Learning e aprendizagem não supervisionada

aprendizagem não supervisionada

Quando falamos de machine learning, a primeira coisa que vem a cabeça para muitos de nós são os algoritmos de aprendizagem supervisionada e suas extensas aplicações. Mas, para muitos problemas, as técnicas disponíveis de aprendizagem não supervisionada se destacam. Seus algoritmos são um universo dentro da área de machine learning e se dedicam a decifrar os segredos dos dados sem nenhuma orientação.

Existem inúmeros algoritmos de aprendizagem não supervisionada com graus variados de complexidade que podem ser aplicados nos mais diferentes cenários. Mas, antes de nos concentrarmos neles, é importante entender um pouco melhor o que eles têm em comum. Portanto, neste post, faremos uma introdução geral ao conceito de aprendizagem não supervisionada em machine learning.

O que é Aprendizagem Não Supervisionada?

A aprendizagem não supervisionada é um componente central no vasto ecossistema da aprendizagem de máquina. Em essência, ela se refere a algoritmos que aprendem padrões diretamente dos dados sem rótulos prévios ou supervisão. Portanto, a principal diferença entre os algoritmos de aprendizagem não supervisionada e aprendizagem supervisionada se refere a presença de dados rotulados. Algoritmos de aprendizagem não supervisionada não usam dados rotulados. Eles são treinados diretamente com dados brutos, não rotulados. E eles visam encontrar padrões ou estruturas ocultas que podem não ser evidentes de imediato.

aprendizagem de máquina

Padrões ocultos do conjunto de dados MNIST revelados com t-SNE (t-Distributed Stochastic Neighbor Embedding), um algoritmo de aprendizagem nao supervisionada (fonte).

Tipos de Algoritmos de Aprendizagem Não Supervisionada

Clustering

O clustering é uma das abordagens de aprendizado de máquina não supervisionadas mais populares. Ele consiste em uma técnica para explorar dados brutos e não rotulados e dividi-los em grupos (clusters). Algoritmos de clustering dividem os dados em grupos através da identificação de estruturas ou padrões semelhantes em dados não categorizados. Existem vários tipos de algoritmos de aprendizado não supervisionado usados para clustering. Eles incluem algoritmos de clustering exclusivo, sobreposto, hierárquico e probabilístico.

O clustering exclusivo é uma forma de agrupamento que estipula que um ponto de dados pode existir apenas em um cluster, o que também é chamado de agrupamento rígido. Esta técnica de aprendizagem não supervisionada é comumente usada em segmentação de mercado e agrupamento de documentos. O algoritmo K-means é um exemplo desse método de clustering.

clustering machine learning

Alguns exemplos de clustering (fonte).

Algoritmos de clustering sobrepostos, diferentemente das técnicas de clustering exclusivo, permitem que os pontos de dados pertençam a vários clusters com graus separados de associação. O agrupamento k-means suave ou difuso é um exemplo desta classe de algoritmos.

Algoritmos de clustering hierárquico agrupam os dados em clusters distintos com base em semelhanças, as quais são repetidamente mescladas e organizadas a partir de seus relacionamentos hierárquicos. Existem dois tipos principais de agrupamento hierárquico: agrupamento aglomerativo e divisivo. No agrupamento aglomerativo, os pontos de dados são isolados como agrupamentos separados inicialmente e, em seguida, são mesclados iterativamente com base na similaridade até que um cluster seja alcançado. Já no agrupamento divisivo um único cluster de dados é dividido a partir das diferenças entre os pontos de dados.

Técnicas de clustering probabilístico agrupam os dados considerando a probabilidade de cada ponto de dados pertencer a um cluster. Essa abordagem difere dos outros métodos, que agrupam pontos de dados com base em suas semelhanças com os outros pontos de dados em um cluster.

regras de associação

Algoritmos  de regras de associação também são conhecidos como mineração de regras de associação. Eles consistem em uma abordagem baseada em regras para revelar relações entre pontos de dados em grandes conjuntos de dados. Estes algoritmos procuram associações (regras) frequentes do tipo ifthen, para descobrir correlações e co-ocorrências nos dados. 

Algoritmos de regras de associação são comumente usados para analisar cestas de varejo ou conjuntos de dados transacionais para extrair a frequência com que certos itens são comprados juntos. Eles revelam padrões de compra dos clientes e relacionamentos ocultos entre produtos que ajudam a informar os mecanismos de recomendação sobre oportunidades de vendas cruzadas.

técnicas de redução de dimensionalidade

A redução de dimensionalidade é o processo de reduzir o número de recursos em um conjunto de dados, preservando o máximo de informações essenciais. Essa técnica é útil tanto para melhorar o desempenho de algoritmos de machine learning quanto para a visualização de dados complexos. Um exemplo importante de algoritmo de redução de dimensionalidade é a PCA (principal component analysis). 

PCA é um método de transformação linear que visa reduzir a dimensionalidade do conjunto de dados, preservando o máximo da variância original. Seu algoritmo faz isso identificando um novo conjunto de variáveis não correlacionadas, chamadas componentes principais, que são combinações lineares das características originais.

MNIST PCA

Exemplo do uso de PCA para redução de dimensionalidade do conjunto de dados MNIST (fonte).

Aplicações da Aprendizagem Não Supervisionada

Os algoritmos de aprendizagem não supervisionada têm muitas aplicações importantes. Eles são frequentemente empregados em sistemas de recomendação para sugerir produtos ou filmes com base nas preferências dos usuários, melhorando plataformas de e-commerce e streaming. Eles também são usados na clusterização de documentos, dados médicos e outros conjuntos de dados grandes.

Alguns algoritmos de aprendizagem não supervisionada também são usados na detecção de anomalias. Para isso, eles aprendem os padrões normais e podem identificar outliers ou coisas suspeitas num conjunto de dados.

Desafios e Limitações

O aprendizado não supervisionado é fundamental para descobrir a estrutura subjacente nos dados, especialmente quando não há rótulos ou conhecimento prévio disponível. No entanto, os algoritmos de aprendizagem não supervisionada possuem certos desafios: determinar o número correto de clusters ou identificar anomalias pode ser difícil sem dados rotulados. Esta dificuldade pode comprometer seus resultados. Eles também são menos precisos na previsão de resultados do que seus pares supervisionados, pois aprendem apenas sobre padrões, não sobre relações causa-efeitos.

Imagem com IA Generativa – Dia 597

IA generativa - img597

Arte com IA generativa: imagem do dia

Todos os dias postamos um exemplo de imagem artística gerada com inteligência artificial.

Tutoriais

Postagens Mais Recentes

Outras Postagens Que Podem Interessar

Veja
Mais

Fique em contato

Se inscreva para receber nossa newsletter com novidades.

aprendiz artificial