Rotulação Automática de Grupos através de Aprendizagem de Máquina Supervisionada
Aprendizagem de Máquina, Agrupamento, Rotulação, Redes Neurais Artificiais.
O problema de agrupamento (clustering) tem sido alvo de muitos pesquisadores sendo considerado como um dos problemas mais relevantes dentre aqueles existentes na área de pesquisa de aprendizagem não-supervisionada (subárea de Aprendizagem de Máquina). Embora o desenvolvimento e aprimoramento de algoritmos que solucionam esse problema tenha sido o principal foco de muitos pesquisadores o objetivo inicial se manteve obscuro: a compreensão dos grupos formados. Tão importante quanto a identificação dos grupos (clusters) é a compreensão e definição dos mesmos. Uma boa definição de um cluster representa um entendimento significativo do mesmo e pode ajudar o especialista ao estudar ou interpretar dados. Frente ao problema de compreender clusters – isto é, de encontrar uma definição ou em outras palavras, um rótulo – este trabalho apresenta uma definição para esse problema, denominado problema de rotulação, além de uma solução baseada em técnicas com aprendizagem de supervisionada, não-supervisionada e um modelo de discretização. Dessa forma, o problema é tratado desde sua concepção: o agrupamento de dados. Para isso, um método com aprendizagem não-supervisionada é aplicado ao problema de clustering e então um algoritmo com aprendizagem supervisionada irá detectar quais atributos são relevantes para definir um dado cluster. Adicionalmente, algumas estratégias são utilizadas para formar uma metodologia que apresenta em sua totalidade um rótulo (baseado em atributos e valores) para cada grupo fornecido. Finalmente, os resultados dessa metodologia são aplicados e analisados em quatro bases de dados distintas.