News

Banca de DEFESA: MARCEL RAIMUNDO DE SOUZA MOURA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: MARCEL RAIMUNDO DE SOUZA MOURA
DATA: 27/03/2020
HORA: 08:00
LOCAL: Sala de Vídeo-Conferência PPGCC
TÍTULO: CAIBAL - Class-Attribute Interdependency Based 1 Automatic Labeler
PALAVRAS-CHAVES: Rotulação, Agrupamento, Discretização
PÁGINAS: 78
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Sistemas de Computação
ESPECIALIDADE: Arquitetura de Sistemas de Computação
RESUMO:

O clustering (agrupamento de dados) por métodos não-supervisionados é uma área de pesquisa relevante em Aprendizado de Máquina. O objetivo do clustering é agrupar os objetos de um conjunto de dados de modo que cada grupo seja constituído por aqueles similares, que possuem características que os tornam agrupáveis e essas mesmas caracterís- ticas devem ser suficientes em distingui-los de outros grupos. Para que o clustering seja factível, a tarefa de interpretação dos grupos é necessária e diante disso surge o problema de rotulação. A rotulação automática resulta em tuplas compostas por atributos e suas respectivas faixas de valores. Cada cluster deve ter uma quantidade de tuplas capaz de fornecer uma identificação única para todos os objetos, de modo que sejam distinguíveis entre si por atributos representativos distintos ou faixas de valores diferentes para um mesmo atributo. Este trabalho apresenta um método não-supervisionado de rotulação de clusters que emprega o algoritmo de discretização CAIM (Class-Attribute Interdependency Maximization)a fim encontrar faixas de valores representativas nos atributos que serão relevantes para interpretação dos clusters. Nos atributos numéricos contínuos do conjunto de dados é utilizada uma discretização que considera o índice de interdependência entre estes atributos e os clusters formados na fase de agrupamento. Do processo de discretização dos atributos resultarão faixas de valores que serão analisadas e comparadas com os valores ocorrentes dos atributos em cada cluster, para determinar os atributos e faixas de valores representativas. Estes atributos e faixas de valores expressivos formarão o rótulo para cada cluster. O modelo proposto nessa pesquisa buscou obter um método que mitigasse as limitações observadas em outros trabalhos que propunham rotulação automática de clusters. Os testes resultam em uma acurácia média dos rótulos sugeridos de 98.03% considerando todas as bases de dados testadas. Estes rótulos são constituídos por poucos atributos e em muitos casos um atributo é suficiente para defini-los.


MEMBROS DA BANCA:
Externo à Instituição - ANNE MAGALY DE PAULA CANUTO - UFRN
Interno - 1350246 - KELSON ROMULO TEIXEIRA AIRES
Interno - 1579396 - RODRIGO DE MELO SOUZA VERAS
Presidente - 1446435 - VINICIUS PONTE MACHADO
Notícia cadastrada em: 21/02/2020 10:35
SIGAA | Superintendência de Tecnologia da Informação - STI/UFPI - (86) 3215-1124 | © UFRN | jbdocker01.instancia1 07/11/2024 21:17