A evasão estudantil nas universidades vem se apresentando como um problema recorrente
e preocupante no mundo ao longo dos anos. Essa situação se torna algo ainda mais
alarmante no Brasil em suas universidades públicas com orçamento oriundo dos cofres da
nação, problema esse não limitado ao prejuízo financeiro, mas também social e acadêmico.
Diminuir a evasão se torna uma ação importante nas universidades, sendo de grande
ajuda um mecanismo para classificar alunos ativos na sua predisposição para evadir. Esse
trabalho se propõe a classificar e prever um discente ativo como “Evadido” ou "Formado",
podendo assim os interessados redirecionarem esforços para evitar que o discente evada.
Serão utilizados 4 estudos de casos: o primeiro utilizando dados do curso de Ciência da
Computação da Universidade Federal do Piauí (UFPI); o segundo com os discentes do
curso de Sistemas de Informação e o terceiro caso com a analise ocorrendo com a os dois
cursos anteriores. A metodologia abordada segue os conceitos de Knowledge Discovery in
Databases (KDD) como guia na obtenção de um modelo preditivo e de conhecimentos no
processo. O KDD descreve o processo de coleta dos dados, pré-processamento e, por fim, a
mineração dos dados utilizando algoritmos de aprendizagem de máquina. São utilizados
7 algoritmos muito utilizados na literatura, comparando-os do decorrer das análise. O
modelo treinado é validado com métricas importantes como Accuracy, Recall, Precision,
F1 Score, Índice Kappa e curva ROC.