Applied Data Mining

Algoritmos de mineração de dados são soluções gerais para problemas específicos. Para ser útil, eles têm que ser configurados e incluídos num processo de descoberta de conhecimento que é especificamente criado para a aplicação considerada. Esse processo, intrinsecamente iterativo e interativo, vai dos dados brutos até o conhecimento. O foco desse curso será no estudo dos vários estágios do processo, nas técnicas para implementá-los e nas ferramentas e plataformas existentes para tal. Diversas plataformas tentam ajudar esse processo e KNIME será usada como exemplo. A partir de dados reais, o aluno vai, nessa plataforma, criar um processo de descoberta de conhecimento que responde a um problema específico. Os alunos trabalharão em grupo e escolherão tanto o problema quanto os dados.

Index:

Objetivo
Formatação
Ementa
Horário

Programa
Avaliação
Bibliografia
Suporte de apresentação

Objetivo

Capacitar os alunos a projetar e avaliar um processo de descoberta de conhecimento completo utilizando bases de dados reais.

Formatação

Oferta como turmas nas disciplinas de Tópicos em Ciência da Computação e Tópicos em Sistemas de Informação, com carga horária de 60 horas.

Ementa

Processo de descoberta de conhecimento
Tarefas em mineração de dados
Pré-processamento simples dos dados com comandos POSIX
Configuração dos algoritmos de mineração de dados
Prática numa plataforma de mineração de dados

Horário

Primeiro semestre de 2025 - Segundas e quartas-feiras - 14h55 às 16h35 - Sala 2012 do ICEx.

Programa

O processo de descoberta de conhecimento

Aspectos iterativo e interativo;
Antes da mineração, o pré-processamento: exploração estatística, vieses comuns, tratamento dos valores que faltam, normalização, binning, seleção e construção de descritores relevantes, discretização, etc;
A mineração: padrões locais (itemsets, regras de associação, etc.) e globais (classificação supervisionada e não supervisionada);
Depois da mineração, o pós-processamento: avaliação objetiva da qualidade dos padrões, construção de padrões mais relevantes a partir de padrões locais, visualização, etc.

Prática

Os comandos POSIX de processamento de arquivos de texto:
1. Comandos simples mas muito eficientes: less, head, tail, shuf, cat, tr, wc, cut, paste, comm, join, sort, uniq, and grep;
2. sed e awk.
KNIME, uma plataforma para criar processos de descoberta de conhecimento:
1. O processo visto como um fluxo;
2. Exemplo de processo (tutorial).
Uma aplicação específica:
1. Escolher dados;
2. Escolher um problema específico.
Um processo que responde à aplicação específica:
1. Desenhar o processo em KNIME;
2. Justificar a escolha de cada estágio e da sua configuração;
3. Interpretação dos resultados.

Muitas das aulas serão compostas de uma parte teórica e de uma parte prática. A parte teórica não detalhará os fundamentos teóricos dos algoritmos (os quais são cobertos em maior detalhe pelo curso "Mineração de dados"). O enfoque deste curso é somente apresentar uma grande variedade de técnicas, as vantagens/desvantagens delas e enfatizar aspectos como a escolha de seus parâmetros.

Avaliação

Avaliação do curso será através do projeto e os respectivos relatórios e apresentações associados a cada fase. O processo de descoberta de conhecimento terá que incluir ao menos um estágio não trivial (por exemplo um pré ou pós-processamento que não se pode efetuar facilmente com KNIME).

Além dessa avaliação por grupo, um exame prático avaliará a capacidade de cada aluno de processar arquivos de texto com comandos POSIX e perguntas individuais serão feitas sobre o projeto e sobre o conteúdo da disciplina. Este arquivo, atualizado ao longo do semestre, contém as perguntas teóricas que serão feitas e o script que será usado para escolhê-las de forma aleatória.

Bibliografia

M. Zaki and W. Meira Jr., Fundamentals of Data Mining Algorithms, Cambridge, 2014.
C. Aggarwal, Data Mining, Springer, 2015.
P. Tan, M. Steinbach, and V. Kumar, Introduction to Data Mining, Addison Wesley, 2006.
J. Han and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2nd Edition, 2007.
M. Berthold, C. Borgelt, F. Höppner and F. Klawonn, Guide to Intelligent Data Analysis, Springer, 2010.
Introduction to the Command Line.
Bash Guide for Beginners.
Documentação KNIME.
Outras plataformas livres de mineração de dados (Orange, H2O, Weka, Rattle, KEEL, ELKI, Massive Online Analysis, DataMelt, AlphaMiner, etc).