Rubik's cubeApplied Data Mining

Algoritmos de mineração de dados são soluções gerais para problemas específicos. Para ser útil, eles têm que ser configurados e incluídos num processo de descoberta de conhecimento que é especificamente criado para a aplicação considerada. Esse processo, intrinsecamente iterativo e interativo, vai dos dados brutos até o conhecimento. O foco desse curso será no estudo dos vários estágios do processo, nas técnicas para implementá-los e nas ferramentas e plataformas existentes para tal. Diversas plataformas tentam ajudar esse processo e KNIME será usada como exemplo. A partir de dados reais, o aluno vai, nessa plataforma, criar um processo de descoberta de conhecimento que responde a um problema específico. Os alunos trabalharão em grupo e escolherão tanto o problema quanto os dados.

Index:

Objetivo

Capacitar os alunos a projetar e avaliar um processo de descoberta de conhecimento completo utilizando bases de dados reais.

Formatação

Oferta como turmas nas disciplinas de Tópicos em Ciência da Computação e Tópicos em Sistemas de Informação, com carga horária de 60 horas.

Ementa

Horário

Segundo semestre de 2019 - Segundas e quartas-feiras - 9h25 às 11h05 - Sala 1027 do ICEx.

Programa

O processo de descoberta de conhecimento

  1. Aspectos iterativo e interativo;
  2. Antes da mineração, o pré-processamento: exploração estatística, vieses comuns, tratamento dos valores que faltam, normalização, binning, seleção e construção de descritores relevantes, discretização, etc;
  3. A mineração: padrões locais (itemsets, regras de associação, etc.) e globais (classificação supervisionada e não supervisionada);
  4. Depois da mineração, o pós-processamento: avaliação objetiva da qualidade dos padrões, construção de padrões mais relevantes a partir de padrões locais, visualização, etc.

Prática

  1. Os comandos POSIX de processamento de arquivos de texto:
    1. Comandos simples mas muito eficientes: less, head, tail, shuf, cat, tr, wc, cut, paste, comm, join, sort, uniq, and grep;
    2. sed e awk.
  2. KNIME, uma plataforma para criar processos de descoberta de conhecimento:
    1. O processo visto como um fluxo;
    2. Exemplo de processo (tutorial).
  3. Uma aplicação específica:
    1. Escolher dados;
    2. Escolher um problema específico.
  4. Um processo que responde à aplicação específica:
    1. Desenhar o processo em KNIME;
    2. Justificar a escolha de cada estágio e da sua configuração;
    3. Interpretação dos resultados.

Muitas das aulas serão compostas de uma parte teórica e de uma parte prática. A parte teórica não detalhará os fundamentos teóricos dos algoritmos (os quais são cobertos em maior detalhe pelo curso "Mineração de dados"). O enfoque deste curso é somente apresentar uma grande variedade de técnicas, as vantagens/desvantagens delas e enfatizar aspectos como o escolho de seus parâmetros.

Avaliação

Avaliação do curso será através do projeto e os respectivos relatórios e apresentações associados a cada fase. O processo de descoberta de conhecimento terá que incluir ao menos um estágio não trivial (por exemplo um pré ou pós-processamento que não se pode efetuar facilmente com KNIME).

Além dessa avaliação por grupo, um exame prático avaliará a capacidade de cada aluno de processar arquivos de texto com comandos POSIX e perguntas individuais serão feitas sobre o projeto e sobre o conteúdo da disciplina. Este arquivo, atualizado ao longo do semestre, contém as perguntas teóricas que serão feitas e o script que será usado para escolhê-las de forma aleatória.

Bibliografia

Suporte de apresentação

  1. The pattern discovery process (fonte Beamer)
  2. Data exploration (fonte Beamer)
  3. Dependence between attributes (fonte Beamer)
  4. From correlation to causation (fonte Beamer)
  5. Pre-processes, visualizations and statistics with KNIME (fonte Beamer)
  6. Simple but powerful text-processing commands (fonte Beamer)
  7. Selecting lines (fonte Beamer)
  8. sed (fonte Beamer)
  9. awk (fonte Beamer)
  10. A few words about efficiency (fonte Beamer)
  11. Four "traditional" data mining tasks (fonte Beamer)
  12. Similarities (fonte Beamer)
  13. Clustering (fonte Beamer)
  14. Technical reports and talks (fonte Beamer)
  15. Itemset mining (fonte Beamer)
  16. Association rule mining (fonte Beamer)
  17. Supervised classification (fonte Beamer)
  18. The golf metaphor (fonte Beamer)
Valid
							       HTML
							       4.01
							       Strict Valid
								      CSS