Processamento de Dados Massivos em Nuvem (2017-2)

Disciplina ofertada para o BCC, BSI, BMC e PPGCC. Maiores informações estarão disponíveis na página do curso no minha.ufmg no início do semestre.

Objetivo

Com o surgimento de diversas fontes que oferecem enormes volumes de dados, bem como outras que oferecem dados em tempo real, as demandas de processamento têm crescido de forma significativa e a nuvem é um ambiente normal de onde muitos dados se originam e onde eles acabam sendo processados. Ambientes de processamento como Hadoop e Spark se tornaram comuns e outros surgem a cada dia. Nesse contexto, esta disciplina pretende discutir os conceitos básicos relacionados com as áreas de Processamento de Dados Massivos (Big-data) e Computação em Nuvem, especialmente onde as duas se encontram. O foco será no entendimento dos ambientes de processamento envolvidos e do processo de desenvolvimento de aplicações big-data e em nuvem. Pré-requisitos Pela característica do curso, conhecimento anterior de processamento distribuído, como apresentado em AEDs 3 e/ou Sistemas Operacionais é pré-requisito. Isso normalmente significa ter cursado aquelas disciplinas, mas em casos excepcionais, conforme avaliação do professor, isso pode ser liberado.

Programa

  • Princípios essenciais de Redes de Computadores e Sistemas Distribuídos
  • Conceitos de infra-estrutura de datacenters
  • Introdução aos conceitos de virtualização e computação em nuvem
  • Introdução aos conceitos de processamento de dados massivos
  • Ambientes de big-data: hadoop, spark, processamento de streams
  • Ambientes de gestão de virtualização: OpenStack, CloudStack, etc.
  • Implantação e migração de máquinas virtuais e aplicações em nuvem
  • Consistência e confiabilidade em ambientes distribuídos
  • Desafios para implantação de processamento de dados massivos em nuvem

Material de consulta

Pela natureza do assunto, o curso será baseado em artigos científicos e outros documentos (blogs de desenvolvedores, artigos técnicos). Os alunos deverão ler e sumarizar, em média, dois artigos para cada aula.

Para os alunos que ainda não têm acesso ao moodle da disciplina, os artigos a serem lidos estarão disponíveis aqui. Nesse caso, os resumos devem ser enviados para o professor com o assunto/subject “[PDMN2017-2] artigo N” onde N é o número do artigo na lista a seguir:

  1. The Cost of a Cloud: Research Problems in Data Center Networks - Albert Greenberg, James Hamilton, David A. Maltz, Parveen Patel (para segunda, 14/08/2017)
  2. The Google File System - Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung (para quarta, 16/08/2017)
  3. MapReduce: Simplified Data Processing on Large Clusters - Jeffrey Dean, Sanjay Ghemawat (para quarta, 16/08/2017)

Avaliação

O processo de avaliação ainda está sendo finalizado, mas ele deve incluir, além da leitura dos artigos, um ou dois trabalhos práticos de curta duração e um trabalho final. O trabalho final para alunos da graduação pode ser feito em duplas. Alunos da pós-graduação ou matriculados como disciplina isolada deverão também apresentar um seminário sobre artigos recentes na área.