Curso de Pós-graduação em Ciência da Computação
Recuperação de Informação - Máquinas de Busca na Web (DCC923)

Última alteração: 13 de Janeiro de 2014

1º semestre de 2014
Carga horária: 60 horas
Pré-requisito para a disciplina: Algoritmos e Estruturas de Dados III
Horario : Segunda: 09:25 - 11:05, Quarta: 09:25 - 11:05
Professores: Berthier Ribeiro-Neto e Nivio Ziviani
Monitor: Sabir Ribas

Introdução

Recuperação de Informação (RI) é a atividade de recuperar itens de informação armazenados em um meio que possa ser acessado por computador. Um item de informação é geralmente constituído de texto (tais como documentos diversos, páginas Web, livros, etc.), embora possa conter outros tipos de dados tais como fotografias, gráficos e figuras. RI lida com a representação, armazenamento, organização e acesso a itens de informação. A representação e organização dos itens de informação deve prover ao usuário acesso facilitado à informação de seu interesse.

O principal objetivo da disciplina é estudar algoritmos e estruturas de dados para sistemas de busca e de recomendação na Web. Uma máquina de busca localiza documentos a partir das necessidades de informação colocadas pelo usuário, por meio de uma consulta formal. Em máquinas de busca, essa necessidade de informação deve primeiro ser traduzida em termos de um conjunto de palavras chave que são então usados na formulação de uma consulta. Dada a consulta do usuário, o objetivo maior de uma máquina de busca é obter informação que é útil ou relevante para o usuário. Um sistema para recomendação na Web visa surpreender o usuário recomendando itens escolhidos com base no perfil do usuário. O perfil do usuário pode ser inferido pelo sistema ou fornecido pelo usuário. Um sistema de recomendaçáo deve ser capaz de identificar o melhor casamento entre o interesse do usuário e itens disponíveis.

Objetivos Específicos da Disciplina

O objetivo principal da disciplina é investigar o projeto e implementação de técnicas e ferramentas que possibilitem o desenvolvimento de máquinas de busca para a WWW. Ao final do curso o aluno deverá conhecer em profundidade os principais componentes de uma máquina de busca para documentos Web. Além disso, são estudados tópicos adicionais tais como classificação de textos e algoritmos utilizados em sistemas de recomendação.

A disciplina terá três objetivos principais:

Estudar os coletores de páginas Web.
Estudar técnicas para geração de um índice para coleções de documentos web.
Estudo e implementação dos principais modelos de recuperação de informação disponíveis na literatura. Esses modelos correspondem as estratégias de ranking implementadas pelas máquinas de busca.

Cada aluno terá que construir protótipos de dois dos três principais componentes de uma máquina de busca para a Web: indexador e processador de consultas. A partir de um conjunto de páginas coletadas da Web deverá ser criado um índice para ser utilizado pelo processador de consultas.

Programa

Coleta: arquitetura de um coletor de páginas web, principais problemas envolvidos.
Indexação: Arquivos invertidos e listas invertidas, compressão de textos, compressão de listas invertidas.
Modelagem: Modelos de RI, modelos clássicos de RI (booleano, vetorial e probabilístico), BM25, language meodels, generalized vector space model, set-based model.
Relevance Feedback: Vector model, clicks, local analysis.
Avaliação da Recuperação: Precisão e revocação, coleções de referência, paradigma de Cranfield, bpref, Kendall-Tau, crowdsourcing, clickthrough data.
Consultas: Consultas lógicas, consultas ordenadas por relevância, estruturas de acesso ao vocabulário, busca sequencial no vocabulário, busca exata e aproximada.
Calssification: machine learning, unsupervised and supervised algorithms, feature selection, evaluation metrics.
Properties of documents: Modeling natural languages, elimination of stopwords, keyword selection, taxonomies, compression.
Sistemas de recomendação: definição do problema; algoritmos: colaborativos, baseados em conteúdo e híbridos; exemplos de algoritmos.

Bibliografia Básica

Ricardo Baeza-Yates and Berthier Ribeiro-Neto: Modern Information Retrieval, Addison Wesley, 2011, 913 pages, Second edition.
Ian H. Witten, Alistair Moffat e Timothy C. Bell: Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers, 1999, second edition.
F. Ricci, L. Rokach, B. Shapira, P.B. Kantor (eds): Recommender Systems Handbook, Springer, 2011.
D. Jannach, M. Zanker, A. Felfernig and G. Friedrich: Recommender Systems An Introduction, Cambridge University Press, 2011.
Artigos técnicos especializados que serão fornecidos mais adiante.
Principais conferências:

World Wide Web Conference (WWW)
ACM SIGIR Conference on Research and Development in Information Retrieval
ACM RecSys Conference on Recommender Systems
String processing and Information Retrieval (SPIRE)
ACM CIKM Information and Knowledge Management
Conferências de bancos de dados: por ex. Very Large Data Bases (VLDB), SIGMOD

Principais periódicos:

ACM Transactions on Information Systems (TOIS)
ACM Transactions on Information Systems and Technology (TIST)
Journal of the American Society for Information Science and Technology (JASIST)
IEEE Transactions on Knowledge and Data Engineering (TKDE)
Information Management and Processing
Information Retrieval
World Wide Web Journal (w3j.com)

Avaliação da Aprendizagem

Os alunos serão avaliados por meio de:

Construção dos principais componentes de uma máquina de busca na web: indexador e processador de consultas. Cada alunos deve indexar páginas da Web e permitir que consultas sejam submetidas para a máquina de busca.
Duas provas
Seminários em sala de aula.

Acesso a Bibliotecas Online

Mais instruções no site www.biblioteca.icex.ufmg.br seguindo a opção Sites de Pesquisa dentro de links (ou com a bibliotecária).

Portal Periódicos da CAPES (permite acesso a várias bibliotecas, inclusive a todo IEEE, a partir de qualquer endereço da UFMG, podendo ser acessado via site da biblioteca do ICEx (www.biblioteca.icex.ufmg.br)
ACM: acesso a todas as publicações e conferências, de qualquer máquina do DCC/UFMG (www.acm.org/dl)
Computer Science Bibliography, permite busca por autor, titulo de papers em geral (www.acm.org/sigs/sigmod/dblp/db/)
IEEE: acesso a vários títulos da biblioteca online (www.computer.org), acesso via portal Periódicos da CAPES permite um acesso de cada vez, pegar senha com a bibliotecária
Web of Science: contém informação bibliográfica de três bancos de dados: Science Citation Index Expanded, Social Science Citation Index, Arts and Humanities Citation Index (www.webofscience.fapesp.br)
DBLP: computer science bibliography
USENIX: Advanced Computing Systems Association (www.usenix.org), pegar senha com a bibliotecária
Mathscinet (www.ams.org/mathscinet): acesso aos banco de dados Association Mathematical Society com cobertura nas áreas de matemática e computação, podendo ser acessado via site da biblioteca do ICEx (www.biblioteca.icex.ufmg.br)

Links úteis

Codigo para ser usado no TP1
Search Engines Information Retrieval in Practice
High Performance Index and Query Evaluation for IR

Programa para geração de curvas revocação vs. precisão

Aulas, Slides e TPs (calendário tentativo: pode mudar)

Aula	Mês	Dia	Assunto	Referência	TPs
01	Fev	03	Apres (Berthier e Nivio)	MIR Chap1, CursoRI
02		05	Indexing (Nivio)	Indexing	TP1 (E)
03		10	Indexing (Nivio)	Vocabulario
04		12	Index Compression (Nivio)	Index compression
05		17	Vocabulario (Nivio)	Perfect hashing
06		19	Ranking in IR, Boolean model (Berthier)	MIR Chap3
07		24	Term weighting, Vector model (Berthier)	MIR Chap3
08		26	Probabilistic model, Set-based model, BM25 model (Berthier)	MIR Chap3
09	Mar	10	Language models (Berthier)	MIR Chap3
11		12	Query processing (Nivio)	Querying	TP2 (E)
12		17	Query processing (Nivio)	Querying
13		19	Search evaluation I (Berthier)	MIR Chap4
14		24	Text compression (Nivio)	Text compression, Z8.2, MIR Chap6
15		26	Crawling (Nivio)	Olston-najork-2010 Crawling, MIR Chap12
16		31	Crawling (Nivio)	Olston-najork-2010 Crawling, SPIRE11, SPIRE13, Tese-Aecio
17		02	Pagerank (Sabir)	Paper, Pagerank, MIR Chap11
18		07	Prova 1
19		09	Recommender systems (Nivio)	RecSys
20		14	Search evaluation II (Berthier)	MIR Chap4
21		16	Text Classification (Berthier)	MIR Chap4
22		23	Recommender systems (Nivio)	RecSys	TP3 (E)
23		28	Text Classification (Berthier)	MIR Chap8
24		30	Text classification - evaluation (Berthier)	MIR Chap8
25	Mai	05	Parallel and Distributed IR (Berthier)	MIR Chap10.1, 10.2,10.3
26		07	Parallel and Distributed IR (Berthier)	MIR Chap10.1, 10.2,10.3
27		12	Seminarios 1 e 2	Lista de seminarios
28		14	Seminarios 3 e 4	Lista de seminarios
29		19	Seminarios 5 e 6	Lista de seminarios
30		21	Seminarios 7 e 8	Lista de seminarios
31		26	Prova 2

Nivio Ziviani | Departamento de Ciência da Computação |

Ensino

Curso de Pós-graduação em Ciência da Computação
Recuperação de Informação - Máquinas de Busca na Web (DCC923)

Introdução

Objetivos Específicos da Disciplina

Programa

Bibliografia Básica

Avaliação da Aprendizagem

Acesso a Bibliotecas Online

Links úteis

Aulas, Slides e TPs (calendário tentativo: pode mudar)

Nivio Ziviani | Departamento de Ciência da Computação |

Ensino

Curso de Pós-graduação em Ciência da Computação Recuperação de Informação - Máquinas de Busca na Web (DCC923)

Introdução

Objetivos Específicos da Disciplina

Programa

Bibliografia Básica

Avaliação da Aprendizagem

Acesso a Bibliotecas Online

Links úteis

Aulas, Slides e TPs (calendário tentativo: pode mudar)

Curso de Pós-graduação em Ciência da Computação
Recuperação de Informação - Máquinas de Busca na Web (DCC923)