O objetivo deste trabalho é projetar e implementar um sistema de programas para responder eficiente e eficazmente consultas realizadas sobre o índice gerado a partir dos programas do Trabalho Prático 1.
O sistema deverá:
O algoritmo normalmente utilizado para a implementação de consultas AND a
partir do modelo vetorial pode ser visto abaixo.
1. Inicialize a estrutura de acumuladores (A). 2. Ordene os termos da consulta a partir dos valores de f_t. 3. Calcule as similaridades entre documentos e consultas (a) Processe a lista invertida do primeiro termo (menor f_t}) da consulta de forma equivalente ao modelo vetorial padrão. (b) Para os outros termos t_i da consulta faça: i. Para cada dupla [d_j, tf_{i,j}] na lista do termo t_i faça: Se existe um acumulador para o documento d_j então faça: A_j = A_j + w_{i,j} * w_{i,q}, 4. Remova os acumuladores dos documentos que não possuam todos os termos da consulta. 5. Divida cada acumulador A_j pela norma do documento d_j. 6. Determine os k maiores acumuladores e retorne os documentos correspondentes.
As implementações deverão ser comparadas. Para realizar experimentos cada aluno deverá usar as coleções CACM, CISI e CFC em /pkg/texto2/collections/. Neste endereco estão os documentos (arquivos sgml), as consultas e os documentos relevantes relacionados com cada consulta.
Os experimentos devem medir:
[1] B. A. V. Pôssas. Set-Based Vector Space Model: A new Approach for Correlation Based Model.
Tese de Doutorado, Departamento de Ciência da Computação, UFMG, 22 de
agosto de 2005.
[2] S. E. Robertson and K. S. Jones. Relevance weighting of search terms.
Journal of the American Society for Information Science,
27(3):129-146, May-June 1976.
[3] S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, and M. Gatford.
Okapi at trec-3. In Proceedings of the Third Text
Retrieval Conference (TReC-3), pages 109-126. NIST Special Publication
500-225, April 1995.
[4] Ian H. Witten, Alistair Moffat e Timothy C. Bell:
Managing Gigabytes: Compressing and Indexing Documents and Images,
Morgan Kaufmann Publishers, 1999, second edition.
This document was generated using the LaTeX2HTML translator Version 2002-2-1 (1.71)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -split 0 ri05tp2
The translation was initiated by Nivio Ziviani on 2007-01-16