Please use this identifier to cite or link to this item: http://www.repositorio.ufop.br/handle/123456789/10336
Title: Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
Authors: Caldeira, Laís Soares
metadata.dc.contributor.advisor: Ferreira, Anderson Almeida
Keywords: Processamento de dados
Integração de dados - computação
Issue Date: 2018
metadata.dc.contributor.referee: Bianchi, Andrea Gomes Campos
Bianco, Guilherme Dal
Ferreira, Anderson Almeida
Citation: CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.
Abstract: A extensa variedade de informações disponíveis na Web motivou o desenvolvimento de aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada dos dados. Uma tarefa importante no processo de integração de dados é a Resolução de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas para reduzir o número de comparações criando blocos que contêm as instâncias propensas a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e na etapa de processamento de blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos que possibilitem encontrar o maior número de instâncias correspondentes, minimizando a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados, escalando eficientemente grandes coleções de dados altamente heterogêneos.
metadata.dc.description.abstracten: The extensive variety of information available on Web has motivated the development of applications that integrate heterogeneous data from different sources. Data integration aims to facilitate access to information providing a unified view of the data. An important task in the data integration process is Entity Resolution, which aims to identify instances that refer to the same real-world object. A simple Entity Resolution task may compare instances from a collection each other, which would be a very costly task for large collections. In this context, blocking techniques are used to reduce the number of comparisons by creating blocks of instances that are prone to correspond to the same entity in the real world, applying the Entity Resolution task only in these blocks. Block processing techniques further increase efficiency by discarding comparisons or even entire blocks involving nonmatching instances. In this work, we propose a way of choosing terms to be used in the blocking step and in the block processing step based on the relevance of the terms in the databases, in order to construct blocks that allow us finding the largest number of corresponding instances minimizing the amount of unnecessary comparisons. We assess our proposal comparing it against relevant works available in the literature. The results show that our proposal decrease the run time by half, increasing the efficiency and quality of the blocks generated, efficiently scaling large databases highly heterogeneous.
Description: Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
URI: http://www.repositorio.ufop.br/handle/123456789/10336
metadata.dc.rights.license: Autorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 04/10/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.
Appears in Collections:PPGCC - Mestrado (Dissertações)

Files in This Item:
File Description SizeFormat 
DISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf2,3 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons