Please use this identifier to cite or link to this item: http://www.repositorio.ufop.br/handle/123456789/10677
Title: Estimando similaridade entre entidades quando apenas seus nomes estão disponíveis.
Authors: Sousa, Priscila Sad de
metadata.dc.contributor.advisor: Ferreira, Anderson Almeida
Keywords: Integração de dados - computação
Dados da web
Issue Date: 2018
metadata.dc.contributor.referee: Assis, Guilherme Tavares de
Pereira, Denilson Alves
Ferreira, Anderson Almeida
Citation: SOUSA, Priscila Sad de. Estimando similaridade entre entidades quando apenas seus nomes estão disponíveis. 2018. 64 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.
Abstract: A similaridade pode refletir a relação ou significado entre dois conceitos ou entidades, por exemplo. Uma entidade pode ser algo físico ou lógico, podendo ser descrita em função de atributos cujos valores informam as características específicas da entidade, diferenciando-nas uma das outras, como por exemplo a entidade artigo científico e alguns de seus atributos, nome, palavras-chaves, resumo. Estimar a similaridade entre entidades desempenha um papel importante em várias tarefas, como, por exemplo, expansão de consultas, desambiguação e recomendação de entidades. Identificar a similaridade entre entidades por meio dos nomes, como entre títulos de artigos científicos, pode não ser viável a partir, apenas, da comparação direta ou usando abordagens de similaridade baseadas em conhecimento. A Web, por outro lado, traz uma grande variedade de dados sobre diversos assuntos e é de livre acesso, sendo uma fonte de dados viável para auxiliar na verificação de similaridade entre um par de nomes de entidades em diversos domínios. Neste trabalho, é proposto um método para calcular a similaridade entre dois nomes de entidades, baseado na comparação direta e nas características inferidas a partir de dados obtidos da Web com modelagem de tópicos e com o auxílio de termos de gênero. Os experimentos mostram que o método é capaz de verificar a similaridade entre nomes de entidades, mesmo entre aqueles que compartilham poucos ou mesmo nenhum termo, superando o método utilizado como baseline.
metadata.dc.description.abstracten: Similarity may reflect the relation or meaning between two concepts or entities. An entity can be something physical or logical and described based in attributes which values inform the specific characteristics of the entity, differentiating one from each other. Name, keywords and abstract are attributes of a scientific paper entity. Estimating the similarity between entities plays an important role in several tasks, such as query expansion, disambiguation, and entity recommendation. Identifying the similarity between entities using names, for instance, between titles of scientific articles, may not be feasible from either direct comparison or using knowledge-based similarity approaches. On the other hand, the Web brings a wide variety of data about several subjects and is freely accessible, making it a data source feasible to assist in checking for similarity between names of entities from different domains. In this work, we propose a method to estimate the similarity between entities based on their names and to direct compare and infer characteristics from data obtained from the Web along with topic modeling and the aid of genre-aware. The experiments show that the method is able to check the similarity between entity names, even they share few or no term, outperforming the baseline.
Description: Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
URI: http://www.repositorio.ufop.br/handle/123456789/10677
metadata.dc.rights.license: Autorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 11/02/2019 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.
Appears in Collections:PPGCC - Mestrado (Dissertações)

Files in This Item:
File Description SizeFormat 
DISSERTAÇÃO_EstimandoSimilaridadeEntidades.pdf2,39 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons