Ferreira, Anderson AlmeidaFigueiredo, Leandro Neiva Lopes2015-11-262015-11-262015FIGUEIREDO, Leandro Neiva Lopes. Um método baseado em informações de renderização para extração de dados de páginas web. 2015. 75 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2015.http://www.repositorio.ufop.br/handle/123456789/5840Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.A extração de dados de páginas web é uma importante tarefa para várias aplicações, como comparadores de preços, bibliotecas digitais e mineradores de dados. Grande parte dos dados necessários para essas aplicações é disponibilizada através de páginas de resultado de busca, onde cada resultado, chamado de search result record, representa um registro de um banco de dados. Um dos passos mais importantes para extrair esses registros é identificar, dentre as diferentes regiões de dados de uma página, aquela que contém os registros a serem extraídos, ou seja, a principal região de dados. Uma identificação errada dessa região pode resultar em uma extração incorreta dos search result records. Outro passo importante é a detecção e a separação de cada registro dentro dessa principal região de dados, bem como de seus respectivos atributos. Nesse trabalho, é proposto um método que, baseado nas informações de renderização dos elementos da página de resultado de busca, seleciona a sua principal região de dados e extrai seus registros e atributos. Experimentos utilizando páginas de vários domínios de aplicação mostram que o método é efetivo e competitivo em relação a alguns métodos já existentes.pt-BRUm método baseado em informações de renderização para extração de dados de páginas web.DissertacaoAutorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 23/11/2015 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite a adaptação.