consumindo linked data na web - enucompmusic brainz (data incubator) moseley folk discogs (data...

12
Consumindo Linked Data na Web Dener Silva Miranda 1 , Lucas Lourenço de Sousa Azevedo 1 , Regis Pires Magalhães 1,2 1 Universidade Federal do Ceará (UFC) Departamento de Computação 2 Instituto Federal do Piauí (IFPI) Campus Parnaíba {dener, lucas.lourenco}@lia.ufc.br, [email protected] Abstract. The web provides a huge volume of documents that require human participation to understand these data. Search engines display results that still require human intervention to get relevant information. Linked Data is a promi- sing technology of the Semantic Web based on a set of principles that form the basis for the dissemination and use of the web of data. The use of these princi- ples enables the linking of data on the Web to make it a huge global data space. Since 2007 several datasets from various domains have been published accor- ding with these principles, generating a growing volume of data and hence a demand for their consumption. This article provides a conceptual and practice base related to the consumption of Linked Data, where its foundations are pre- sented and discussed the tools needed for developing applications. It also pre- sents applications that benefit from using data published according with these principles and addresses the challenges and limitations associated with the use of Linked Data. Resumo. A web provê um enorme volume de documentos que exigem a par- ticipação humana para a compreensão desses dados. Mecanismos de busca exibem resultados que ainda necessitam da intervenção humana para obtenção de informações relevantes. Linked Data é uma promissora tecnologia da Web Semântica baseada em um conjunto de princípios que formam a base para a difusão e uso da Web de Dados. O uso desses princípios possibilita a interliga- ção de dados na Web para torná-la um enorme espaço de dados global. Desde 2007 vários conjuntos de dados dos mais diversos domínios têm sido publica- dos de acordo com estes princípios, gerando um volume crescente de dados e, consequentemente, uma demanda por seu consumo. Este artigo provê uma base conceitual e prática relacionada ao consumo de Linked Data, onde são apresen- tados os seus fundamentos e discutidas ferramentas para consumo de tais dados necessários para o desenvolvimento de aplicações. Apresenta ainda aplicações que se beneficiam do uso de dados publicados de acordo com esses princípios, além de tratar das limitações e desafios associados ao consumo de Linked Data. 1. Introdução A Web atual deixou de ser apenas um espaço global de documentos interligados e está se tornando um enorme espaço global de dados vinculados constituído de bilhões de triplas RDF que cobrem os mais variados domínios [Heath and Bizer 2011]. Esta nova Web,

Upload: others

Post on 15-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

Consumindo Linked Data na Web

Dener Silva Miranda1, Lucas Lourenço de Sousa Azevedo1, Regis Pires Magalhães1,2

1Universidade Federal do Ceará (UFC)Departamento de Computação

2Instituto Federal do Piauí (IFPI)Campus Parnaíba

{dener, lucas.lourenco}@lia.ufc.br, [email protected]

Abstract. The web provides a huge volume of documents that require humanparticipation to understand these data. Search engines display results that stillrequire human intervention to get relevant information. Linked Data is a promi-sing technology of the Semantic Web based on a set of principles that form thebasis for the dissemination and use of the web of data. The use of these princi-ples enables the linking of data on the Web to make it a huge global data space.Since 2007 several datasets from various domains have been published accor-ding with these principles, generating a growing volume of data and hence ademand for their consumption. This article provides a conceptual and practicebase related to the consumption of Linked Data, where its foundations are pre-sented and discussed the tools needed for developing applications. It also pre-sents applications that benefit from using data published according with theseprinciples and addresses the challenges and limitations associated with the useof Linked Data.

Resumo. A web provê um enorme volume de documentos que exigem a par-ticipação humana para a compreensão desses dados. Mecanismos de buscaexibem resultados que ainda necessitam da intervenção humana para obtençãode informações relevantes. Linked Data é uma promissora tecnologia da WebSemântica baseada em um conjunto de princípios que formam a base para adifusão e uso da Web de Dados. O uso desses princípios possibilita a interliga-ção de dados na Web para torná-la um enorme espaço de dados global. Desde2007 vários conjuntos de dados dos mais diversos domínios têm sido publica-dos de acordo com estes princípios, gerando um volume crescente de dados e,consequentemente, uma demanda por seu consumo. Este artigo provê uma baseconceitual e prática relacionada ao consumo de Linked Data, onde são apresen-tados os seus fundamentos e discutidas ferramentas para consumo de tais dadosnecessários para o desenvolvimento de aplicações. Apresenta ainda aplicaçõesque se beneficiam do uso de dados publicados de acordo com esses princípios,além de tratar das limitações e desafios associados ao consumo de Linked Data.

1. IntroduçãoA Web atual deixou de ser apenas um espaço global de documentos interligados e está setornando um enorme espaço global de dados vinculados constituído de bilhões de triplasRDF que cobrem os mais variados domínios [Heath and Bizer 2011]. Esta nova Web,

Page 2: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

denominada Web de Dados, visa pavimentar o caminho para a Web Semântica funcional,onde haverá a disponibilidade de uma grande quantidade de dados vinculados em formatoRDF. Sua implementação é baseada nos princípios Linked Data delineados pelo diretorgeral do W3C, o pesquisador Tim Berners-Lee. De fato, Linked Data é um conjunto demelhores práticas para publicação e conexão de dados estruturados na Web, permitindoestabelecer links entre itens de diferentes fontes de dados para formar um único espaçode dados global.

1.1. MotivaçãoA Web de Dados cria inúmeras oportunidades para a integração semântica de dados, fo-mentando o desenvolvimento de novos tipos de aplicações e ferramentas. Muito esforçotem sido despendido pela comunidade para o desenvolvimento de navegadores, mecanis-mos de busca e outras ferramentas específicas para consumo de dados vinculados. Taisesforços têm revelado desafios a serem superados para o uso efetivo da Web de Dados, oque tem aumentado o interesse de pesquisa nesta área.

Inúmeras iniciativas voltadas para fomentar a criação da Web de Dados surgi-ram nos últimos anos, como por exemplo, o projeto Linking Open Data (LOD)1 que é umesforço comunitário iniciado em 2007 e suportado pelo W3C para identificar fontes de da-dos publicadas sob licenças abertas, convertê-las para RDF e publicá-las na Web usandoos princípios de Linked Data. Em outubro de 2010, este projeto havia publicado 207conjuntos de dados compostos de mais de 28 bilhões de triplas RDF e aproximadamente395 milhões de links RDF englobando os mais variados domínios como informações ge-ográficas, censo, pessoas, empresas, comunidades online, publicações científicas, filmes,músicas, livros, além de outros [Bizer et al. 2011]. A figura 1 mostra um diagrama denuvem com as fontes de dados publicadas pelo projeto LOD e as interligações entre elasem setembro de 2010.

Consumir e integrar dados na web de documentos é uma tarefa complexa, poisfalta um modelo capaz de estruturar e interligar esses dados. Linked Data, por outro lado,surge como uma alternativa viável para reduzir essa complexidade a partir da adoção depadrões abertos e melhores práticas para minimizar os problemas mencionados. Dessemodo, é possível prover um meio de consumo de dados, não só para humanos, mas tam-bém para as aplicações.

Este artigo apresenta uma fundamentação sólida para consumir dados na Web deacordo com os princípios de Linked Data. A seção 2 inicia com a apresentação destesprincípios e dos conceitos básicos relacionados a eles. A seção 3 aborda o consumode dados seguindo esses princípios, inclusive apresentando as ferramentas e aplicaçõesatualmente usadas para consumir Linked Data. A seção 4 apresenta as limitações dastecnologias existentes e os desafios e oportunidades de pesquisa relacionados ao consumode Linked Data. Por fim, a seção 5 faz um breve resumo do trabalho e estabelece algumasconsiderações finais.

2. Fundamentos de Linked DataLinked Data é um conjunto de melhores práticas para publicação e interligação de da-dos estruturados na Web, permitindo estabelecer links entre itens de diferentes fontes de

1http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Page 3: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

As of September 2010

MusicBrainz

(zitgist)

P20

YAGO

World Fact-book (FUB)

WordNet (W3C)

WordNet(VUA)

VIVO UFVIVO

Indiana

VIVO Cornell

VIAF

URIBurner

Sussex Reading

Lists

Plymouth Reading

Lists

UMBEL

UK Post-codes

legislation.gov.uk

Uberblic

UB Mann-heim

TWC LOGD

Twarql

transportdata.gov

.uk

totl.net

Tele-graphis

TCMGeneDIT

TaxonConcept

The Open Library (Talis)

t4gm

Surge Radio

STW

RAMEAU SH

statisticsdata.gov

.uk

St. Andrews Resource

Lists

ECS South-ampton EPrints

Semantic CrunchBase

semanticweb.org

SemanticXBRL

SWDog Food

rdfabout US SEC

Wiki

UN/LOCODE

Ulm

ECS (RKB

Explorer)

Roma

RISKS

RESEX

RAE2001

Pisa

OS

OAI

NSF

New-castle

LAAS

KISTIJISC

IRIT

IEEE

IBM

Eurécom

ERA

ePrints

dotAC

DEPLOY

DBLP (RKB

Explorer)

Course-ware

CORDIS

CiteSeer

Budapest

ACM

riese

Revyu

researchdata.gov

.uk

referencedata.gov

.uk

Recht-spraak.

nl

RDFohloh

Last.FM (rdfize)

RDF Book

Mashup

PSH

ProductDB

PBAC

Poké-pédia

Ord-nance Survey

Openly Local

The Open Library

OpenCyc

OpenCalais

OpenEI

New York

Times

NTU Resource

Lists

NDL subjects

MARC Codes List

Man-chesterReading

Lists

Lotico

The London Gazette

LOIUS

lobidResources

lobidOrgani-sations

LinkedMDB

LinkedLCCN

LinkedGeoData

LinkedCT

Linked Open

Numbers

lingvoj

LIBRIS

Lexvo

LCSH

DBLP (L3S)

Linked Sensor Data (Kno.e.sis)

Good-win

Family

Jamendo

iServe

NSZL Catalog

GovTrack

GESIS

GeoSpecies

GeoNames

GeoLinkedData(es)

GTAA

STITCHSIDER

Project Guten-berg (FUB)

MediCare

Euro-stat

(FUB)

DrugBank

Disea-some

DBLP (FU

Berlin)

DailyMed

Freebase

flickr wrappr

Fishes of Texas

FanHubz

Event-Media

EUTC Produc-

tions

Eurostat

EUNIS

ESD stan-dards

Popula-tion (En-AKTing)

NHS (EnAKTing)

Mortality (En-

AKTing)Energy

(En-AKTing)

CO2(En-

AKTing)

educationdata.gov

.uk

ECS South-ampton

Gem. Norm-datei

datadcs

MySpace(DBTune)

MusicBrainz

(DBTune)

Magna-tune

John Peel(DB

Tune)

classical(DB

Tune)

Audio-scrobbler (DBTune)

Last.fmArtists

(DBTune)

DBTropes

dbpedia lite

DBpedia

Pokedex

Airports

NASA (Data Incu-bator)

MusicBrainz(Data

Incubator)

Moseley Folk

Discogs(Data In-cubator)

Climbing

Linked Data for Intervals

Cornetto

Chronic-ling

America

Chem2Bio2RDF

biz.data.

gov.uk

UniSTS

UniRef

UniPath-way

UniParc

Taxo-nomy

UniProt

SGD

Reactome

PubMed

PubChem

PRO-SITE

ProDom

Pfam PDB

OMIM

OBO

MGI

KEGG Reaction

KEGG Pathway

KEGG Glycan

KEGG Enzyme

KEGG Drug

KEGG Cpd

InterPro

HomoloGene

HGNC

Gene Ontology

GeneID

GenBank

ChEBI

CAS

Affy-metrix

BibBaseBBC

Wildlife Finder

BBC Program

mesBBC

Music

rdfaboutUS Census

Figura 1. Diagrama de nuvem Linking Open Data, por Richard Cyganiak e AnjaJentzsch. http://lod-cloud.net/

dados para formar um único espaço de dados global [Heath and Bizer 2011]. Os dadospublicados na Web de acordo com essas melhores práticas podem ser processados por má-quinas, possuem significado explicitamente definido e podem estar ligados a outras fontesde dados. As melhores práticas relacionadas à Linked Data foram inicialmente propostaspor [Berners-Lee 2006] e ficaram conhecidas como os princípios de Linked Data que sãoenumerados a seguir:

1. Usar URIs como nomes para coisas.2. Usar URIs HTTP para que as pessoas possam procurar esses nomes.3. Quando alguém procurar uma URI, prover informação útil, usando os padrões

(RDF, SPARQL).4. Incluir links para outras URIs, de modo que possam permitir a descoberta de mais

coisas.

Esses princípios fornecem a base para a publicação e interligação de dadosestruturados na Web. Posteriormente, eles foram estendidos por documentos ori-ginados a partir das experiências da comunidade de Linked Data [Bizer et al. 2007,Sauermann and Cyganiak 2008], resultando em boas práticas de publicação e consumode Linked Data.

Para facilitar o entendimento da Web de dados, podemos estabelecer um paralelocom a Web de documentos que já conhecemos. A Web de dados pode ser acessada apartir de navegadores RDF, assim como os navegadores HTML são usados para acessar aWeb de documentos. Enquanto na Web de documentos usamos links HTML para navegarentre diferentes páginas, na Web de dados os links RDF são usados para acessar dados

Page 4: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

de outras fontes. Portanto, os links de hipertexto são capazes de conectar os documentos,assim como os links RDF interligam os dados.

Além disso, a Web de documentos está alicerçada em um pequeno conjunto depadrões: um mecanismo de identificação global e único (URIs - Uniform Resource Iden-tifiers), um mecanismo de acesso universal (HTTP - Hypertext Transfer Protocol) e umformato de conteúdo amplamente usado (HTML - Hypertext Markup Language). Demodo semelhante, a Web de dados também tem por base alguns padrões bem estabeleci-dos como: o mesmo mecanismo de identificação usado na Web de documentos (URIs),um modelo de dados comum (RDF) e uma linguagem de consulta para acesso aos dados(SPARQL). Esses padrões serão abordados a seguir:

URIsUniform Resource Identifier – são identificadores únicos e globais para os recursos naweb: documentos, imagens, arquivos, serviços, caixas de email eletrônico e outros. Elestornam os recursos disponíveis sob uma variedade de esquemas de nomeação e métodosde acesso como HTTP, FTP e E-Mail. No contexto de Linked Data, URIs identificamobjetos do mundo real e conceitos abstratos, devendo ser dereferenciáveis, ou seja, o cli-ente HTTP solicita a URI usando o protocolo HTTP e recupera uma descrição do recursoidentificado pela URI.

HTTPO protocolo HTTP é o mecanismo de acesso universal à web que provê recuperação dorecurso especificado. Assim, segundo os princípios de Linked Data as URIs são derefe-renciáveis sobre o protocolo HTTP em uma descrição do objeto ou conceito identificado.

RDFA utilização um modelo de dados comum – modelo RDF – torna possível a imple-mentação de aplicações genéricas capazes de operar sobre o espaço de dados global[Heath and Bizer 2011]. O modelo RDF [Manola and Miller 2004] é um modelo de dadosdescentralizado, baseado em grafo e extensível, possuindo um alto nível de expressividadee permitindo a interligação entre dados de diferentes fontes. Os dados são descritos naforma de triplas com sujeito, predicado e objeto, onde o sujeito é uma URI, o objeto podeser uma URI ou um literal e o predicado é uma URI que define como sujeito e predicadoestão relacionados. Essa relação que o predicado estabelece entre o sujeito e o objeto dásignificado aos dados.

Quando o objeto também é um recurso, ele estará relacionado a dados que podemou não, fazer parte do mesmo conjunto de dados. No contexto de Linked Data os RDFlinks estabelecem relacionamentos entre os dados de diferentes conjuntos de dados. Se umRDF link conecta URIs em espaço de nomes distintos, ele termina conectando recursosem diferentes fontes de dados [Heath and Bizer 2011]. A interligação de triplas atravésde RDF Links motivaram o surgimento da expressão Linked Data. A figura 2 apresentaum exemplo de RDF link onde o recurso que identifica o pesquisador Tim Berners-Leena fonte DBPedia é ligado ao recurso na fonte DBLP que o identifica. A propriedadehttp://www.w3.org/2002/07/owl#sameAs define que os recursos interligados representama mesma entidade do mundo real.

O armazenamento de dados no modelo RDF pode ser realizado através de grafoem memória, arquivo texto ou banco de dados específico para armazenamento de tri-

Page 5: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

Sujeito: http://dbpedia.org/resource/Tim\_Berners-LeePredicado: http://www.w3.org/2002/07/owl\#sameAsObjeto: http://www4.wiwiss.fu-berlin.de/dblp/resource/person/100007

Figura 2. Exemplo de RDF link

plas RDF, chamado de RDF Triple Store. O armazenamento de triplas em arquivo textousa algum formato de serialização de RDF, como RDF/XML, Notation3 (N3), Turtle ouNTriples.

Protocolo e Linguagem SPARQLConsultas à Web de dados podem ser realizadas através da linguagem SPARQL[Prud’hommeaux and Seaborne 2008], que é a linguagem de consulta padrão da Web Se-mântica para recuperação de informações contidas em grafos RDF. No entanto, SPARQLnão é somente uma linguagem de consulta declarativa, mas também um protocolo[Clark et al. 2008] usado para enviar consultas e recuperar resultados através do proto-colo HTTP. Fontes de dados Linked Data tipicamente fornecem um SPARQL Endpointque é um serviço Web com suporte ao protocolo SPARQL. Esse serviço possui uma URIespecífica para receber requisições HTTP com consultas SPARQL e retornar os resultadosdessas consultas.

3. Consumo de Linked DataURIs, palavras-chave e consultas SPARQL são usados como ponto de partida para o con-sumo de Linked Data. Assim, todas as aplicações que consomem a Web de dados usamdireta ou indiretamente pelo menos um desses itens. Segundo [Heath and Bizer 2011]o consumo de Linked Data é realizado basicamente através de dois tipos de aplicações:aplicações genéricas que fazem uso de Linked Data de qualquer domínio e aplicações dedomínio específico que são especificamente desenvolvidas para lidar com Linked Datarelacionado a um determinado domínio.

3.1. Aplicações genéricas para consumo de Linked Data

Aplicações genéricas para consumo de Linked Data permitem o consumo de dados re-lacionados a múltiplos domínios distribuídos pelo amplo espaço de dados global. Aopercorrer os RDF Links é possível explorar e descobrir novas informações na web de da-dos. A seguir serão abordados alguns tipos de aplicações genéricas normalmente usadaspara acessar Linked Data.

3.1.1. Navegadores Linked Data

Tendo em vista o grande aumento do volume de dados publicados de acordo com osprincípios de Linked Data, surgiu a necessidade de ferramentas para prover visualiza-ções e meios de navegar sobre esses dados adequados aos seres humanos. Essa demandaimpulsionou o surgimento de navegadores Linked Data que processam as informaçõesencontradas na web de dados sobre um recurso específico e as exibem na forma de pági-nas HTML com links para navegar entre os recursos. Assim, o usuário dessas ferramentaspode percorrer e descobrir informações na web de dados ao seguir os RDF Links. A seguirdescreveremos alguns desses navegadores.

Page 6: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

Disco Hiperdata Browser2 é um navegador RDF simples. A partir de uma URIfornecida pelo usuário, ele retorna todos os predicados e objetos das triplas em que a URIpesquisada aparece como sujeito, listando as fontes onde cada tripla está armazenada.Permite a navegação entre os recursos retornados, além de links para suas páginas, quandoexistentes. A figura 3 mostra o resultado do dereferenciamento da URI que identifica opesquisador Marco A. Casanova na fonte DBLP.

Figura 3. Navegador Disco exibindo dados sobre uma URI

Tabulator3 [Berners-Lee et al. 2006, Berners-Lee et al. 2007] é um navegador dedados genéricos. Usando tabelas, ele fornece uma maneira de procurar dados RDF naweb. Pode ser usado como um complemento do Firefox, permitindo que este lide comdados assim como lida com documentos.

Lena4 provê a navegação por dados RDF de acordo com uma ou mais formas devisualizar os dados do seu repositório. Essa forma de visualização é chamada de Lens.Cada Lens possui um domínio especificando que URIs podem ser visualizadas. O usuáriopode criar suas próprias Lens usando SPARQL como forma de seleção do domínio da Lensa ser criada. Lena também dá suporte à publicação desses dados através do frameworkSesame5 que será abordado na seção 3.3.

2http://www4.wiwiss.fu-berlin.de/rdf_browser/3http://dig.csail.mit.edu/2005/ajar/ajaw/tab4http://code.google.com/p/lena/5http://www.openrdf.org/

Page 7: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

3.1.2. Mecanismos de Busca Linked Data

O acesso à Web de Dados pode ocorrer a partir de mecanismos de busca específicos ca-pazes de realizar pesquisas que levam em consideração a semântica dos dados. Esses me-canismos de busca permitem localizar recursos de diferentes fontes normalmente atravésde palavras-chave. A consulta pode ser realizada pelo usuário através de uma interfaceweb ou através de serviços web providos pelos mecanismos de busca. Mecanismos debusca Linked Data percorrem a Web de dados seguindo os links entre as fontes de dadose fornecendo a possibilidade de consultas sobre os dados dessas fontes. Os resultados dasbuscas são URIs que podem ser dereferenciadas e visualizadas através dos navegadoresRDF. Atualmente há vários mecanismos de busca Linked Data. A seguir apresentaremosalguns deles.

Sindice6 [Oren et al. 2008] coleta dados estruturados na Web (RDF, RDFa e mi-croformatos) e os indexa por URIs, propriedades funcionais inversas (IFPs) e palavras-chave, oferecendo uma interface Web para que os usários possam fazer buscas a partirdos itens indexados. Sindice também fornece um SPARQL Endpoint que permite a reali-zação de consultas sobre todos os seus dados e uma API para permitir a utilização de seusserviços por desenvolvedores de aplicações.

Sig.ma7 [Tummarello et al. 2010] busca dados estruturados a partir de umapalavra-chave e os exibe em uma única página, integrando os dados de múltiplas fontes. Avisão criada pelo Sig.ma baseia-se em resultados fornecidos pelo Sindice. O usuário podeaprovar, rejeitar ou acrescentar fontes para estabelecer uma visão dos dados relevantes.Ao selecionar uma entidade da lista de resultados, uma nova visão é apresentada ao usuá-rio. Um link permanente pode ser criado para futuros acessos ou compartilhamento dessavisão. As filtragens das fontes de dados realizadas pelos usuários coletivamente ajudam aclassificar melhor a relevância das fontes e aperfeiçoar a qualidade dos resultados futuros.Além da interface web do usuário, Sig.ma ainda fornece uma API destinada aos desenvol-vedores de aplicações. A figura 4 ilustra o resultado de uma consulta sobre a pesquisadoraVânia Vidal envolvendo dezesseis fontes, onde quatro delas foram rejeitadas.

VisiNav8 pode ser usado para consultar e navegar na web de dados através de dife-rentes visões (tabela, grafo, mapa, linha de tempo) sobre os dados especificados. Os dadosno VisiNav consistem de objetos que possuem atributos ou links para outros objetos. Ini-cialmente uma lista de objetos é obtida a partir de palavras-chave digitadas pelo usuário.Essa lista pode ser filtrada a partir do arrastar e soltar de objetos sobre as restrições járealizadas.

Watson9 [d’Aquin et al. 2007] e Swoogle10 [Ding et al. 2004] são mecanismos debusca mais voltados para a descoberta de informações sobre ontologias. Podem ser usa-dos, por exemplo, para obter ontologias que possuem determinados conceitos e descobrirrelacionamentos entre termos.

Outras aplicações genéricas6http://sindice.com/7http://sig.ma/8http://visinav.deri.org/9http://watson.kmi.open.ac.uk/WatsonWUI/

10http://swoogle.umbc.edu/

Page 8: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

Figura 4. Visão criada pelo Sig.ma sobre a pesquisadora Vânia Vidal

Informações adicionais sobre determinado recurso podem ser obtidas através da locali-zação de objetos referenciados pelas propriedades rdfs:seeAlso e owl:sameAs.Serviços online de coreferenciamento como o sameAs11 são usados para encontrar URIsde diferentes fontes de dados que representam um mesmo conceito.

LDSpider12 é um framework capaz de navegar pela web de dados seguindo linkspara obter dados de fontes Linked Data e os armazenar em uma RDF Store através deSPARQL Update ou como arquivo RDF.

3.2. Aplicações de domínio específico para consumo de Linked Data

Várias aplicações têm sido desenvolvidas para integrar Linked Data em domínios especí-ficos. Essas aplicações são chamadas de Linked Data Mashups. A seguir descreveremosalgumas delas.

Revyu13 é um site de críticas e classificações feito usando padrões e tecnologiasda Web Semântica e de acordo com os princípios de Linked Data. Revyu permite ana-lisar e dar opiniões sobre qualquer item. Um diferencial em relação a outros sistemassemelhantes é a possibilidade de agregar informações de outras fontes.

DBPedia Mobile14 [Becker and Bizer 2008] é uma aplicação cliente centrada emlocalização baseada no DBpedia feita para dispositívos móveis consistindo de um mapa,o navegador de Linked Data Marbles e um aplicativo habilitado para GPS. Baseado naposição atual de um dispositivo móvel, DBpedia Mobile apresenta um mapa contendoinformações provenientes da fonte de dados DBpedia sobre localidades próximas.

Talis Aspire 15 é um site que centraliza recursos chave de aprendizado provenientesde Universidades Britânicas. O serviço permite encontrar inúmeras publicações sobre os

11http://sameas.org12http://code.google.com/p/ldspider/13http://revyu.com/14http://beckr.org/DBpediaMobile/15http://www.talisaspire.com/

Page 9: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

mais variados assuntos.

BBC Programmes16 provê um identificador web, com páginas HTML associadase triplas RDF sobre todo programa transmitido, permitindo que outras equipes dentro daBBC incorporem estas páginas em sites de suporte dos programas, sites de estações TVe radios, e sites para programas familiares como comida, música e história natural. BBC-Music17 segue os mesmos princípios do BBC Programmes, e provê um identificador webpara todos os artistas de interesse da BBC. BBC Music utiliza a base de dados do Mu-sicbrainz e da DBPedia, assim, interligando na web e melhorando a integração de dadosdentro do site da BBC. A figura 5 apresenta informações sobre o cantor Eric Claptonobtidas através da aplicação BBC Music.

Figura 5. Visão criada pelo BBC Music sobre o cantor Eric Clapton

3.3. APIs para manipulação de Linked Data

A seguir descreveremos algumas APIs para manipulação de dados na web semântica quesão usadas no desenvolvimento de aplicações de domínio genérico ou específico paraconsumo de Linked Data.

Sesame18 e Jena19 são frameworks de web semântica implementados em Java quefornecem APIs para manipulação de grafos RDF.

Sesame permite armazenamento, consulta e manipulação de dados RDF. Alémdisso, o framework é extensível e configurável em relação a formas de armazenamento(memória e RDF store), mecanismos de inferência, formatos de arquivo RDF e linguagensde consulta (SPARQL e SeRQL).

Jena foi desenvolvido no HP Labs entre 2000 e 2009. Atualmente faz parte doprojeto Apache e suas principais características são: suporte a RDF, RDFa, RDFS, OWLe SPARQL; armazenamento de triplas RDF em memória, banco de dados relacional (Jena

16http://www.w3.org/2001/sw/sweo/public/UseCases/BBC/17http://www.w3.org/2001/sw/sweo/public/UseCases/BBC/18http://www.openrdf.org/19http://incubator.apache.org/jena/

Page 10: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

SDB) ou RDF store (Jena TDB); processamento de consultas SPARQL (Jena ARQ); dis-ponibilização de SPARQL Endpoint (Joseki ou Fuseki); disponibilização de mecanismosde inferência embutidos e interfaces para mecanismos de inferência externos.

Named Graphs API for Jena (NG4J)20 é uma extensão ao framework Jena paraanálise, manipulação e serialização de conjuntos de grafos nomeados representando osgrafos como modelos ou grafos do Jena. NG4J permite o armazenamento de grafos emmemória ou em banco de dados. Consultas SPARQL podem ser realizadas sobre os grafosnomeados.

O Semantic Web Client Library (SWClLib)21 [Hartig et al. 2009] faz parte doNG4J e é capaz de representar a web de dados como um único grafo RDF. Ele recupera in-formações dereferenciando URIs, seguindo links rdfs:seeAlso e consultando o mecanismode busca Sindice. O SWClLib considera todos os dados como um único conjunto globalde grafos nomeados, sendo usado na implementação de vários navegadores Linked Data.Os grafos recuperados são mantidos em um cache local para melhorar o desempenho debuscas futuras.

ARQ222 é uma biblioteca escrita em PHP que contempla armazenamento de Tri-plas RDF, SPARQL Endpoint e interface Linked Data em uma única ferramenta. As triplasRDF são armazenadas em um banco de dados MySQL. A infra-estrutura necessária parao funcionamento do ARQ2 é muito simples por requerer apenas um servidor Web comsuporte a PHP e um banco de dados MySQL, sendo facilmente encontrada em qualquerserviço de hospedagem Web.

4. Limitações e DesafiosEsta seção aborda limitações das tecnologias atuais e apresenta desafios que ainda pre-cisam ser superados para aperfeiçoar o consumo de Linked Data. As tecnologias atuaisrevelam deficiências como interfaces com o usuário ainda precárias; desempenho insa-tifatório nas consultas sobre múltiplas fontes de dados; instabilidade no acesso a essasfontes; acesso a links quebrados e descoberta de fontes de dados relevantes. Além disso,faltam estratégias bem definidas para garantir a privacidade dos dados e tratar restriçõessobre eles.

Já existem várias aplicações funcionais e em desenvolvimento que permitem con-sultas complexas na Web de Dados, porém, ainda existem muitas oportunidades de pes-quisa relacionadas a forma que os usuário poderão navegar por esses dados. Tornar essainteração intuitiva, simples e objetiva é um grande desafio.

Há algumas formas de consulta sobre mútiplas fontes Linked Data. Pode-se usarmaterialização dos dados em uma base centralizada, consultas federadas ou consulta ex-ploratória (link traversal). Aperfeiçoar ou mesmo integrar esses tipos de acessos para tirarproveito das vantagens de cada um é uma importante questão de pesquisa.

Criar ferramentas que permitam o mapeamento dos diversos vocabulários exis-tentes, para que seja possível identificar e escolher dados de fontes diferentes sobre umamesma entidade é uma oportunidade de pesquisa.

20http://www4.wiwiss.fu-berlin.de/bizer/ng4j/21http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/22http://arc.semsol.org/

Page 11: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

Permitir a criação, edição e manutenção de Linked Data por várias usuários é umdesafio. Outro desafio está relacionado à manutenção desses dados para evitar problemasde acesso a informações que não estejam mais disponíveis.

A Web de Dados é dinâmica e deve permitir que aplicações possam fazer atuali-zações e utilizar técnicas avançadas para a detecção de inconsistências. .

As possibilidades criadas por esses dados integrados podem infrigir os direitos deprivacidade dos usuários. Proteger os direitos dos indivíduos se torna difícil, pois os dadosestão em fontes descentralizadas e sob diversas jurisdições legais. Prover ferramentas paraexplicitar os direitos de cópia e reprodução sobre os dados é uma das lacunas no contextode Linked Data.

A web de dados é alimentada com dados provenientes dos mais diversos domínios,causando problemas quanto a confiabilidade e a qualidade daquilo que é disponibilizado.Determinar as informações mais relevantes, assim como detectar o que é verdadeiro e oque não é para melhorar a qualidade da informação, também são desafios que precisamser superados através de algum feedback do usuário ou mesmo de forma automatizada.

5. ConclusãoUtilizando os mecanismos de acesso padronizados disponibilizados como Linked Data, épossível ter acesso à fontes de dados ilimitadas, aproveitando assim, todo o potencial daweb. A quantidade de dados disponibilizados seguindo os padrões de Linked Data estãocrescendo muito rapidamente e já cobrem os mais variados domínios. Aplicações queutilizam estes dados já estão sendo utilizadas, para consumo de Linked Data. Além disso,com o fornecimento de dados estruturados na web, as práticas de Linked Data têm umpotencial muito grande de revolucionar a maneira de como estes dados serão consumidos.Porém ainda há muito a ser feito: uma interface mais interativa e de fácil uso para que ousuário possa consultar e navegar pela web de dados faz falta, assim como outros pontosque precisam ser melhor desenvolvidos, como desempenho de consultas e qualidade dosdados que são retornados.

ReferênciasBecker, C. and Bizer, C. (2008). DBpedia Mobile: A Location-Enabled Linked Data

Browser. In Linked Data on the Web (LDOW2008).

Berners-Lee, T. (2006). Linked Data - Design Issues. http://www.w3.org/DesignIssues/LinkedData.html.

Berners-Lee, T., Chen, Y., Chilton, L., Connolly, D., Dhanaraj, R., Hollenbach, J., Lerer,A., and Sheets, D. (2006). Tabulator: Exploring and Analyzing Linked Data on the Se-mantic Web. In In Procedings of the 3rd International Semantic Web User InteractionWorkshop (SWUI06, page 06.

Berners-Lee, T., Hollenbach, J., Lu, K., Presbrey, J., D’ommeaux, P. E., and Schraefel,M. (2007). Tabulator redux: Writing into the semantic web. Technical report, Schoolof Electronics and Computer Science, University of Southampton, Southampton, UK.

Bizer, C., Cyganiak, R., and Heath, T. (2007). How to Publish Linked Data on the Web.http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/.

Page 12: Consumindo Linked Data na Web - EnucompMusic Brainz (Data Incubator) Moseley Folk Discogs (Data In-cubator) Climbing Linked Data for Intervals Cornetto Chronic - ling America Chem2

Bizer, C., Jentzsch, A., and Cyganiak, R. (2011). State of the LOD Cloud. http://www4.wiwiss.fu-berlin.de/lodcloud/state/.

Clark, K. G., Feigenbaum, L., and Torres, E. (2008). SPARQL Protocol for RDF. http://www.w3.org/TR/rdf-sparql-protocol/.

d’Aquin, M., Baldassarre, C., Gridinoc, L., Angeletou, S., Sabou, M., and Motta, E.(2007). Characterizing knowledge on the semantic web with watson. In Evaluation ofOntologies and Ontology-Based Tools: 5th International EON Workshop.

Ding, L., Finin, T., Joshi, A., Pan, R., Cost, R. S., Peng, Y., Reddivari, P., Doshi, V.,and Sachs, J. (2004). Swoogle: a search and metadata engine for the semantic web.In Proceedings of the thirteenth ACM international conference on Information andknowledge management, CIKM ’04, pages 652–659, New York, NY, USA. ACM.

Hartig, O., Bizer, C., and Freytag, J.-C. (2009). Executing SPARQL Queries over the Webof Linked Data. In Bernstein, A., Karger, D., Heath, T., Feigenbaum, L., Maynard, D.,Motta, E., and Thirunarayan, K., editors, The Semantic Web - ISWC 2009, volume 5823of Lecture Notes in Computer Science, pages 293–309. Springer Berlin / Heidelberg.

Heath, T. and Bizer, C. (2011). Linked Data: Evolving the Web into a Global Data Space.Morgan & Claypool, 1st edition.

Manola, F. and Miller, E. (2004). RDF Primer. http://www.w3.org/TR/2004/REC-rdf-primer-20040210/.

Oren, E., Delbru, R., Catasta, M., Cyganiak, R., Stenzhorn, H., and Tummarello, G.(2008). Sindice.com: a document-oriented lookup index for open linked data. Int. J.Metadata Semant. Ontologies, 3:37–52.

O’Reilly, T. (2005). What is Web 2.0. http://oreilly.com/lpt/a/6228.

Prud’hommeaux, E. and Seaborne, A. (2008). SPARQL Query Language for RDF.http://www.w3.org/TR/rdf-sparql-query/.

Sauermann, L. and Cyganiak, R. (2008). Cool URIs for the Semantic Web.http://www.w3.org/TR/cooluris/.

Tummarello, G., Cyganiak, R., Catasta, M., Danielczyk, S., Delbru, R., and Decker, S.(2010). Sig.ma: Live views on the Web of Data. Web Semantics: Science, Servicesand Agents on the World Wide Web, 8(4):355 – 364. Semantic Web Challenge 2009;User Interaction in Semantic Web research.