tema6,linked data

30
Linked Data [6.1] ¿Cómo estudiar este tema? [6.2] Principios básicos de Linked Data [6.3] Ejemplos de datasets en Linked Data [6.4] Guías para la creación de un dataset en Linked Data TEMA

Upload: jose-rob

Post on 09-Mar-2016

224 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: tema6,Linked Data

Linked Data

[6.1] ¿Cómo estudiar este tema?

[6.2] Principios básicos de Linked Data

[6.3] Ejemplos de datasets en Linked Data

[6.4] Guías para la creación de un dataset en Linked Data

T

EM

A

Page 2: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Esquema

Esquema

Page 3: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Ideas clave

6.1. ¿Cómo estudiar este tema?

Este tema presenta las ideas clave de la iniciativa Linked Data. Linked Data hace

referencia a una serie de guías de buenas prácticas para conectar datos en la

web procesables por las máquinas. Sus principios básicos fueron establecidos por el

inventor de la World Wide Web, Tim Berners-Lee en una nota publicada en la web del

W3C en el año 2006.

Usar URIs para identificar las cosas

Usar URIs HTTP

Incluir enlaces a otros URIs

Estos principios básicos son:

Ofrecer información sobre los recursos usando RDF

En una actualización posterior de la nota, identificaba un sistema de clasificación

de los datos existentes en la web, siguiendo un ranking de una a cinco estrellas

dependiendo de lo accesibles, procesables y enlazados que estuviesen esos datos.

En la actualidad existen ya numerosos data sets, o conjuntos de datos, incluidos

dentro de Linked Data. El punto de acceso de referencia a ellos es el archivo

mantenido por la iniciativa CKAN, la cual los clasifica en las siguientes categorías:

Cross-domain.

Geographic data.

Government.

Media.

Libraries and Education.

Life Sciences Data.

Retail and Commerce.

User Generated Content and Social Media.

Page 4: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

La inserción de un data set en Linked Data requiere del cumplimiento de los principios

anteriores. Existen una serie de recomendaciones y buenas prácticas que

pueden resultar de utilidad para que la aplicación de esos principios sea

realmente provechosa. Entre ellas podemos citar:

El ineludible principio básico de que estén basados en HTTP.

Usar sólo espacios de nombres bajo nuestro control

Usar identificadores que resulten naturales

Sobre el uso de URIs:

No incluir URIs que puedan depender de implementaciones concretas

Aquellas en las que el objeto sea un literal u otro recurso relacionado

Aquellas en las que el recurso sea el objeto por estar relacionado con otras entidades.

Las que describan la propia descripción o el data set del que forma parte

Sobre el uso de RDF se establecen recomendaciones sobre las triplas que se deben devolver cuando se resuelve la URI

de una entidad:

Las que describan recursos relacionados

Asegurarse recibir enlaces entrantes de fuentes reconocidas

Establece enlaces salientes a fuentes reconocidas y de interés

Sobre el establecimiento de enlaces:

Seleccionar predicados en las triplas de los enlaces procedentes de vocabularios reconocidos

Page 5: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Este tema tiene como finalidad que el alumno se familiarice con los conceptos

básicos de Linked Data. Para su estudio se utilizará como referencia algunos de los

capítulos del libro “Linked Data: Evolving the Web into a Global Data Space” escrito

por Tom Health y Christian Bizer. El alumno puede comenzar por leer el primer

capítulo de este libro que encontrará motivador para el lanzamiento de la iniciativa

Linked Data.

Los principios básicos de Linked Data se presentan en la sección siguiente de este

tema. El alumno interesado puede complementar la lectura de esa sección con el

capítulo 2 del libro de Health y Bizer, en donde encontrará un mayor detalle técnico

sobre los principios básicos que rigen Linked Data.

La sección 3 de este tema presenta algunos de los campos de aplicación más activos

hasta la fecha, desde la administración digital a los medios de comunicación. El alumno

puede leer los contenidos de esta sección y complementarla con el capítulo 3 del libro

del Health y Bizer. En el capítulo 6 podemos encontrar algunas aplicaciones que se

benefician de los data sets publicados en Linked Data.

Finalmente la sección 4 resume algunas recomendaciones de deben seguirse para la

creación de un “buen” data set en Linked Data. La lectura de esta sección debe

complementarse con los capítulos 4 y 5 del libro de Health y Bizer. Sin embargo,

solamente el alumno interesado debe detenerse en los detalles técnicos, puede por

ejemplo saltarse las secciones 4.3 y 4.4. Es suficiente con la adquisición de los

principales conceptos asociados a cada una de las buenas prácticas recomendadas.

6.2. Principios básicos de Linked Data

El término Linked Data hace referencia a una serie de buenas prácticas para publicar y

entrelazar datos en la web. Esta serie de buenas prácticas fue introducida, al

igual que el término Linked Data, por el propio Tim Berners-Lee en una nota

publicada en el sitio del W3C en el año 2006 y que se incluye aquí en la sección Lo +

Recomendado. Estos principios básicos son:

Usar URIs para identificar las cosas

Usar URIs HTTP

Ofrecer información sobre los recursos usando RDF

Incluir enlaces a otros URIs

Page 6: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

La aplicación de estos principios fomentará el crecimiento de la Web, tanto a nivel de

los documentos HTML (vista clásica de la Web), como a nivel de los datos

expresados en RDF (vista de la Web Semática).

Para conseguir tener los datos interconectados, como si la Web fuese una gran base

de datos, se deben respetar los cuatro pasos anteriores. Gracias a esta interconexión, se

permite reutilizar la información de cualquier manera esperada o inesperada, lo

que ofrece un valor añadido a la Web.

Usar URIs para identificar las cosas

Al nombrar los conceptos o cosas mediante URIs, se ofrece una abstracción del

lenguaje natural y así se consigue evitar ambigüedades y así ofrecer una forma estándar

y unívoca para referirnos a cualquier recurso.

Un ejemplo de esto puede observarse en la información geográfica. La posición de

los lugares puede representarse mediante coordenadas, información que puede ser

fácilmente interpretable por las personas o de forma automática. El problema surge

cuando debemos referirnos a un lugar por su topónimo, ya que éste puede variar en

función del idioma (Croacia, Croatia, Hrvatska, etc), de su representación (Republika

Hrvatska, Rep. de Croacia, etc.), u otros factores (Croacia, antigua República

Yugoslava).

Si usásemos el nombre para referirnos a los lugares, las

múltiples acepciones que podrían adoptar, dificultaría el

tratamiento automatizado de la información. De esta

forma, si utilizamos un identificador único como

http://dbpedia.org/resource/Croatia, cualquier aplicación se podría referir al mismo

lugar, independientemente de la ambigüedad del lenguaje natural.

Usar URIs HTTP

Ya que existen muchos esquemas de URIs, se pretende el uso de URIs sobre HTTP (p.e.

http://dbpedia.org/resource/Croatia) para asegurar que cualquier recurso pueda ser

buscado y accedido en la Web. Debe tenerse en cuenta que los URIs no son sólo

direcciones, son identificadores de los recursos.

Page 7: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Ofrecer información sobre los recursos usando RDF

Una vez que se busca y se accede a un recurso identificado mediante una URI HTTP, se

debe obtener información útil sobre dicho recurso, representada mediante

descripciones estándares en RDF. Se pretende que para cualquier conjunto de

datos o vocabulario, se ofrezca información relativa a la información que representa.

De esta forma, si una aplicación desea obtener información sobre un concepto

identificado mediante una URI, cuando hace una llamada HTTP para obtener el

recurso, debería obtener información fácilmente procesable en formato RDF.

De la misma forma, si se proveen puntos de consulta avanzada, como SPARQL, el

resultado ante una consulta podrá ser interpretado de forma automática.

El recurso que identifica a “Croacia” incluye información sobre esta nación. Si cualquier

aplicación quisiera hacer uso de la información que provee la DBpedia sobre este

recurso, simplemente debería obtener el recurso identificado como

“http://dbpedia.org/resource/Croatia” y obtendría todos los datos relativos a Croacia

(población, extensión del país, topónimos en distintos idiomas, etc.).

Incluir enlaces a otros URIs

La cuarta regla, enlazar datos en cualquier lugar, es necesaria para conectar los

datos que tenemos en sitios web de forma que no se queden aislados y así se pueda

compartir información con otras fuentes externas y que otros sitios puedan

enlazar los datos propios de la misma forma que se hace con los enlaces en HTML.

A través de la utilización de enlaces a recursos provenientes de sitios más

especializados en determinados dominios, se ofrece un valor añadido a la información

que se provee.

Algo a tener en cuenta es que los enlaces de los recursos mediante URIs, pueden

hacerse localmente y a través de toda la red. Por ejemplo, el recurso de la DBpedia

que representa a Croacia, puede tener una propiedad que representa la capital del

país, Zagreb, que también está representada mediante RDF e identificada por un URI

unívoco similar al de Croacia. En este caso, Zagreb se representa como

http://dbpedia.org/resource/Zagreb. De esta forma, ya aparecen dos recursos

enlazados, aunque se encuentran en el mismo servidor.

Page 8: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Algunos de los recursos relacionados con los lugares son las

fotografías, por lo que el recurso “Croacia” y “Zagreb”

incluyen una propiedad que enlaza el lugar con las

fotografías relacionadas, que se encuentran almacenadas en un almacén como

Flickr, que a su vez ofrece su información en RDF. De esta forma, se enlazan los datos

de lugares con las fotografías.

Gracias a estos mecanismos, cualquier recurso es susceptible de ser enriquecido con

cualquier tipo de información especializada, incluso la que no se espera que sea

combinable. De forma inversa, al publicar información en RDF y utilizando URIs,

cualquiera podría hacer referencia a esos datos.

Clasificación de datos en la web

En el año 2010, Tim Berners-Lee incluyó una clasificación basada en estrellas, de una

a cinco, al igual que en los hoteles, que permite catalogar los datos publicados en la

web.

1. Los datos están disponibles en la web bajo licencia abierta

2. Disponibles de forma estructurada para que puedan ser interpretados por una máquina (e.g. Excel en lugar de una tabla escaneada) 3. Igual que (2) pero usando formatos no propietarios (e.g. CSV en lugar de Excel)

4. Todo lo anterior más: usando estándares del W3C (RDF y SPARQL) para identificar las cosas, de forma que otros puedan referenciarlas de forma sencilla.

5. Todo lo anterior más: los datos están enlazados a otros datos externos para ofrecer contexto.

La clasificación es estrella es la siguiente:

El anterior sistema de cinco estrellas permite clasificar los datos existentes en la

web. Obviamente el objetivo es que todos los datos tengan la máxima clasificación de 5

estrellas.

Page 9: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

6.3. Ejemplos de datasets en Linked Data

Los principios básicos de la Web de Datos, aunque válidos en cualquier escenario,

están siendo aplicados con éxito sobre todo en el ámbito de las administraciones

públicas. Existen por ejemplo Open Government Data Initiatives, el ePSI , el Etalab, y

además gobiernos como los de Reino Unido , Estados Unidos y Francia han decidido

exponer sus datos públicamente siguiendo los principios de la Web de Datos. En

España, gobiernos autonómicos como los de Euskadi, Cataluña o Asturias,

corporaciones locales como los Ayuntamientos de Zaragoza o Gijón, y agencias

estatales como el Instituto Geográfico Nacional, están comenzando a publicar sus datos

de forma libre y gratuita. Al mismo tiempo, se está creando en nuestro país la

legislación correspondiente para asegurar que estas iniciativas no sean las únicas en

los próximos años.

Asimismo, proveedores de contenidos como la BBC están siguiendo estas

recomendaciones. Como resultado de todos estos esfuerzos, se está exponiendo y

conectando entre sí de manera abierta una gran cantidad de datos, como refleja la

iniciativa Linked Open Data. Con el auge de la Web de Datos surgen nuevos retos,

como la definición de procedimientos de publicación y explotación de datos, la

creación de vocabularios para la descripción de los conjuntos de datos y sus

interrelaciones, y el desarrollo de técnicas para gestionar y mantener su ciclo de vida,

evolución y multilingüismo, entre otros.

Actualmente la Comunidad Europea, a través de la última call del FP7, está

financiando proyectos de investigación relacionados con Linked Data.

Concretamente proyectos como: LATC, LOD2, y PlanetData para trabajar en temas

de:

Creación de métodos y herramientas para exponer y gestionar un gran número de

información estructurada en la Web de Datos

Diseño de algoritmos de aprendizaje automático para enriquecer, reparar y enlazar

datos en la Web

Creación métodos y estándares para mantener una traza de la procedencia de los

datos

Desarrollo de herramientas para la búsqueda y browsing de Linked Data

Desarrollo de una infraestructura abierta para la creación de millones de enlaces de

datos de alta calidad ampliamente usados en fuentes de datos de la Web

Page 10: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Además, existen grupos de investigación que trabajan de forma muy activa en temas de

Linked Data como por ejemplo DERI en Irlanda, Talis en Reino Unido, Freie

Universität Berlin en Alemania, etc.

Por otro lado en las conferencias más importantes del área, como son: el

International Semantic Web Conference, ISWC y el Extended Semantic Web

Conference, ESWC, se están publicando numerosos artículos sobre Linked Data, donde

se llevan a cabo workshops especializados en:

consumo de datos en Linked Data

búsqueda de respuestas sobre Linked Data

multilingüismo en Linked Data, etc.

Las actividades anteriores no son más que un reflejo de la situación actual de

crecimiento de Linked Data. En la figura siguiente mostramos la “nube” de Linked

Data en septiembre de 2010 (la última versión disponible y que seguro se queda

pequeña en la actualidad):

Figura :Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch.

http://lod-cloud.net/

Page 11: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

La nube de Linked Data, es mantenida por la comunidad Linked Open Data (LOD)

dentro de la Comprehensive Knowledge Archive Network (CKAN), un catálogo

genérico que permite acceder a conjuntos de datos (data sets) que siguen los

principios de Linked Data. En el catálogo del CKAN los data sets están clasificados en

las siguientes categorías:

Se trata de data sets que se refieren a diferentes dominios. No son específicos de ningún

dominio en particular. El data set más conocido pertenece a esta categoría: la DBPedia

Cross-domain:

Ofreciendo información geográfica de todo tipo, desde localizaciones hasta información

de censo

Geographic data:

. Como ya se ha comentado anteriormente, la administración pública se ha beneficiado

especialmente de Linked Data para la publicación de información accesible de forma abierta.

Government:

. Una de las primeras instituciones que ha publicado sus contenidos en Linked Data ha

sido la BBC que ya en el año 2008 publicaba información sobre su programación en RDF con múltiples enlaces a otras fuentes de datos en las que obtener información adicional.

Media:

. Las bibliotecas también han encontrado en Linked Data un formato potente para la

publicación de sus catálogos e información en general. También el ámbito educativo se ha beneficiado de la posibilidad de compartir información en Linked Data.

Libraries and Education:

. El ámbito de las ciencias de la vida también ha sido uno de los más activos con

múltiples data sets publicados hasta la fecha.

Life Sciences Data:

Page 12: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

. El ámbito del comercio en general y el e-commerce en particular se ha beneficiado de

Linked Data para la publicación de ontologías que incluyan precios, productos, servicios, horas de apertura, etc.

Retail and Commerce:

. Desde el comienzo de Linked Data, las aplicaciones más populares de la web 2.0 como

flickr o Facebook se han beneficiado de una u otra forma de los data sets publicados en Linked Data.

User Generated Content and Social Media:

En noviembre de 2010 se disponía de 203 data sets distribuidos en las categorías

anteriores que incluían casi 27.000 millones de triplas y casi 400 millones de enlaces

RDF a otras fuentes de información externa. A finales de agosto la página principal

de CKAN indica que tiene registrados 2121 data sets. El alumno puede extraer sus

conclusiones sobre la dimensión que está adquiriendo la Linked Data.

A continuación introduciremos algunos data sets presentes en la nube Linked Data.

DBpedia

Posiblemente el data set más utilizado, de hecho se encuentra en el centro de la nube

del Linked Data. La DBpedia es un data set generado automáticamente desde la

Wikipedia. Las nuevas entradas de la Wikipedia se incorporan automáticamente en la

DBpedia asignándoles una URI. Por ejemplo, una entrada en la Wikipedia como

http.//en.wikipedia.org/wiki/Madrid tendría el siguiente URI en la DBpedia

http://dbpedia.org/resource/Madrid Esta URI no enlaza a ninguna página web. Es la

URI que identifica el recurso Madrid. La correspondiente descripción en RDF se

genera mediante la extracción de información de diferentes artículos incluidos en

la Wikipedia. La DBpedia incluye información sobre más de 3 millones de cosas, más

de la mitad clasificadas a través de una ontología. Se incluyen más de 300.000

personas, 400.000 lugares o 145.000 especies.

Page 13: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Geonames

Se trata de una base de datos con información

geográfica disponible para ser descargada de forma

gratuita bajo licencia Creative Commons. En la

actualidad contiene más de 10 millones de nombres geográficos en diferentes idiomas,

con más de 2.8 millones de lugares poblados y 5.5 millones de nombres alternativos.

Todos los nombres están organizados en nueve categorías y 645 sub-categorías. Es

posible encontrar datos como la longitud, latitud, altitud, población, sub-división

administrativa o el código postal, y todo ello disponible en varios idiomas.

Los datos son accesibles a través de un conjunto de servicios web a través de los cuales

se reciben más de 20 millones de solicitudes diarias. Se dispone también de una

interfaz para ser usada directamente por los usuarios a través de Internet. Es posible

encontrar lugares sobre la base de un código postal o cerca de un lugar determinado y

encontrar los correspondientes enlaces a las entradas de la Wikipedia.

Los recursos Geonames están identificados por sus correspondientes URIs, los cuales

permiten acceder a información disponible en una Wiki o bien a su descripción en RDF

siguiendo la ontología de Geonames, expresada en OWL. A través de la URL de los

artículos Wikipedia enlazados a la descripción RDF, los datos Geonames se reenlazan a

los datos DBpedia y a otras fuentes RDF.

BBC

Una de las principales organizaciones que reconocieron el

potencial de Linked Data y que adoptó las tecnologías asociadas

fue la cadena de emisoras británica BBC. Después de sus

experiencias en la publicación de datos en RDF, en el año 2008 publicaron dos sitios en

los que combinaban la publicación de Linked Data con la publicación a través de

páginas web.

BBC programmes. Con más de 60 millones de triplas este data set ofrece

información completa sobre la programación de las cadenas de la BBC. Cada

episodio, programa, etc. es identificado por su propia URI y su descripción RDF.

Page 14: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

BBC music. Este sitio publica Linked Data sobre cada artista cuya música ha sido

programada en las estaciones de la BBC, incluyendo enlaces de los episodios o

programas en los que fue tocada. Se enlaza también con DBpedia y recibe enlaces de

múltiples fuentes de datos musicales Linked Data. Todas estas fuentes pueden ser

combinadas para crear perfiles de artistas muy completos e incluso para inferir

grados de similitud entre artistas y estilos musicales con el objetivo de realizar

recomendaciones.

Data.gov

La administración Obama lanzó en el año 2009 la

iniciativa data.gov cuyo objetivo es incrementar el

acceso público a data sets generados por el

gobierno federal en formato que pueda ser fácilmente interpretado de forma

automática. Para facilitar su gestión se proporciona también todos los metadatos

necesarios para poder acceder a los data sets y herramientas para poder utilizarlos.

Esta iniciativa del gobierno de EE.UU., también presente en otros muchos gobiernos

occidentales, forma parte de las estrategias de gobierno abierto impulsadas por

muchas democracias. Mediante la puesta a disposición del público de datos generados

por la administración pública es posible conseguir aplicaciones que muestren en el

mapa de un país la distribución geográfica de la inversión pública, la recaudación de

impuestos, información de tráfico, metereológica, etc. La propia data.gov permite que

los ciudadanos realicen peticiones sobre aquellos datos a los cuales les gustaría tener

acceso y anima todo tipo de instituciones a crear aplicaciones que hagan uso y

combinen estos datos para generar aplicaciones enriquecidas.

6.4. Guías para la creación de un dataset en Linked Data

En esta sección elaboraremos algunos de los principios que se han presentado

anteriormente y que han permitido la creación de numerosos data sets, algunos de los

cuales se han introducido en la sección anterior. En particular elaboraremos el

principio de uso de URIs para nombrar las cosas, la utilización de RDF para

su descripción y el establecimiento de enlaces entre ellas.

Page 15: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Usar URIs para nombrar las cosas

Uno de los principios básicos establecidos por Tim Berners-Lee es que se deben utilizar

URIs como mecanismo para la identificación de los recursos existentes en

Linked Data. Estos recursos pueden pertenecer tanto al mundo real (una persona,

un edificio, etc.) o conceptual (un algoritmo, un teorema, una propiedad, etc.). En

primer lugar, es necesario que estos URIs estén basados, tal y como establece el

segundo principio básico en HTTP. Adicionalmente podemos realizar algunas otras

recomendaciones:

Utilizar únicamente namespaces bajo nuestro control. Cuando queramos

identificar un objeto debemos evitar utilizar dominios sobre los cuales no tengamos

control. Cualquier cambio en la política de ese dominio puede suponer que nuestro

URI deje de ser válido.

No incluir detalles relacionados con la implementación. Todos hemos visto

direcciones web en las que podemos identificar los nombres de los servidores o

tecnologías de las bases de datos o lenguajes de implementación. Debemos evitar

incluir estos detalles para evitar que un cambio en la ubicación física o un proceso de

reingeniería en su programación, suponga que la URI deje de ser válida.

Utilizar identificadores naturales. Debemos utilizar referencias que sean

comunes y familiares dentro del dominio de actuación del data set. Por ejemplo, si

disponemos de un catálogo de libros es preferible que la URI de cada uno de ellos

esté basada en su ISBN, por ejemplo, frente a otras posibles opciones (e.g. el

identificador interno usado por la base de datos de nuestro catálogo).

Utilización de RDF para describir cosas

Otro principio afirma que se debe proporcionar información de utilidad cuando se

acceda a una URI. Esta información se ofrece mediante RDF. La pregunta que puede

surgir es: ¿qué información debemos proporcionar cuando se busca por una URI? En

otras palabras qué triplas se deben devolver. Las buenas prácticas que se

recomiendan en este caso son:

Page 16: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Las triplas que describan el recurso con literales

Las triplas que describen el recurso enlazándolo con otros recursos (e.g. triplas que indiquen el creador del recurso o su tipo)

Las triplas que describan los recursos relacionados (e.g. el nombre y la afiliación del creador del recurso)

Las buenas prácticas que se recomiendan en este caso son:

Las triplas que describan el recurso por estar enlazado desde otros recursos (i.e. enlaces de entrada)

Las triplas sobre el data set del cual esta descripción forma parte

Las triplas que describan la descripción propiamente dicha (i.e. metadatos como la procedencia de la información, la fecha de creación o los términos de licencia)

Establecimiento de enlaces

El principio que permite poder navegar a través de recursos de Linked Data consiste en

el establecimiento de enlaces entre recursos identificados por sus URIs. Estos

enlaces se consiguen mediante el predicado de las triplas que escribamos. Los enlaces

pueden ser internos, establecidos entre URIs pertenecientes al mismo data set, o

externos, entre URIs pertenecientes a diferentes data sets.

Salvo en casos particulares de dominios muy concretos y reducidos, un data set suele

estar descrito en más de un documento RDF y, por lo tanto, es esencial establecer los

enlaces apropiados entre los documentos para garantizar que todos ellos puedan ser

recuperados y se pueda navegar por todo el data set.

En primer lugar debemos asegurar que data sets externos al nuestro nos

“enlacen” es decir que contengan triplas cuyo objeto (su URI) se encuentre en nuestro

data set. Esto es lo que se denomina enlaces entrantes: desde otros data sets al

nuestro. Este mecanismo asegura que robots de buscadores o navegadores Linked

Data puedan “alcanzar” nuestro data set. Necesitamos “convencer” a los responsables

de otros data sets que incluyan triplas apuntando a nuestros datos. Para ello debemos

ofrecer argumentos sobre la inexistencia previa de los datos que estamos publicando,

su valor añadido y la simplicidad del mantenimiento de los enlaces creados.

Page 17: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

Una buena estrategia, que se suele recibir con buen agrado, entre otros las DBpedia,

es proporcionar directamente las triplas que deberían incluir. En estas triplas

estaríamos relacionando los recursos del data set externo con recursos en nuestro

data set.

En segundo lugar debemos incluir enlaces salientes, es decir desde recursos en

nuestro data set hacia data sets externos. Esto ofrece múltiples ventajas, por

ejemplo, poder acceder a las descripciones existentes en el data set externo o poder

navegar desde ese data set a terceros en los cuales se incluya información adicional

relevante para el recurso incluido en nuestro data set original. La selección de qué

data sets debemos enlazar debe estar basada en criterios de calidad y mejora de las

descripciones que disponemos actualmente. Una buena fuente de potenciales data sets

se encuentra en el repositorio de CKAN.

Un aspecto fundamental a la hora de establecer enlaces es la selección del

predicado más apropiado. Los enlaces en RDF se realizan a través de triplas. Una

tripla enlaza el sujeto (URI de la que “sale” el enlace), con el objeto (URI a la que

“llega” el enlace) a través del predicado. Los predicados establecen la semántica de las

propiedades que estamos identificando. Algunos ejemplos son rdfs:subClassOf,

foaf:knows, foaf:based_near. Para la selección del predicado apropiado deberemos

utilizar fundamentalmente dos criterios:

que el predicado sea ampliamente utilizado en otras fuentes de datos

que el correspondiente vocabulario esté adecuadamente publicado, gestionado y

mantenido. Habitualmente, resulta una buena elección utilizar los vocabularios

establecidos en las principales ontologías como Dublin Core, FOAF, SIOC, Good

Relations ontology, etc.

Por último, deberemos establecer los enlaces propiamente dichos, mediante

las triplas correspondientes. Aquí tenemos dos opciones, o bien se escriben las

triplas manualmente o bien se usan mecanismos de autogeneración automática o

semi-automática. La utilización de un mecanismo u otro dependerá

fundamentalmente de la envergadura de los data sets que estemos enlazando. Para la

realización de enlaces de forma manual podemos utilizar herramientas que permiten

navegar y buscar URIs de diferentes data sets. En este caso debemos evitar enlazar un

objeto con la descripción de otro objeto. Las relaciones se realizan entre objetos en sí.

Es decir, debemos establecer que una persona vive en una ciudad, no que una persona

vive en el documento RDF que contiene la descripción de esa ciudad.

Page 18: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Ideas clave

En el caso de la generación automática de enlaces, disponemos de dos

mecanismos que permiten la identificación de los objetos que queremos enlazar:

Basada en claves. Existen dominios en los que resulta relativamente sencillo

identificar un objeto de forma única a través de alguna de sus propiedades, por

ejemplo el ISBN de un libro. De esta forma resulta, relativamente sencillo poder

identificar de forma unívoca los objetos, aunque estos dispongan de varias URIs.

Basada en medida de similitud. En aquellos casos en los que no existan

identificadores comunes entre diferentes data sets, pueden utilizarse heurísticos que

trabajen sobre las propiedades de las entidades o propiedades de las entidades

relacionadas. Por ejemplo, tanto Geonames como DBpedia ofrecen información

sobre lugares. Para poder identificar si una entidad en ambos sistemas se refiere al

mismo lugar se puede considerar comparar su nombre, su localización geográfica

(latititud y longitud), el país en el que están situadas o su población. Si todos o casi

todos los parámetros anteriores son similares podría concluirse que ambas

entidades se refieren realmente al mismo lugar.

Page 19: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Lo + recomendado

Lo + recomendado

No dejes de leer…

Linked Data – Design issues

En este breve documento el inventor de la web, Tim Berners-Lee, presenta las cuatro

reglas básicas que deben cumplir los contenidos incluidos dentro de la Linked Data.

El documento está disponible en el aula virtual y en la siguiente dirección web:

http://www.w3.org/DesignIssues/LinkedData.html

Linked Data: Evolving the Web into a Global Data Space

En este libro de Tom Health y Christian Bizer, disponible online, se puede encontrar

información suficiente sobre los contenidos cubiertos por este tema.

El artículo está disponible en el aula virtual y en la siguiente dirección web:

http://linkeddatabook.com/editions/1.0/#linkedData

How to Publish Linked Data on the Web

Este libro, complementa al anterior, especialmente gracias a su capítulo 7 en el que se

explican los principios básicos para que los datos publicados en la web en diferentes

formatos puedan ser “incluidos” dentro de Linked Data.

El artículo está disponible en el aula virtual y en la siguiente dirección web:

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

Page 20: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Lo + recomendado

Linked Data – The Story so far

BIZER, C.; HEALTH, T.; BERNERS-LEE, T. International Journal on Semantic Web

and Information Systems. Special Issue on Linked Data.

En este artículo escrito por los principales expertos internacionales en el tema, se

describen los principios básicos de Linked Data y se introducen algunas de las

aplicaciones conseguidas hasta la fecha.

El artículo está disponible en el aula virtual y en la siguiente dirección web:

http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf

No dejes de ver…

Linked Data (and the Web of Data) por DERI (Irlanda)

En este video-tutorial se presenta una

introducción a Linked Data y los instrumentos

utilizados como URIs, fuentes de datos

distribuidas.

El video está disponible en el aula virtual y en la siguiente dirección web:

http://www.youtube.com/watch?v=GKfJ5onP5SQ

A quick introduction to Linked Data

En este breve video se motiva la aparición de

Linked Data.

El video está disponible en el aula virtual y en la siguiente dirección web:

http://www.youtube.com/watch?v=qMjkI4hJej0

Page 21: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Lo + recomendado

Tim Berners-Lee, presentaciones sobre Linked Data

Estas son algunas de las presentaciones realizadas por

Tim Berners-Lee sobre Linked Data. Tim Berners-Lee,

inventor de la WWW, es ahora uno de los mayores

impulsores de las web de los datos.

Los videos están disponibles en el aula virtual y en las siguientes direcciones web:

http://www.linkeddatatools.com/semantic-web-basics

http://www.youtube.com/watch?v=OM6XIICm_qo

http://www.youtube.com/watch?v=ga1aSJXCFe0

http://www.youtube.com/watch?v=6YKPqx3FXE4

Tom Health. “How to Publish Linked Data on the Web”

Se trata de un video-tutorial sobre la publicación de

información en Linked Data impartido por uno de los

principales expertos a nivel internacional en el tema.

El video está disponible en el aula virtual y en la siguiente dirección web:

http://videolectures.net/iswc08_heath_hpldw/

The Web, one huge database

Se trata de otro video tutorial en el que se

pretende motivar la necesidad de promover la

“web de los datos” frente al tradicional

paradigm de múltiples bases de datos

distribuidas en diferentes partes de la web.

La presentación está disponible en el aula virtual y en la siguiente dirección web:

http://www.youtube.com/watch?v=zwbs4ej0gpc

Page 22: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – + Información

+ Información

Webgrafía

Linked Data

Página principal de la iniciativa Linked Data.

http://linkeddata.org

Linked Data Data Sets

Información sobre los data sets mantenidos por la iniciativa CKAN.

http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets

Michael Hausenblas, “Linked Data Applications”

Información sobre aplicaciones construidas sobre la base de Linked

Data

http://linkeddata.deri.ie/sites/linkeddata.deri.ie/files/lod-app-tr-2009-07-26_0.pdf

European Public Sector Information (PSI) Platform

Iniciativa para la integración de información del sector público europeo en Linked

Data.

http://www.epsiplus.net/

Page 23: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – + Información

Iniciativa Linked Data gobierno Reino Unido

Iniciativa Linked Data del gobierno británico.

http://data.gov.uk/

Iniciativa Linked Data gobierno Estados Unidos

Iniciativa Linked Data del gobierno norteamericano.

http://www.data.gov/

Iniciativa Linked Data gobierno de Francia

Iniciativa Linked Data del gobierno francés.

http://data.gouv.fr/

Proyecto LATC

Página del proyecto LTAC.

http://latc-project.eu/

Page 24: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – + Información

Proyecto LOD2

Página del proyecto LOD2.

http://lod2.eu/

Proyecto Planet Data

Página del proyecto Planet Data.

http://www.planet-data.eu/

DERI’s Linked Data Research Centre

Centro de investigación en Linked Data de DERI en Irlanda.

http://linkeddata.deri.ie/

Page 25: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – + Información

Oficina W3C en España. Guía breve de Linked Data

Guía sobre Linked Data creada por la oficina W3C española.

http://www.w3c.es/divulgacion/guiasbreves/LinkedData

CKAN, The Data Hub

Página principal del CKAN.

http://ckan.net

Linked Data Cloud

Nube de nodos de Linked Data.

http://lod-cloud.net

SPARQL

Lenguaje de consultas sobre Fuentes de información semántica

SPARQL.

http://www.w3.org/TR/rdf-sparql-query/

Page 26: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – + Información

DBPedia

Página de la DBPedia.

http://www.dbpedia.org

Geonames

Página de Geonames.

http://www.geonames.org

BBC

Páginas de programas y de música de la BBC.

http://www.bbc.co.uk/programmes

http://www.bbc.co.uk/music

Bibliografía

Vladan Devedzic. Semantic Web and Education. Springer’s Integrated Series in

Information Systems. ISBN: 0-387-35416-6

Brusilovsky, P. (1999). Adaptive and Intelligent Technologies for Web-based Education.

In C. Rollinger & C. Peylo (Eds.) Künstliche Intelligenz 4, Special Issue on Intelligent

Systems and Teleteaching, 19-25.

Page 27: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – + Información

de Bruijn, J., Bussler, C., Domingue, J., Fensel, D., Hepp, M., Keller, U., et al. (2005).

Web Service Modeling Ontology (WSMO). W3C Member Submission. World Wide

Web Consortium.

Sicilia, M., & Garcia, E. (2005). On the convergence of formal ontologies and

standardized elearning. Journal of Distance Education Technologies, 3 (12), pp. 12-28.

Sicilia, M., Sanchez, S., Arroyo, S., & Martín, S. (2006). LOMR overal architecture.

LUISA Project Deliverable D4.1.

García, J., & Pariente, T. (2007). Digital Rights Management requirements. LUISA

Project Deliverable D5.1.

Page 28: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Actividades

Actividades

Práctica: Data sets para Educación

Se propone realizar una búsqueda de data sets en Linked Data que tengan aplicación en

el ámbito educativo. El alumno deberá presentar un breve informe (no más de cuatro

páginas) en el que establezca sus principales conclusiones. La información mínima que

debe contener el informe es:

Descripción del data set

Objetivos perseguidos

Tecnologías utilizadas

Otras fuentes de Linked Data enlazas desde el data set

Page 29: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Test

Test

1. ¿Cuál de los siguientes no forma parte de los principios básicos establecidos por Tim

Berners-Lee para Linked Data?

A. Usar RDF.

B. Usar URIs para identificar las cosas.

C. Incluir referencias a otras URIs.

D. Ninguna de las anteriores.

2. El protocolo recomendado para la resolución de una URI en Linked Data es HTTP.

A. Verdadero.

F. Falso.

3. Indique cuáles de las siguientes afirmaciones son correctas:

A. Una URL es una URI.

B. Una URI pueden utilizarse para identificar un objeto del mundo real.

C. Pueden existir URIs diferentes para identificar la misma entidad.

D. Todas las anteriores.

4. Si dentro de nuestro data set tenemos una URI a y dentro de la DBpedia tenemos

una URI b, la tripla “a owl:sameAs b” sería para nosotros:

A. Un enlace entrante.

B. Un enlace saliente.

C. Un enlace interno.

D. Ninguna de las anteriores.

5. Según la clasificación de datos de Tim Berners-Lee un fichero Excel con las

coordenadas geográficas de las capitales de provincia disponible en la web bajo licencia

abierta tendría una clasificación de:

A. Una estrella.

B. Dos estrellas.

C. Tres estrellas.

D. Cuatro estrellas.

Page 30: tema6,Linked Data

Web semántica y tecnologías 2.0

TEMA 6 – Test

6. El catálogo genérico de data sets de Linked Data es accesible a través de:

A. DBpedia

B. Geonames

C. CKAN

D. W3C

7. ¿Cuántas triplas RDF hay en Linked Data?

A. Entre 10 y 100 millones.

B. Entre 101 y 1000 millones.

C. Entre 1001 y 10.000 millones.

D. Más de 10.000 millones.

8. Geonames es una base de datos con información sobre:

A. geología.

B. genética.

C. gerontología.

D. Ninguna de las anteriores.

9. ¿Cuál de las siguientes URIs sería la más adecuada para identificar a un profesor por

parte el equipo de publicación de la UNIR?

A. http://data.unir.net/people/LuisAnido

B. http://dbpedia.org/resource/LuisAnido

C. http://dbpedia.org/data/LuisAnido

D. http://data.unir.net:8080/resource/LuisAnido

10. ¿Cuál de las siguientes serían fuentes apropiadas para los vocabularios usados en

los predicados de un enlace Linked Data?

A. Dublin Core.

B. FOAF.

C. Good Relations Ontology.

D. Todas las anteriores.