tema6,linked data
DESCRIPTION
ÂTRANSCRIPT
Linked Data
[6.1] ¿Cómo estudiar este tema?
[6.2] Principios básicos de Linked Data
[6.3] Ejemplos de datasets en Linked Data
[6.4] Guías para la creación de un dataset en Linked Data
T
EM
A
Web semántica y tecnologías 2.0
TEMA 6 – Esquema
Esquema
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Ideas clave
6.1. ¿Cómo estudiar este tema?
Este tema presenta las ideas clave de la iniciativa Linked Data. Linked Data hace
referencia a una serie de guías de buenas prácticas para conectar datos en la
web procesables por las máquinas. Sus principios básicos fueron establecidos por el
inventor de la World Wide Web, Tim Berners-Lee en una nota publicada en la web del
W3C en el año 2006.
Usar URIs para identificar las cosas
Usar URIs HTTP
Incluir enlaces a otros URIs
Estos principios básicos son:
Ofrecer información sobre los recursos usando RDF
En una actualización posterior de la nota, identificaba un sistema de clasificación
de los datos existentes en la web, siguiendo un ranking de una a cinco estrellas
dependiendo de lo accesibles, procesables y enlazados que estuviesen esos datos.
En la actualidad existen ya numerosos data sets, o conjuntos de datos, incluidos
dentro de Linked Data. El punto de acceso de referencia a ellos es el archivo
mantenido por la iniciativa CKAN, la cual los clasifica en las siguientes categorías:
Cross-domain.
Geographic data.
Government.
Media.
Libraries and Education.
Life Sciences Data.
Retail and Commerce.
User Generated Content and Social Media.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
La inserción de un data set en Linked Data requiere del cumplimiento de los principios
anteriores. Existen una serie de recomendaciones y buenas prácticas que
pueden resultar de utilidad para que la aplicación de esos principios sea
realmente provechosa. Entre ellas podemos citar:
El ineludible principio básico de que estén basados en HTTP.
Usar sólo espacios de nombres bajo nuestro control
Usar identificadores que resulten naturales
Sobre el uso de URIs:
No incluir URIs que puedan depender de implementaciones concretas
Aquellas en las que el objeto sea un literal u otro recurso relacionado
Aquellas en las que el recurso sea el objeto por estar relacionado con otras entidades.
Las que describan la propia descripción o el data set del que forma parte
Sobre el uso de RDF se establecen recomendaciones sobre las triplas que se deben devolver cuando se resuelve la URI
de una entidad:
Las que describan recursos relacionados
Asegurarse recibir enlaces entrantes de fuentes reconocidas
Establece enlaces salientes a fuentes reconocidas y de interés
Sobre el establecimiento de enlaces:
Seleccionar predicados en las triplas de los enlaces procedentes de vocabularios reconocidos
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Este tema tiene como finalidad que el alumno se familiarice con los conceptos
básicos de Linked Data. Para su estudio se utilizará como referencia algunos de los
capítulos del libro “Linked Data: Evolving the Web into a Global Data Space” escrito
por Tom Health y Christian Bizer. El alumno puede comenzar por leer el primer
capítulo de este libro que encontrará motivador para el lanzamiento de la iniciativa
Linked Data.
Los principios básicos de Linked Data se presentan en la sección siguiente de este
tema. El alumno interesado puede complementar la lectura de esa sección con el
capítulo 2 del libro de Health y Bizer, en donde encontrará un mayor detalle técnico
sobre los principios básicos que rigen Linked Data.
La sección 3 de este tema presenta algunos de los campos de aplicación más activos
hasta la fecha, desde la administración digital a los medios de comunicación. El alumno
puede leer los contenidos de esta sección y complementarla con el capítulo 3 del libro
del Health y Bizer. En el capítulo 6 podemos encontrar algunas aplicaciones que se
benefician de los data sets publicados en Linked Data.
Finalmente la sección 4 resume algunas recomendaciones de deben seguirse para la
creación de un “buen” data set en Linked Data. La lectura de esta sección debe
complementarse con los capítulos 4 y 5 del libro de Health y Bizer. Sin embargo,
solamente el alumno interesado debe detenerse en los detalles técnicos, puede por
ejemplo saltarse las secciones 4.3 y 4.4. Es suficiente con la adquisición de los
principales conceptos asociados a cada una de las buenas prácticas recomendadas.
6.2. Principios básicos de Linked Data
El término Linked Data hace referencia a una serie de buenas prácticas para publicar y
entrelazar datos en la web. Esta serie de buenas prácticas fue introducida, al
igual que el término Linked Data, por el propio Tim Berners-Lee en una nota
publicada en el sitio del W3C en el año 2006 y que se incluye aquí en la sección Lo +
Recomendado. Estos principios básicos son:
Usar URIs para identificar las cosas
Usar URIs HTTP
Ofrecer información sobre los recursos usando RDF
Incluir enlaces a otros URIs
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
La aplicación de estos principios fomentará el crecimiento de la Web, tanto a nivel de
los documentos HTML (vista clásica de la Web), como a nivel de los datos
expresados en RDF (vista de la Web Semática).
Para conseguir tener los datos interconectados, como si la Web fuese una gran base
de datos, se deben respetar los cuatro pasos anteriores. Gracias a esta interconexión, se
permite reutilizar la información de cualquier manera esperada o inesperada, lo
que ofrece un valor añadido a la Web.
Usar URIs para identificar las cosas
Al nombrar los conceptos o cosas mediante URIs, se ofrece una abstracción del
lenguaje natural y así se consigue evitar ambigüedades y así ofrecer una forma estándar
y unívoca para referirnos a cualquier recurso.
Un ejemplo de esto puede observarse en la información geográfica. La posición de
los lugares puede representarse mediante coordenadas, información que puede ser
fácilmente interpretable por las personas o de forma automática. El problema surge
cuando debemos referirnos a un lugar por su topónimo, ya que éste puede variar en
función del idioma (Croacia, Croatia, Hrvatska, etc), de su representación (Republika
Hrvatska, Rep. de Croacia, etc.), u otros factores (Croacia, antigua República
Yugoslava).
Si usásemos el nombre para referirnos a los lugares, las
múltiples acepciones que podrían adoptar, dificultaría el
tratamiento automatizado de la información. De esta
forma, si utilizamos un identificador único como
http://dbpedia.org/resource/Croatia, cualquier aplicación se podría referir al mismo
lugar, independientemente de la ambigüedad del lenguaje natural.
Usar URIs HTTP
Ya que existen muchos esquemas de URIs, se pretende el uso de URIs sobre HTTP (p.e.
http://dbpedia.org/resource/Croatia) para asegurar que cualquier recurso pueda ser
buscado y accedido en la Web. Debe tenerse en cuenta que los URIs no son sólo
direcciones, son identificadores de los recursos.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Ofrecer información sobre los recursos usando RDF
Una vez que se busca y se accede a un recurso identificado mediante una URI HTTP, se
debe obtener información útil sobre dicho recurso, representada mediante
descripciones estándares en RDF. Se pretende que para cualquier conjunto de
datos o vocabulario, se ofrezca información relativa a la información que representa.
De esta forma, si una aplicación desea obtener información sobre un concepto
identificado mediante una URI, cuando hace una llamada HTTP para obtener el
recurso, debería obtener información fácilmente procesable en formato RDF.
De la misma forma, si se proveen puntos de consulta avanzada, como SPARQL, el
resultado ante una consulta podrá ser interpretado de forma automática.
El recurso que identifica a “Croacia” incluye información sobre esta nación. Si cualquier
aplicación quisiera hacer uso de la información que provee la DBpedia sobre este
recurso, simplemente debería obtener el recurso identificado como
“http://dbpedia.org/resource/Croatia” y obtendría todos los datos relativos a Croacia
(población, extensión del país, topónimos en distintos idiomas, etc.).
Incluir enlaces a otros URIs
La cuarta regla, enlazar datos en cualquier lugar, es necesaria para conectar los
datos que tenemos en sitios web de forma que no se queden aislados y así se pueda
compartir información con otras fuentes externas y que otros sitios puedan
enlazar los datos propios de la misma forma que se hace con los enlaces en HTML.
A través de la utilización de enlaces a recursos provenientes de sitios más
especializados en determinados dominios, se ofrece un valor añadido a la información
que se provee.
Algo a tener en cuenta es que los enlaces de los recursos mediante URIs, pueden
hacerse localmente y a través de toda la red. Por ejemplo, el recurso de la DBpedia
que representa a Croacia, puede tener una propiedad que representa la capital del
país, Zagreb, que también está representada mediante RDF e identificada por un URI
unívoco similar al de Croacia. En este caso, Zagreb se representa como
http://dbpedia.org/resource/Zagreb. De esta forma, ya aparecen dos recursos
enlazados, aunque se encuentran en el mismo servidor.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Algunos de los recursos relacionados con los lugares son las
fotografías, por lo que el recurso “Croacia” y “Zagreb”
incluyen una propiedad que enlaza el lugar con las
fotografías relacionadas, que se encuentran almacenadas en un almacén como
Flickr, que a su vez ofrece su información en RDF. De esta forma, se enlazan los datos
de lugares con las fotografías.
Gracias a estos mecanismos, cualquier recurso es susceptible de ser enriquecido con
cualquier tipo de información especializada, incluso la que no se espera que sea
combinable. De forma inversa, al publicar información en RDF y utilizando URIs,
cualquiera podría hacer referencia a esos datos.
Clasificación de datos en la web
En el año 2010, Tim Berners-Lee incluyó una clasificación basada en estrellas, de una
a cinco, al igual que en los hoteles, que permite catalogar los datos publicados en la
web.
1. Los datos están disponibles en la web bajo licencia abierta
2. Disponibles de forma estructurada para que puedan ser interpretados por una máquina (e.g. Excel en lugar de una tabla escaneada) 3. Igual que (2) pero usando formatos no propietarios (e.g. CSV en lugar de Excel)
4. Todo lo anterior más: usando estándares del W3C (RDF y SPARQL) para identificar las cosas, de forma que otros puedan referenciarlas de forma sencilla.
5. Todo lo anterior más: los datos están enlazados a otros datos externos para ofrecer contexto.
La clasificación es estrella es la siguiente:
El anterior sistema de cinco estrellas permite clasificar los datos existentes en la
web. Obviamente el objetivo es que todos los datos tengan la máxima clasificación de 5
estrellas.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
6.3. Ejemplos de datasets en Linked Data
Los principios básicos de la Web de Datos, aunque válidos en cualquier escenario,
están siendo aplicados con éxito sobre todo en el ámbito de las administraciones
públicas. Existen por ejemplo Open Government Data Initiatives, el ePSI , el Etalab, y
además gobiernos como los de Reino Unido , Estados Unidos y Francia han decidido
exponer sus datos públicamente siguiendo los principios de la Web de Datos. En
España, gobiernos autonómicos como los de Euskadi, Cataluña o Asturias,
corporaciones locales como los Ayuntamientos de Zaragoza o Gijón, y agencias
estatales como el Instituto Geográfico Nacional, están comenzando a publicar sus datos
de forma libre y gratuita. Al mismo tiempo, se está creando en nuestro país la
legislación correspondiente para asegurar que estas iniciativas no sean las únicas en
los próximos años.
Asimismo, proveedores de contenidos como la BBC están siguiendo estas
recomendaciones. Como resultado de todos estos esfuerzos, se está exponiendo y
conectando entre sí de manera abierta una gran cantidad de datos, como refleja la
iniciativa Linked Open Data. Con el auge de la Web de Datos surgen nuevos retos,
como la definición de procedimientos de publicación y explotación de datos, la
creación de vocabularios para la descripción de los conjuntos de datos y sus
interrelaciones, y el desarrollo de técnicas para gestionar y mantener su ciclo de vida,
evolución y multilingüismo, entre otros.
Actualmente la Comunidad Europea, a través de la última call del FP7, está
financiando proyectos de investigación relacionados con Linked Data.
Concretamente proyectos como: LATC, LOD2, y PlanetData para trabajar en temas
de:
Creación de métodos y herramientas para exponer y gestionar un gran número de
información estructurada en la Web de Datos
Diseño de algoritmos de aprendizaje automático para enriquecer, reparar y enlazar
datos en la Web
Creación métodos y estándares para mantener una traza de la procedencia de los
datos
Desarrollo de herramientas para la búsqueda y browsing de Linked Data
Desarrollo de una infraestructura abierta para la creación de millones de enlaces de
datos de alta calidad ampliamente usados en fuentes de datos de la Web
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Además, existen grupos de investigación que trabajan de forma muy activa en temas de
Linked Data como por ejemplo DERI en Irlanda, Talis en Reino Unido, Freie
Universität Berlin en Alemania, etc.
Por otro lado en las conferencias más importantes del área, como son: el
International Semantic Web Conference, ISWC y el Extended Semantic Web
Conference, ESWC, se están publicando numerosos artículos sobre Linked Data, donde
se llevan a cabo workshops especializados en:
consumo de datos en Linked Data
búsqueda de respuestas sobre Linked Data
multilingüismo en Linked Data, etc.
Las actividades anteriores no son más que un reflejo de la situación actual de
crecimiento de Linked Data. En la figura siguiente mostramos la “nube” de Linked
Data en septiembre de 2010 (la última versión disponible y que seguro se queda
pequeña en la actualidad):
Figura :Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch.
http://lod-cloud.net/
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
La nube de Linked Data, es mantenida por la comunidad Linked Open Data (LOD)
dentro de la Comprehensive Knowledge Archive Network (CKAN), un catálogo
genérico que permite acceder a conjuntos de datos (data sets) que siguen los
principios de Linked Data. En el catálogo del CKAN los data sets están clasificados en
las siguientes categorías:
Se trata de data sets que se refieren a diferentes dominios. No son específicos de ningún
dominio en particular. El data set más conocido pertenece a esta categoría: la DBPedia
Cross-domain:
Ofreciendo información geográfica de todo tipo, desde localizaciones hasta información
de censo
Geographic data:
. Como ya se ha comentado anteriormente, la administración pública se ha beneficiado
especialmente de Linked Data para la publicación de información accesible de forma abierta.
Government:
. Una de las primeras instituciones que ha publicado sus contenidos en Linked Data ha
sido la BBC que ya en el año 2008 publicaba información sobre su programación en RDF con múltiples enlaces a otras fuentes de datos en las que obtener información adicional.
Media:
. Las bibliotecas también han encontrado en Linked Data un formato potente para la
publicación de sus catálogos e información en general. También el ámbito educativo se ha beneficiado de la posibilidad de compartir información en Linked Data.
Libraries and Education:
. El ámbito de las ciencias de la vida también ha sido uno de los más activos con
múltiples data sets publicados hasta la fecha.
Life Sciences Data:
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
. El ámbito del comercio en general y el e-commerce en particular se ha beneficiado de
Linked Data para la publicación de ontologías que incluyan precios, productos, servicios, horas de apertura, etc.
Retail and Commerce:
. Desde el comienzo de Linked Data, las aplicaciones más populares de la web 2.0 como
flickr o Facebook se han beneficiado de una u otra forma de los data sets publicados en Linked Data.
User Generated Content and Social Media:
En noviembre de 2010 se disponía de 203 data sets distribuidos en las categorías
anteriores que incluían casi 27.000 millones de triplas y casi 400 millones de enlaces
RDF a otras fuentes de información externa. A finales de agosto la página principal
de CKAN indica que tiene registrados 2121 data sets. El alumno puede extraer sus
conclusiones sobre la dimensión que está adquiriendo la Linked Data.
A continuación introduciremos algunos data sets presentes en la nube Linked Data.
DBpedia
Posiblemente el data set más utilizado, de hecho se encuentra en el centro de la nube
del Linked Data. La DBpedia es un data set generado automáticamente desde la
Wikipedia. Las nuevas entradas de la Wikipedia se incorporan automáticamente en la
DBpedia asignándoles una URI. Por ejemplo, una entrada en la Wikipedia como
http.//en.wikipedia.org/wiki/Madrid tendría el siguiente URI en la DBpedia
http://dbpedia.org/resource/Madrid Esta URI no enlaza a ninguna página web. Es la
URI que identifica el recurso Madrid. La correspondiente descripción en RDF se
genera mediante la extracción de información de diferentes artículos incluidos en
la Wikipedia. La DBpedia incluye información sobre más de 3 millones de cosas, más
de la mitad clasificadas a través de una ontología. Se incluyen más de 300.000
personas, 400.000 lugares o 145.000 especies.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Geonames
Se trata de una base de datos con información
geográfica disponible para ser descargada de forma
gratuita bajo licencia Creative Commons. En la
actualidad contiene más de 10 millones de nombres geográficos en diferentes idiomas,
con más de 2.8 millones de lugares poblados y 5.5 millones de nombres alternativos.
Todos los nombres están organizados en nueve categorías y 645 sub-categorías. Es
posible encontrar datos como la longitud, latitud, altitud, población, sub-división
administrativa o el código postal, y todo ello disponible en varios idiomas.
Los datos son accesibles a través de un conjunto de servicios web a través de los cuales
se reciben más de 20 millones de solicitudes diarias. Se dispone también de una
interfaz para ser usada directamente por los usuarios a través de Internet. Es posible
encontrar lugares sobre la base de un código postal o cerca de un lugar determinado y
encontrar los correspondientes enlaces a las entradas de la Wikipedia.
Los recursos Geonames están identificados por sus correspondientes URIs, los cuales
permiten acceder a información disponible en una Wiki o bien a su descripción en RDF
siguiendo la ontología de Geonames, expresada en OWL. A través de la URL de los
artículos Wikipedia enlazados a la descripción RDF, los datos Geonames se reenlazan a
los datos DBpedia y a otras fuentes RDF.
BBC
Una de las principales organizaciones que reconocieron el
potencial de Linked Data y que adoptó las tecnologías asociadas
fue la cadena de emisoras británica BBC. Después de sus
experiencias en la publicación de datos en RDF, en el año 2008 publicaron dos sitios en
los que combinaban la publicación de Linked Data con la publicación a través de
páginas web.
BBC programmes. Con más de 60 millones de triplas este data set ofrece
información completa sobre la programación de las cadenas de la BBC. Cada
episodio, programa, etc. es identificado por su propia URI y su descripción RDF.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
BBC music. Este sitio publica Linked Data sobre cada artista cuya música ha sido
programada en las estaciones de la BBC, incluyendo enlaces de los episodios o
programas en los que fue tocada. Se enlaza también con DBpedia y recibe enlaces de
múltiples fuentes de datos musicales Linked Data. Todas estas fuentes pueden ser
combinadas para crear perfiles de artistas muy completos e incluso para inferir
grados de similitud entre artistas y estilos musicales con el objetivo de realizar
recomendaciones.
Data.gov
La administración Obama lanzó en el año 2009 la
iniciativa data.gov cuyo objetivo es incrementar el
acceso público a data sets generados por el
gobierno federal en formato que pueda ser fácilmente interpretado de forma
automática. Para facilitar su gestión se proporciona también todos los metadatos
necesarios para poder acceder a los data sets y herramientas para poder utilizarlos.
Esta iniciativa del gobierno de EE.UU., también presente en otros muchos gobiernos
occidentales, forma parte de las estrategias de gobierno abierto impulsadas por
muchas democracias. Mediante la puesta a disposición del público de datos generados
por la administración pública es posible conseguir aplicaciones que muestren en el
mapa de un país la distribución geográfica de la inversión pública, la recaudación de
impuestos, información de tráfico, metereológica, etc. La propia data.gov permite que
los ciudadanos realicen peticiones sobre aquellos datos a los cuales les gustaría tener
acceso y anima todo tipo de instituciones a crear aplicaciones que hagan uso y
combinen estos datos para generar aplicaciones enriquecidas.
6.4. Guías para la creación de un dataset en Linked Data
En esta sección elaboraremos algunos de los principios que se han presentado
anteriormente y que han permitido la creación de numerosos data sets, algunos de los
cuales se han introducido en la sección anterior. En particular elaboraremos el
principio de uso de URIs para nombrar las cosas, la utilización de RDF para
su descripción y el establecimiento de enlaces entre ellas.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Usar URIs para nombrar las cosas
Uno de los principios básicos establecidos por Tim Berners-Lee es que se deben utilizar
URIs como mecanismo para la identificación de los recursos existentes en
Linked Data. Estos recursos pueden pertenecer tanto al mundo real (una persona,
un edificio, etc.) o conceptual (un algoritmo, un teorema, una propiedad, etc.). En
primer lugar, es necesario que estos URIs estén basados, tal y como establece el
segundo principio básico en HTTP. Adicionalmente podemos realizar algunas otras
recomendaciones:
Utilizar únicamente namespaces bajo nuestro control. Cuando queramos
identificar un objeto debemos evitar utilizar dominios sobre los cuales no tengamos
control. Cualquier cambio en la política de ese dominio puede suponer que nuestro
URI deje de ser válido.
No incluir detalles relacionados con la implementación. Todos hemos visto
direcciones web en las que podemos identificar los nombres de los servidores o
tecnologías de las bases de datos o lenguajes de implementación. Debemos evitar
incluir estos detalles para evitar que un cambio en la ubicación física o un proceso de
reingeniería en su programación, suponga que la URI deje de ser válida.
Utilizar identificadores naturales. Debemos utilizar referencias que sean
comunes y familiares dentro del dominio de actuación del data set. Por ejemplo, si
disponemos de un catálogo de libros es preferible que la URI de cada uno de ellos
esté basada en su ISBN, por ejemplo, frente a otras posibles opciones (e.g. el
identificador interno usado por la base de datos de nuestro catálogo).
Utilización de RDF para describir cosas
Otro principio afirma que se debe proporcionar información de utilidad cuando se
acceda a una URI. Esta información se ofrece mediante RDF. La pregunta que puede
surgir es: ¿qué información debemos proporcionar cuando se busca por una URI? En
otras palabras qué triplas se deben devolver. Las buenas prácticas que se
recomiendan en este caso son:
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Las triplas que describan el recurso con literales
Las triplas que describen el recurso enlazándolo con otros recursos (e.g. triplas que indiquen el creador del recurso o su tipo)
Las triplas que describan los recursos relacionados (e.g. el nombre y la afiliación del creador del recurso)
Las buenas prácticas que se recomiendan en este caso son:
Las triplas que describan el recurso por estar enlazado desde otros recursos (i.e. enlaces de entrada)
Las triplas sobre el data set del cual esta descripción forma parte
Las triplas que describan la descripción propiamente dicha (i.e. metadatos como la procedencia de la información, la fecha de creación o los términos de licencia)
Establecimiento de enlaces
El principio que permite poder navegar a través de recursos de Linked Data consiste en
el establecimiento de enlaces entre recursos identificados por sus URIs. Estos
enlaces se consiguen mediante el predicado de las triplas que escribamos. Los enlaces
pueden ser internos, establecidos entre URIs pertenecientes al mismo data set, o
externos, entre URIs pertenecientes a diferentes data sets.
Salvo en casos particulares de dominios muy concretos y reducidos, un data set suele
estar descrito en más de un documento RDF y, por lo tanto, es esencial establecer los
enlaces apropiados entre los documentos para garantizar que todos ellos puedan ser
recuperados y se pueda navegar por todo el data set.
En primer lugar debemos asegurar que data sets externos al nuestro nos
“enlacen” es decir que contengan triplas cuyo objeto (su URI) se encuentre en nuestro
data set. Esto es lo que se denomina enlaces entrantes: desde otros data sets al
nuestro. Este mecanismo asegura que robots de buscadores o navegadores Linked
Data puedan “alcanzar” nuestro data set. Necesitamos “convencer” a los responsables
de otros data sets que incluyan triplas apuntando a nuestros datos. Para ello debemos
ofrecer argumentos sobre la inexistencia previa de los datos que estamos publicando,
su valor añadido y la simplicidad del mantenimiento de los enlaces creados.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
Una buena estrategia, que se suele recibir con buen agrado, entre otros las DBpedia,
es proporcionar directamente las triplas que deberían incluir. En estas triplas
estaríamos relacionando los recursos del data set externo con recursos en nuestro
data set.
En segundo lugar debemos incluir enlaces salientes, es decir desde recursos en
nuestro data set hacia data sets externos. Esto ofrece múltiples ventajas, por
ejemplo, poder acceder a las descripciones existentes en el data set externo o poder
navegar desde ese data set a terceros en los cuales se incluya información adicional
relevante para el recurso incluido en nuestro data set original. La selección de qué
data sets debemos enlazar debe estar basada en criterios de calidad y mejora de las
descripciones que disponemos actualmente. Una buena fuente de potenciales data sets
se encuentra en el repositorio de CKAN.
Un aspecto fundamental a la hora de establecer enlaces es la selección del
predicado más apropiado. Los enlaces en RDF se realizan a través de triplas. Una
tripla enlaza el sujeto (URI de la que “sale” el enlace), con el objeto (URI a la que
“llega” el enlace) a través del predicado. Los predicados establecen la semántica de las
propiedades que estamos identificando. Algunos ejemplos son rdfs:subClassOf,
foaf:knows, foaf:based_near. Para la selección del predicado apropiado deberemos
utilizar fundamentalmente dos criterios:
que el predicado sea ampliamente utilizado en otras fuentes de datos
que el correspondiente vocabulario esté adecuadamente publicado, gestionado y
mantenido. Habitualmente, resulta una buena elección utilizar los vocabularios
establecidos en las principales ontologías como Dublin Core, FOAF, SIOC, Good
Relations ontology, etc.
Por último, deberemos establecer los enlaces propiamente dichos, mediante
las triplas correspondientes. Aquí tenemos dos opciones, o bien se escriben las
triplas manualmente o bien se usan mecanismos de autogeneración automática o
semi-automática. La utilización de un mecanismo u otro dependerá
fundamentalmente de la envergadura de los data sets que estemos enlazando. Para la
realización de enlaces de forma manual podemos utilizar herramientas que permiten
navegar y buscar URIs de diferentes data sets. En este caso debemos evitar enlazar un
objeto con la descripción de otro objeto. Las relaciones se realizan entre objetos en sí.
Es decir, debemos establecer que una persona vive en una ciudad, no que una persona
vive en el documento RDF que contiene la descripción de esa ciudad.
Web semántica y tecnologías 2.0
TEMA 6 – Ideas clave
En el caso de la generación automática de enlaces, disponemos de dos
mecanismos que permiten la identificación de los objetos que queremos enlazar:
Basada en claves. Existen dominios en los que resulta relativamente sencillo
identificar un objeto de forma única a través de alguna de sus propiedades, por
ejemplo el ISBN de un libro. De esta forma resulta, relativamente sencillo poder
identificar de forma unívoca los objetos, aunque estos dispongan de varias URIs.
Basada en medida de similitud. En aquellos casos en los que no existan
identificadores comunes entre diferentes data sets, pueden utilizarse heurísticos que
trabajen sobre las propiedades de las entidades o propiedades de las entidades
relacionadas. Por ejemplo, tanto Geonames como DBpedia ofrecen información
sobre lugares. Para poder identificar si una entidad en ambos sistemas se refiere al
mismo lugar se puede considerar comparar su nombre, su localización geográfica
(latititud y longitud), el país en el que están situadas o su población. Si todos o casi
todos los parámetros anteriores son similares podría concluirse que ambas
entidades se refieren realmente al mismo lugar.
Web semántica y tecnologías 2.0
TEMA 6 – Lo + recomendado
Lo + recomendado
No dejes de leer…
Linked Data – Design issues
En este breve documento el inventor de la web, Tim Berners-Lee, presenta las cuatro
reglas básicas que deben cumplir los contenidos incluidos dentro de la Linked Data.
El documento está disponible en el aula virtual y en la siguiente dirección web:
http://www.w3.org/DesignIssues/LinkedData.html
Linked Data: Evolving the Web into a Global Data Space
En este libro de Tom Health y Christian Bizer, disponible online, se puede encontrar
información suficiente sobre los contenidos cubiertos por este tema.
El artículo está disponible en el aula virtual y en la siguiente dirección web:
http://linkeddatabook.com/editions/1.0/#linkedData
How to Publish Linked Data on the Web
Este libro, complementa al anterior, especialmente gracias a su capítulo 7 en el que se
explican los principios básicos para que los datos publicados en la web en diferentes
formatos puedan ser “incluidos” dentro de Linked Data.
El artículo está disponible en el aula virtual y en la siguiente dirección web:
http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
Web semántica y tecnologías 2.0
TEMA 6 – Lo + recomendado
Linked Data – The Story so far
BIZER, C.; HEALTH, T.; BERNERS-LEE, T. International Journal on Semantic Web
and Information Systems. Special Issue on Linked Data.
En este artículo escrito por los principales expertos internacionales en el tema, se
describen los principios básicos de Linked Data y se introducen algunas de las
aplicaciones conseguidas hasta la fecha.
El artículo está disponible en el aula virtual y en la siguiente dirección web:
http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf
No dejes de ver…
Linked Data (and the Web of Data) por DERI (Irlanda)
En este video-tutorial se presenta una
introducción a Linked Data y los instrumentos
utilizados como URIs, fuentes de datos
distribuidas.
El video está disponible en el aula virtual y en la siguiente dirección web:
http://www.youtube.com/watch?v=GKfJ5onP5SQ
A quick introduction to Linked Data
En este breve video se motiva la aparición de
Linked Data.
El video está disponible en el aula virtual y en la siguiente dirección web:
http://www.youtube.com/watch?v=qMjkI4hJej0
Web semántica y tecnologías 2.0
TEMA 6 – Lo + recomendado
Tim Berners-Lee, presentaciones sobre Linked Data
Estas son algunas de las presentaciones realizadas por
Tim Berners-Lee sobre Linked Data. Tim Berners-Lee,
inventor de la WWW, es ahora uno de los mayores
impulsores de las web de los datos.
Los videos están disponibles en el aula virtual y en las siguientes direcciones web:
http://www.linkeddatatools.com/semantic-web-basics
http://www.youtube.com/watch?v=OM6XIICm_qo
http://www.youtube.com/watch?v=ga1aSJXCFe0
http://www.youtube.com/watch?v=6YKPqx3FXE4
Tom Health. “How to Publish Linked Data on the Web”
Se trata de un video-tutorial sobre la publicación de
información en Linked Data impartido por uno de los
principales expertos a nivel internacional en el tema.
El video está disponible en el aula virtual y en la siguiente dirección web:
http://videolectures.net/iswc08_heath_hpldw/
The Web, one huge database
Se trata de otro video tutorial en el que se
pretende motivar la necesidad de promover la
“web de los datos” frente al tradicional
paradigm de múltiples bases de datos
distribuidas en diferentes partes de la web.
La presentación está disponible en el aula virtual y en la siguiente dirección web:
http://www.youtube.com/watch?v=zwbs4ej0gpc
Web semántica y tecnologías 2.0
TEMA 6 – + Información
+ Información
Webgrafía
Linked Data
Página principal de la iniciativa Linked Data.
http://linkeddata.org
Linked Data Data Sets
Información sobre los data sets mantenidos por la iniciativa CKAN.
http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets
Michael Hausenblas, “Linked Data Applications”
Información sobre aplicaciones construidas sobre la base de Linked
Data
http://linkeddata.deri.ie/sites/linkeddata.deri.ie/files/lod-app-tr-2009-07-26_0.pdf
European Public Sector Information (PSI) Platform
Iniciativa para la integración de información del sector público europeo en Linked
Data.
http://www.epsiplus.net/
Web semántica y tecnologías 2.0
TEMA 6 – + Información
Iniciativa Linked Data gobierno Reino Unido
Iniciativa Linked Data del gobierno británico.
http://data.gov.uk/
Iniciativa Linked Data gobierno Estados Unidos
Iniciativa Linked Data del gobierno norteamericano.
http://www.data.gov/
Iniciativa Linked Data gobierno de Francia
Iniciativa Linked Data del gobierno francés.
http://data.gouv.fr/
Proyecto LATC
Página del proyecto LTAC.
http://latc-project.eu/
Web semántica y tecnologías 2.0
TEMA 6 – + Información
Proyecto LOD2
Página del proyecto LOD2.
http://lod2.eu/
Proyecto Planet Data
Página del proyecto Planet Data.
http://www.planet-data.eu/
DERI’s Linked Data Research Centre
Centro de investigación en Linked Data de DERI en Irlanda.
http://linkeddata.deri.ie/
Web semántica y tecnologías 2.0
TEMA 6 – + Información
Oficina W3C en España. Guía breve de Linked Data
Guía sobre Linked Data creada por la oficina W3C española.
http://www.w3c.es/divulgacion/guiasbreves/LinkedData
CKAN, The Data Hub
Página principal del CKAN.
http://ckan.net
Linked Data Cloud
Nube de nodos de Linked Data.
http://lod-cloud.net
SPARQL
Lenguaje de consultas sobre Fuentes de información semántica
SPARQL.
http://www.w3.org/TR/rdf-sparql-query/
Web semántica y tecnologías 2.0
TEMA 6 – + Información
DBPedia
Página de la DBPedia.
http://www.dbpedia.org
Geonames
Página de Geonames.
http://www.geonames.org
BBC
Páginas de programas y de música de la BBC.
http://www.bbc.co.uk/programmes
http://www.bbc.co.uk/music
Bibliografía
Vladan Devedzic. Semantic Web and Education. Springer’s Integrated Series in
Information Systems. ISBN: 0-387-35416-6
Brusilovsky, P. (1999). Adaptive and Intelligent Technologies for Web-based Education.
In C. Rollinger & C. Peylo (Eds.) Künstliche Intelligenz 4, Special Issue on Intelligent
Systems and Teleteaching, 19-25.
Web semántica y tecnologías 2.0
TEMA 6 – + Información
de Bruijn, J., Bussler, C., Domingue, J., Fensel, D., Hepp, M., Keller, U., et al. (2005).
Web Service Modeling Ontology (WSMO). W3C Member Submission. World Wide
Web Consortium.
Sicilia, M., & Garcia, E. (2005). On the convergence of formal ontologies and
standardized elearning. Journal of Distance Education Technologies, 3 (12), pp. 12-28.
Sicilia, M., Sanchez, S., Arroyo, S., & Martín, S. (2006). LOMR overal architecture.
LUISA Project Deliverable D4.1.
García, J., & Pariente, T. (2007). Digital Rights Management requirements. LUISA
Project Deliverable D5.1.
Web semántica y tecnologías 2.0
TEMA 6 – Actividades
Actividades
Práctica: Data sets para Educación
Se propone realizar una búsqueda de data sets en Linked Data que tengan aplicación en
el ámbito educativo. El alumno deberá presentar un breve informe (no más de cuatro
páginas) en el que establezca sus principales conclusiones. La información mínima que
debe contener el informe es:
Descripción del data set
Objetivos perseguidos
Tecnologías utilizadas
Otras fuentes de Linked Data enlazas desde el data set
Web semántica y tecnologías 2.0
TEMA 6 – Test
Test
1. ¿Cuál de los siguientes no forma parte de los principios básicos establecidos por Tim
Berners-Lee para Linked Data?
A. Usar RDF.
B. Usar URIs para identificar las cosas.
C. Incluir referencias a otras URIs.
D. Ninguna de las anteriores.
2. El protocolo recomendado para la resolución de una URI en Linked Data es HTTP.
A. Verdadero.
F. Falso.
3. Indique cuáles de las siguientes afirmaciones son correctas:
A. Una URL es una URI.
B. Una URI pueden utilizarse para identificar un objeto del mundo real.
C. Pueden existir URIs diferentes para identificar la misma entidad.
D. Todas las anteriores.
4. Si dentro de nuestro data set tenemos una URI a y dentro de la DBpedia tenemos
una URI b, la tripla “a owl:sameAs b” sería para nosotros:
A. Un enlace entrante.
B. Un enlace saliente.
C. Un enlace interno.
D. Ninguna de las anteriores.
5. Según la clasificación de datos de Tim Berners-Lee un fichero Excel con las
coordenadas geográficas de las capitales de provincia disponible en la web bajo licencia
abierta tendría una clasificación de:
A. Una estrella.
B. Dos estrellas.
C. Tres estrellas.
D. Cuatro estrellas.
Web semántica y tecnologías 2.0
TEMA 6 – Test
6. El catálogo genérico de data sets de Linked Data es accesible a través de:
A. DBpedia
B. Geonames
C. CKAN
D. W3C
7. ¿Cuántas triplas RDF hay en Linked Data?
A. Entre 10 y 100 millones.
B. Entre 101 y 1000 millones.
C. Entre 1001 y 10.000 millones.
D. Más de 10.000 millones.
8. Geonames es una base de datos con información sobre:
A. geología.
B. genética.
C. gerontología.
D. Ninguna de las anteriores.
9. ¿Cuál de las siguientes URIs sería la más adecuada para identificar a un profesor por
parte el equipo de publicación de la UNIR?
A. http://data.unir.net/people/LuisAnido
B. http://dbpedia.org/resource/LuisAnido
C. http://dbpedia.org/data/LuisAnido
D. http://data.unir.net:8080/resource/LuisAnido
10. ¿Cuál de las siguientes serían fuentes apropiadas para los vocabularios usados en
los predicados de un enlace Linked Data?
A. Dublin Core.
B. FOAF.
C. Good Relations Ontology.
D. Todas las anteriores.