dr. sven schlarb Österreichische nationalbibliothek scape ½ informationstag 05. mai 2014,...

Dr. Sven SchlarbÖsterreichische Nationalbibliothek

SCAPE ½ Informationstag05. Mai 2014, Österreichische Nationalbibliothek.

Das SCAPE Projekt: Langzeitarchivierung und SkalierbarkeitTeil 1: Überblick über das SCAPE Projekt

• “Big data” in Bibliotheken• SCAPE-Projekt Überblick• Themenbereiche

Übersicht

This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐

Worum gehts im Allgemeinen?• „Big data“ • VVV: Volume (Datenmenge), Variety (Datenvielfalt),

Velocity (Geschwindigkeit )• Skalierbarkeit in mehrerlei Hinsicht

• Anzahl• Größe• Komplexität• Vielfalt der Datenformate

• IT Umgebungen (Hardware, Software, Systeme), welche eine (kostengünstige) Verarbeitung großer Datenmengen ermöglichen

der zu verarbeitenden Objekte

• Google-Books-Projekt: 30 Millionen digitale Bücher• http://www.nybooks.com/articles/archives/2013/apr/25/national-digital-public-library-launched

• Europeana: Metadaten von über 24 Millionen Objekten• Europeana annual report and accounts 2012, Europeana Foundation, April 2013

• Hathi Trust: 10 Millionen Bände (über 5,6 Millionen Werke) mit insgesamt über 3,7 Milliarden Buchseiten

• http://www.hathitrust.org/statistics_info

• Internet Archive: 364 Milliarden Seiten, die ca. 10 Petabyte Speicher belegen.

• http://archive.org und http://archive.org/web/petabox.php

Große Projekte Digitaler Bibliotheken/Web-Archive

This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐

SCAPE Projektrahmen• SCAPE ist ein Nachfolge-Projekt des Planets-Projekts

(FP6)• Framework Program 7 (FP7) - Collaborative Project• Laufzeit: 44 Monate

• Februar 2011 – September 2014• Budget: 12.0 Millionen Euro

• Gefördert: 9.2 Millionen Euro

SCAPE Konsortium

Testbeds•Daten/Corpora

•Integration•Evaluation

Komponenten•Qualitätssicherung

•Skalierbare Komponenten•Automatisierbare Werkzeuge

Planung•Instiutionelle Richtlinien•Beobachtung technischer

Entwicklungen/Trends•Automatisierte Planung

Öffentlichkeitsarbeit•Interessensgruppen

•Verbreitung•Training

•Nachhaltigkeit

Übersicht über das SCAPE Projekt

Plattform•Workflows

•Parallelisierung•Virtualisierung

• Basis• Computer-Cluster• Virtualsierung

(XEN/Eucalyptus)• Softwareverteilung

• Debian Pakete• Tool Spezifikation

• Auftragsausführung• Apache Hadoop (HDFS/MapReduce)• Apache Oozie (Workflows)

Skalierbare Datenverarbeitung

Master

Slaves

http://hadoop.apache.org/

http://oozie.apache.org/

• Fedora 4.0.0• Nur REST, kein SOAP• Auf der Basis von RDF• JCR 2.0 Implementieriung – ModeShape (Jboss)• Infinispan (Jboss) verteilter NoSQL Datenspeicher

• Lily 2.0• Basierend auf HBase/HDFS• Integrierte Datenverarbeitung

und –speicherung• MongoDB (NoSQL)

• Dokumentenorientiert (JSON)

Skalierbare Repositories/Datenbanken

In SCAPE entwickelte Software-Werkzeuge

Jpylyzer – JPEG 2000 Validierung

Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich

Pagelyzer– Web-Inhalte vergleichen

• Tool Wrapper• Integration bestehender Software-Werkzeuge in die SCAPE Platform

• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung

• Standardisierte Ausführung (Kommandozeile)• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.

• Generiert Langzeitarchivierungskomponenten • Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern• Automatischer Veröffentlichung von Kompmenten auf myExperiment• Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-Komponenten

vereinfacht

• Langzeitarchivierungswerkzeugkasten• Werkzeugsammlung für die Langzeitarchivierung• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung• Einfaches deployment unter Linux (via apt-get)

• apt-get install digital-preservation-tools

Integration existierender Software-Werkzeuge

• SCOUT: Automatisierte Überwachung der Langzeitarchivierung• Einbindung externer Informationsquellen• Fall-basierte Benachrichtigungsfunktionen

• c3po: Analyse von Archivinhalten• Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)• Auswertung von FITS-Datei-Analyseergebnissen• Detaillierte Statistiken• Möglichkeiten der Stichprobenbildung

• PLATO 4.1: Planung in der Langzeitarchivierung• www.ifs.tuwien.ac.at/dp/plato• Weiterentwicklung der Version aus dem Planets-Projekt• Neue Funktionalität

• Gemeinsame Planung der Langzeitarchivierung in Gruppen• Integration maschinenlesbarer Richtlinien

Planung der Langzeitarchivierung

http://www.ifs.tuwien.ac.at/dp/plato

SCAPE Architektur

Plan ManagementAPI

Digital Object Repository

ExecutionPlatform

JES

Hadoop

JES API

Data Connector API

Automated Watch

Automated Planning

PLATO

Plan Management

GUI

Digital Objects/ Metadata

Preservation Plan Store

Plan

Component Catalogue

ComponentLookup

API

Taverna Workbench

ComponentRegistration

API

Component Profile

Validator

Automated Watch

Sources

PushAPI

PullAPI

Knowledge

Source Adaptor

Client Service

Watch RequestAPI

Notification API

ReportAPI

Assessment

Data Publication

Platform

LDS3

APIDataLoader

Application

dr. sven schlarb Österreichische nationalbibliothek scape ½ informationstag 05. mai 2014,...

Documents