dr. sven schlarb Österreichische nationalbibliothek scape ½ informationstag 05. mai 2014,...
TRANSCRIPT
Dr. Sven SchlarbÖsterreichische Nationalbibliothek
SCAPE ½ Informationstag05. Mai 2014, Österreichische Nationalbibliothek.
Das SCAPE Projekt: Langzeitarchivierung und SkalierbarkeitTeil 1: Überblick über das SCAPE Projekt
• “Big data” in Bibliotheken• SCAPE-Projekt Überblick• Themenbereiche
Übersicht
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
Worum gehts im Allgemeinen?• „Big data“ • VVV: Volume (Datenmenge), Variety (Datenvielfalt),
Velocity (Geschwindigkeit )• Skalierbarkeit in mehrerlei Hinsicht
• Anzahl• Größe• Komplexität• Vielfalt der Datenformate
• IT Umgebungen (Hardware, Software, Systeme), welche eine (kostengünstige) Verarbeitung großer Datenmengen ermöglichen
der zu verarbeitenden Objekte
• Google-Books-Projekt: 30 Millionen digitale Bücher• http://www.nybooks.com/articles/archives/2013/apr/25/national-digital-public-library-launched
• Europeana: Metadaten von über 24 Millionen Objekten• Europeana annual report and accounts 2012, Europeana Foundation, April 2013
• Hathi Trust: 10 Millionen Bände (über 5,6 Millionen Werke) mit insgesamt über 3,7 Milliarden Buchseiten
• http://www.hathitrust.org/statistics_info
• Internet Archive: 364 Milliarden Seiten, die ca. 10 Petabyte Speicher belegen.
• http://archive.org und http://archive.org/web/petabox.php
Große Projekte Digitaler Bibliotheken/Web-Archive
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
SCAPE Projektrahmen• SCAPE ist ein Nachfolge-Projekt des Planets-Projekts
(FP6)• Framework Program 7 (FP7) - Collaborative Project• Laufzeit: 44 Monate
• Februar 2011 – September 2014• Budget: 12.0 Millionen Euro
• Gefördert: 9.2 Millionen Euro
SCAPE Konsortium
Testbeds•Daten/Corpora
•Integration•Evaluation
Komponenten•Qualitätssicherung
•Skalierbare Komponenten•Automatisierbare Werkzeuge
Planung•Instiutionelle Richtlinien•Beobachtung technischer
Entwicklungen/Trends•Automatisierte Planung
Öffentlichkeitsarbeit•Interessensgruppen
•Verbreitung•Training
•Nachhaltigkeit
Übersicht über das SCAPE Projekt
Plattform•Workflows
•Parallelisierung•Virtualisierung
• Basis• Computer-Cluster• Virtualsierung
(XEN/Eucalyptus)• Softwareverteilung
• Debian Pakete• Tool Spezifikation
• Auftragsausführung• Apache Hadoop (HDFS/MapReduce)• Apache Oozie (Workflows)
Skalierbare Datenverarbeitung
Master
Slaves
• Fedora 4.0.0• Nur REST, kein SOAP• Auf der Basis von RDF• JCR 2.0 Implementieriung – ModeShape (Jboss)• Infinispan (Jboss) verteilter NoSQL Datenspeicher
• Lily 2.0• Basierend auf HBase/HDFS• Integrierte Datenverarbeitung
und –speicherung• MongoDB (NoSQL)
• Dokumentenorientiert (JSON)
Skalierbare Repositories/Datenbanken
In SCAPE entwickelte Software-Werkzeuge
Jpylyzer – JPEG 2000 Validierung
Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich
Pagelyzer– Web-Inhalte vergleichen
• Tool Wrapper• Integration bestehender Software-Werkzeuge in die SCAPE Platform
• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung
• Standardisierte Ausführung (Kommandozeile)• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.
• Generiert Langzeitarchivierungskomponenten • Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern• Automatischer Veröffentlichung von Kompmenten auf myExperiment• Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-Komponenten
vereinfacht
• Langzeitarchivierungswerkzeugkasten• Werkzeugsammlung für die Langzeitarchivierung• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung• Einfaches deployment unter Linux (via apt-get)
• apt-get install digital-preservation-tools
Integration existierender Software-Werkzeuge
• SCOUT: Automatisierte Überwachung der Langzeitarchivierung• Einbindung externer Informationsquellen• Fall-basierte Benachrichtigungsfunktionen
• c3po: Analyse von Archivinhalten• Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)• Auswertung von FITS-Datei-Analyseergebnissen• Detaillierte Statistiken• Möglichkeiten der Stichprobenbildung
• PLATO 4.1: Planung in der Langzeitarchivierung• www.ifs.tuwien.ac.at/dp/plato• Weiterentwicklung der Version aus dem Planets-Projekt• Neue Funktionalität
• Gemeinsame Planung der Langzeitarchivierung in Gruppen• Integration maschinenlesbarer Richtlinien
Planung der Langzeitarchivierung
SCAPE Architektur
Plan ManagementAPI
Digital Object Repository
ExecutionPlatform
JES
Hadoop
JES API
Data Connector API
Automated Watch
Automated Planning
PLATO
Plan Management
GUI
Digital Objects/ Metadata
Preservation Plan Store
Plan
Component Catalogue
ComponentLookup
API
Taverna Workbench
ComponentRegistration
API
Component Profile
Validator
Automated Watch
Sources
PushAPI
PullAPI
Knowledge
Source Adaptor
Client Service
Watch RequestAPI
Notification API
ReportAPI
Assessment
Data Publication
Platform
LDS3
APIDataLoader
Application