bsb demo day - schlarb - workflow-design

Post on 29-Nov-2014

464 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Entscheidungsfindung in der Digitalisierung durch experimentelle Workflow-Entwicklung

Sven Schlarb, Austrian National LibraryIMPACT Demo Day

München, 11. Oktober 2011

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2

OCR: Herausforderungen …I. Bildvorverarbeitung und OCR

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3

OCR: Herausforderungen …II. Linguistische Nachbearbeitung (Gemischte Sprachen, Historische

Varianten, etc.)

Beispiel: Historische Varianten des Niederländischen Worts ‘wereld’(Welt):

werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlyt wereldts vveerelts waereld weerelden waerelden weerlt werlt werelds sweerels zwerlys swarels swerelts werelts swerrels weirelts tsweerelds werret vverelt werlts werrelt worreld werlden wareld weirelt weireld waerelt werreld werld vvereld weerelts werlde tswerels werreldts weereldt wereldje waereldje weurlt wald weëled

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4

… und eine Vielfalt an Lösungen� 22 verschiedene ‘Werkzeuge’ von verschiedenen Entwicklern und

aus unterschiedlichen Work Packages � Unterschiedliche technische Umgebungen:

– OCR (C++, C#),

– Bildverarbeitung & Lexika (C, C++, DLL),

– Kommandozeilenprogramme (Windows/Linux),

– Java, Ruby, PHP, Perl, etc.

� IMPACT Interoperability Framework (IIF)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5

Technische Herausforderungen� Skalierbarkeit

– Umfang der Eingabedaten (Einzelne Seiten / tausendeBücher/Zeitungen)

– Größe der Eingabedaten (z.B. sehr hochauflösende Bilder)� Stabilität

– Parallelisierung – Geklonte Knoten → Gleiches Verhalten?– Failover – Alternative Knoten bei Fehlern– Korrekte Funktionsweise der Einzelkomponenten

� Transparenz– Verständliche Fehlermeldungen während der Stapelverarbeitung

auf den verschiedenen Architekturebenen (Werkzeug-, Service-, Workflowebene)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6

Experimentelle Workflow-Entwicklung

� Beispieldaten online verfügbar → Reproduzierbarkeit

� Workflows unmittelbar ausführbar → Vergleichbarkeit

� Workflow-Entwicklung als eine gemeinsame, institutionsübergreifende

Aktivität → Annotation, Bewertung

� „Auf-einen-Blick“-Darstellung des Workflows

� Auffindbarkeit von Komponenten und Workflows, und Workflow-

Fragmenten

� Zentraler Ergebnisdatenspeicher

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7

Interoperability Framework� Interoperabilität vs. Integration� Web-basiert vs. lokale Applikation/Plattform

� Java 6� Apache Tomcat� Apache Axis2� Apache Synapse (optional)� Taverna Workflow Engine

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8

Tool Wrapper

Anforderung: Werkzeug als Kommandozeilenprogramm verfügbar

Tool wrapper code im Github Repository der Open Planets Foundation (OPF) verfügbar:

https://github.com/openplanets/scape/tree/master/xa-toolwrapper

� Minimaler Integrationsaufwand für Werkzeug-Entwickler

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

9

Service Oriented Architecture� Java als

Programmiersprache

� Standard Apache Komponenten

� Synapse als Enterprise Service Bus (load balancing & fail over)

� HTTPS Verschlüsselung& Basic Auth

� Minimaler Aufwand für das Komponenten-Deployment

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

10

Verknüpfung von Einzelkomponenten zu einem

„Workflow“

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11

Workflow-Entwicklung

� OCR workflow = Datenverarbeitungspipeline

� Komponenten =

Verarbeitungsschritte(knoten)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Workflow-Komponenten

� “Basic” workflow = Minimal-Komponente für ein IMPACT-Werkzeug

� Gut dokumentiert, Beispieldaten vorhanden, ausführbar

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

13

Workflow Management� Komponenten-Verzeichnis: myExperiment

� Localer Client: Taverna Workbench

� Web Client: Projekt Website

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Workflow-Verzeichnis

� Komponenten und Workflowsveröffentlichen

� Bewerten, Taggen, Kommentieren, ...

� Verweise auf verwendete Komponenten und Workflows anderer Nutzer

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Komponenten-Katalog?

Tool

Bitonal imageInput and output

binary image, but incompatible

Bitonal image

GetImageFromURL

URL String

Bitonal imageRGB Image

RGB Image

How to find the corresponding tool?

How to proceed in case of a Gap?

Viele Fehler unterlaufen, weil Anforderungen an Eingabe- und Ausgabedaten nicht ausreichend spezifiziert (formalisiert!) sind.

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Local client: Taverna Workbench

http://www.taverna.org.uk/

� Hintergrund: Bioinformatik

� Entwickelt vonmyGrid, Manchester

� Verfügbar für Windows/Linux/OSXals Open Source

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

17

Workflowentwicklung in Taverna� Workflows lassen sich

einfach aus verfügbaren Komponenten und Workflows erstellen (drag and drop)

� Hinweis: Komplexität limitiert →Zusammengehörende Arbeitsschritte in Komponente zusammenfassen

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Web client: Taverna Server/Workflow Parser

� SOAP/REST API

� Entfernte Workflowausführung durch Übergabe der XML-Instanz

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

25

Use case: Workflows für die Evaluation

� Werkzeug A vs. Werkzeug B (Werkzeug A(v1) vs Werkzeug A(v2))

� Workflow X (Werkzeug A + B) vs Workflow Y (Werkzeug A + C)

� Optimaler Workflow mit Bezug auf das Quellmaterial ermitteln

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

26

Zentraler Ergebnisdatenspeicher

Schnittstelle zur Speicherung von Ergebnisdaten (WebDAV) und zurBerichterstellung (Apache POI) als Workflow-Modul realisiert

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

27

Workflows in laufenden Projekten

� Workflows in der Digitalisierung � IMPACT

� Workflows in der Linguistischen Analyse � CLARIN

� Workflows in der Langzeitarchivierung � SCAPE

� Und viele mehr ...

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

28

Kompatibilität der Workflow-Frameworks

� Beispiel: UIMA ↔ Taverna� Eigennamenextraktion → Linguistische Analyse → Semantic Web� Digitalisierung, OCR → Langzeitarchivierung

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Danke! Fragen?

top related