Datenbankmanagement mit Klimadaten
Frank ToussaintDeutsches Klimarechenzentrum, Hamburg
1
• High performance computing
• Parallelization of climate models
• Efficient management of highest data volumes
D K R Z
3
Computer
Compute Nodes Disk Subsystem
Air Conditioning
4
• ModelloutputKlimaszenarien: < 1860 ‐ > 2100
• Reanalysedaten (ab 1958) für Vergleiche
• Einige Beobachtungsdaten
Klimadaten am Deutschen Klimarechenzentrum
5
• Beobachten/messen– viele Orte z.B. Wetter!– viele Objekte z.B. Statistik!
• Bearbeiten (lassen)– viel Arbeit: SETI, Klima, Elementarteilchen…
Qualitätsicherungs‐ und Rechtsfragenhängen meist vom Einzelfall ab.
Typen von Citizen Science
7
• Kometen‐Entdeckungen• Planetoiden‐Entdeckungen• Sonnenflecken(‐Fotos) • Variable Sterne• Extragalaktische Supernovae• Satelliten + ‐bruchstücke• Meteore + Meteoriteneinschläge auf /Planeten
nicht nur gesellschaftl. Wert!In Astronomie oft als Spielbein der Professionellen.
Beispiele Astronomie
8
Ziele (z.B.): • Kurzfristig: Pollenflug‐Vorhersage für Allergiker• Langfristig: Klimaänderungen feststellen
DWD: Ergebnisdaten offen im Web
Qualitäts‐Checks durch relative Vergleiche
CS in der Phänologie beim Deutschen Wetterdienst (DWD)
9
• KlimatrendsUnterscheidung von „Ausreißern“
Praxis Phänologie
10
LEL BW
Datenmanagement
12
Grafische Nutzer‐schnittstelle
Middelware
Datenhal‐ tung
• Umsetzung von Upload‐und Zugriffsrechten
• Nutzergerechte Katalogisie‐rung/Metadaten‐Erstellung
• Aufbereitung nutzerge‐rechter Anzeige / Suche
• Umformungen / Formate
Man kann alles programmieren, was man will, aber man weiß nicht immer, was man will.Datenmanagementplan? – VOR Projektstart!
Daten‐ bzw. Projektabhängig!• Citizen Science verändert durch IT/Internet• Klimamodelle: globales Projekt z.B. 40 Pbytes billiger, erstellende Programme zu speichern noch billiger, nur die Algorithmen…
• LoC: Alle Tweets…Langfristig interessantes DataMining…Kurzfristig…
Wieviel Speicher darf es denn sein?
13
Projektabhängig!• Metadaten‐Qualität nicht vergessen!• Verantwortung bei den „Citizens“…?Verantwortlicher Ansprechpartner?Gegenseitige Kontrolle?Abgleich verschiedener Teilnehmer
• Automatisierbarkeit von Q‐Checks?• Fotografische Messungen sind besser objektivier‐bar als Berichte über optische Beobachtungen!Gleiche elektronische Auswertung!
Sicherung der Datenqualität 1
14
Projektabhängig!
• Langfristig nutzbare Formate verwenden:ja: jpeg, ASCII/utf…
ASCII‐Derivate: csv, xml…nein: doc(x), odt, xls…
• Checksummen nutzen• Leseroutinen mit speichern?Begrenzt haltbar, aber Code in ASCII!
Sicherung der Datenqualität 2
15
• Lothar und der DWD: Automatische Korrektur (ggf. =Aussonderung) von Einzelwerten ist problematisch!
• Betrug dürfte selten eine Rolle spielen:– Tw. bei bezahlten Umfragen– Tw. aus Eitelkeit
Sicherung der Datenqualität 3: Beispiele
16
17
Phase Production & Post processing
ProjectPhase
Community Phase
BibliometricPhase
M1 M4MD Check
Data Check D1 D2 D3
M2 M3
Sicherung der Datenqualität am DKRZ
• Earth Science and others: Strong trend to full and open access – ICSU/WDS, RDA…
• CS in den Naturwissenschaften ganz überwiegend offen.
• Abhängig vom Projekt:Mehr eine soziale Frage als eine rechtliche.
• Vergleich mit offenen Software‐Projekten• CreativeCommons.org CC
Urheberrechte
18
Nutzen der Beobachter durch (Projekte wie z.B. WASCAL):
• Bekanntheit/Respekt in der Community CC BY zentrale WebSite mit freiwilliger Nennung
• Kein materieller Vorteil für Dritte CC BY‐NC Daten ins Netz
• Mitarbeit an wissenschaftl. Fragestellungen Übersichten/Kurzauswertungen ins Netz
Urheberrechte Messdaten
19
• Aus Sicht des Datenzentrums sollten Urheberrechte einfach sein und so einheitlich wie möglich.
• Meist CC BY, gelegentlich CC BY‐NC– gute Nutzerunterstützung– moderate Weiterentwicklung– weit verbreitet (auch staatliche Stellen…)– multilingual
Urheberrechte am DKRZ
20
b2share.eudat.eu
• Store: facilitates research
data storage
• Preserve: guarantees
long-term persistence of data
• Share: allows data, results or ideas
to be shared worldwide
B2SHARE is a user-friendly, reliable and trustworthy way for researchers, scientific communities and citizen scientists to storeand share small-scale research data from diverse contexts.
A winning solution to:
Projektbeispiel EUDAT – B2SHARE
b2share.eudat.eu
Beispiel EUDAT – B2SHARE
b2share.eudat.eu
B2SHARE features
• free upload and registration of stable research data
• data get assigned a permanent identifier, which can be retraced to the data owner
• openly accessible metadata
data integrity ensured by checksum during data ingest
professionally managed storage service – no need to worry about hardware or network
user support
25