![Page 1: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/1.jpg)
Big data-Projekte:Best practices aus der Praxis
Dr. Kathrin SpreyerBig Data Engineer
JAX / Big data daysMainz, 14.05.2014
![Page 2: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/2.jpg)
Agenda
1. Projekte
2. Big
3. Datenimport
4. Datenschutz
5. Testen
6. Tooling
7. Agilität
2
![Page 3: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/3.jpg)
Agenda
1. Projekte
2. Big
3. Datenimport
4. Datenschutz
5. Testen
6. Tooling
7. Agilität
2
![Page 4: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/4.jpg)
Zwei Projekte
• 1&1
• 2009-2013
• Web-Analytics
• ProsiebenSat.1 Digital (PSD)
• 2013-heute
• Integration von Reichweiten-, Vermarktungserlös- und Transaktionsdaten
3
![Page 5: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/5.jpg)
Architektur 1&1
4
![Page 6: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/6.jpg)
Architektur PSD
5
| 20. März 2013 | ProSiebenSat.1 Digital GmbH | Business Intelligence | Jürgen Popp Page 18
Lösungsansatz Hybrides System aus relationaler Datenbank und Hadoop Cluster
![Page 7: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/7.jpg)
Was heißt “Big?”
6
3V
![Page 8: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/8.jpg)
Was heißt “Big?”
6
3V
Parallelisierung
Skalierbarkeit
![Page 9: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/9.jpg)
Datenimport
7
Koordination m. Quellsystemen
Zwischenspeicherung
Skalierbarer Transport
(N)RT
![Page 10: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/10.jpg)
Datenschutz
8
Computersicherheit
Multi-Tenancy
![Page 11: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/11.jpg)
Datenschutz
8
Computersicherheit
Multi-Tenancy
PII
Anonymisierung
Nutzen vs. Anonymität
![Page 12: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/12.jpg)
Testen
9
KorrektheitRobustheitPerformanz
![Page 13: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/13.jpg)
Testen
9
KorrektheitRobustheitPerformanz
Regressions-/Akzeptanztests
![Page 14: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/14.jpg)
Testen
9
Datenmenge
KorrektheitRobustheitPerformanz
Testdauer
Regressions-/Akzeptanztests
Wartbarkeit (Fachseite)
![Page 15: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/15.jpg)
Tooling
10
![Page 16: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/16.jpg)
Tooling
10
Reifegrad
Downstream-AnforderungenDatenmodellierungRT?Nutzerakzeptanz
![Page 17: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/17.jpg)
Agilität
11
REfactoring mit neuen Technologien
Iterativinkrementell
![Page 18: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/18.jpg)
Agilität
11
Daten-Exploration
REfactoring mit neuen Technologien
Iterativinkrementell
Anforderungen erwachsen aus Daten
![Page 19: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/19.jpg)
Und jetzt?
12
Luecken
Junge Technologien
![Page 20: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/20.jpg)
inovex Academy
1. U.a. Hadoop-Entwickler-Training
2. 1-3 Tage
3. Inhouse oder offen
4. Offene Hadoop-Trainings 2014:
18.-20. März (Köln)24.-26. Juni (München)18.-20. November (Karlsruhe)
www.inovex.de/trainings/offene-trainings/
13
![Page 21: Big Data Projekte - Best Practices aus der Praxis](https://reader030.vdocument.in/reader030/viewer/2022032514/55d565e1bb61eb373a8b467a/html5/thumbnails/21.jpg)
14
Fragen?Meinungen?