newsstream 3.0 – big-data-infrastruktur für journalisten

Post on 13-Aug-2015

787 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Symposium BigData Haus des Rundfunks, Berlin 18. Juni 2015 Dr. Gerd Kamp Leiter dpa-newslab / Chief Technology Scout dpa

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

• dpa-newslab

• news|stream Projektübersicht

• Motivation dpa / Kompetenzen neofonie

• Aktuelle Demonstratoren & “Epics"

2

Agenda

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

dpa-newslab

3

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

dpa-newslab: Übersicht

R & D Einheit der dpa Gruppe, seit 2009

Kleines Team

• Vorwiegend Informatiker/Entwickler + Entwicklungsredakteur / Datenjournalist + Graphiker

Arbeitsweise

• Demos not Memos

4

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

dpa-newslab: Schwerpunkt Development

• NewsApps für Nachrichtenprofis

• APIs für dpa / dpa-infocom Inhalte

• Clients / Apps / kundenspezifische Formate

5

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

dpa-newslab: Schwerpunkt Research

Formate, Workflows & APIs für (Meta-)Daten im Bereich Nachrichten

Zusätzliche Metadaten

• z.B. Geo-Metadaten, Bildschwerpunkte für Fotos

Nutzung dieser Metadaten für

• Suche (z.B. Faceted-Search)

• Präsentation, Layout, IA, UX

6

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Überblick news|stream

7

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Hauptziel des Projekts

Das Hauptprojektziel istdie echtzeitnahe Verarbeitung von hochdynamischen, unstrukturierten Nachrichtenströmen und die gleichzeitige Anreicherung mit bereits verarbeiteten und archivierten, strukturierten Nachrichtendaten, sowie mit externen Wissensbasenaus der Linked-Open-Data-Welt.

8

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Projektkonsortium

Technikpartner

• Fraunhofer IAIS (Konsortialführer, Schwerpunkt: Audio, Ansprechpartner Dr. Daniel Stein )

• neofonie GmbH (Schwerpunkt: Text, Ansprechpartner: Peter Adolphs)

Anwendungspartner

• Deutsche Welle (Schwerpunkt: Audio, Ansprechpartner: Cosmin Cabulea)

• dpa (Schwerpunkt: Text, Ansprechpartner: Dr. Gerd Kamp)

Laufzeit: 09/2014 - 08/2017

newsstreamproject.org, @wearenewsstream

9

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Projektziele

Ziel 1

• Big-Data-Infrastruktur zur effizienten und echtzeitnahen Analyse von heterogenen Nachrichtenströmen

Ziel 2

• Semantische Analyse von multimodalen und unstrukturierten Nachrichtendaten

Ziel 3

• Pilotierung und Erprobung der neuartigen Analyseinfrastruktur in realen Nachrichtenumgebungen

10

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Anwendungsszenarien

Szenario 1 (DW)

• Unterstützung der journalistischen Arbeit mit Big Data durch automatisches Filtern und Aggregieren verschiedener Quellen

Szenario 2 (DW):

• Computer-Assisted Reporting 3.0

Scenario 3 (dpa):

• Bewältigung von Big Data im hektischen Tagesgeschäft

11

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Szenario 3: Bewältigung

Unterstützung beim Information Overload bei "Großlagen"

Aktualisierung / Pflege von Hintergründen und Fakten

Monitoring von Online und SocialMedia, Archivsuche

Scouting nach neuen Themen, neuen Blickwinkeln/Aspekten

12

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Motivation dpa-newslab / dpa für Newsstream 3.0

13

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Neues Format: Von IPTC7901 / NITF zu NewsML G2

Mit Abstand das größte Projekt der dpa in den letzten Jahren

Beinhaltet Entwicklung und Roll-Out eines neuen Redaktionssystems (1,5 x)

• Roll-Out erste Version 2012 / 2013

Struktur in den Meldungen

• Mehr Metadaten,

• Semantisches HTML für die Auszeichnung des Inhaltes

• Einheitliches Format

• Kuratierung (Text-Bild-Verknüpfung, Themenpakete, Rubrikenpakete, Terminpakete, …)

14

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Neues Format: Von IPTC7901 / NITF zu NewsML G2

newslab seit 2012 involviert

Rolle:

• Erster Kunde des Formates

• Nutzung des Formates zum Bau von Apps und APIs

• Feedback an Formatentwickler und Definition des semantischen HTML der Artikel

15

Format: Archive < 1983Digitalisierter Mikrofilm

16Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Aktuelles BasisdienstformatImmer noch IPTC7901

17Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

^Ahsh0008 3 vm 205 lno 0039^M Leute/USA/Deutschland/^M ^B(Medien-Info)^M Zeitung: Robert Redford hat in Hamburg geheiratet^M (Mit Bild) =^M Hamburg (dpa) - Hollywood-Star Robert Redford (72) hat nach^M Informationen des «Hamburger Abendblatts» seine langjährige Freundin^M Sibylle Szaggars (51) in Hamburg geheiratet. Die Trauzeremonie mit^M etwa 30 Gästen sei am vergangenen Samstag im engsten Familienkreis im^M Hotel «Louis C. Jacob» gefeiert worden, berichtet das Blatt am^M Mittwoch. Dort habe das Paar mehrere Tage gewohnt. Zuvor hatte es^M demnach bereits standesamtlich geheiratet. Der Oscar-Preisträger^M Redford und die Malerin Szaggars sind seit 1996 liiert. Für beide ist^M es nicht die erste Ehe. Szaggars ist gebürtige Hamburgerin, lebt aber^M seit vielen Jahren in den USA. Eine weitere Hochzeitsfeier will das^M frisch getraute Paar laut Zeitung im September in Mexiko feiern.^M …. dpa gth yyzz n1 gth^M ^C150500 Jul 09 ^MText

2010 dpa-NotizblockMarkdown um XHTML in ASCII zu tunneln

18Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

# dpa-Notizblock ## Berichtigung- Im Zeile 4 wurde geändert: Vier-Raum-Wohnung (statt: Drei-Raum) ## Achtung- Zusammenfassung folgt - 20 Zl bis 1400 ## Internet - [Studie zum Wohnungsmangel in Deutschland](http://dpaq.de/VZRVW) - [Daten zum Wohnen](http://dpaq.de/dgheZh)

## Orte - [SP Eduard Pestel Institut für Systemforschung](Königstr. 50a, 30175 Hannover)

## Service - [Studie zum Wohnungsmangel](Meier-Verlag 2009. 300 S. Euro 35,00, ISBN:300356756)

## Hinweise - RegioData: Angebot von Regiodata zum Wohnungsmarkt in Deutschland

* * * * Die folgenden Informationen sind nicht zur Veröffentlichung bestimmt ## Ansprechpartner - x. xxxxxx, im Eduard Pestel Institut für Systemforschung, 0511/xxxxx-xx x.xxxxx@pestel-institut.de ## Autoren/Kontakt - Andreas Meyer <meyer.andreas@dpa.com> und Klaus Müller, mueller.klaus@dpa.com - Bearbeiter: Hans-Jürgen Ehlers Tel. 040/4113-xxxxx, hamburg@dpa.com

dpa am/km yyzz eh

Aktuelles OnlineformatNITF 3.0

19Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

NewsML G2 Textwire Textfunk

20

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

NewsML G2 Textwire Textfunk

21

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /1

Newsroom Workflows

• Verwendung von BigData-Technologien zum effizienten Filtern /zur effizienten Recherche.

• Übergreifend über die aktuelle Produktion , das Archiv, sowie Onlinemedien und / soziale Medien

22

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /2

Effiziente Workflows zur Anreicherung der Nachrichten „an der Quelle“

• Daten, Metadaten, Wissen

• Semi-automatisch durch Unterstützungssysteme,

• Journalist / Nutzer im „Driver Seat“, Algorithmen machen Vorschläge

Technologien: NLP, Textmining, Klassifikation, …

23

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Ansätze & Ideen (dpa) für newsstream: Von Entwicklern / Entwicklertools lernen

Leitbilder:

• Konfigurierbare Dashboards, Facettierte Suche

• Integrated Authoring Environment

• Github / Gist for News

24

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

neofonie: Kompetenzen & Technologien

25

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

neofonie: Kompetenzen

Big Data

• Textmining auf großen Datenmengen seit > 5 Jahren

Textanalyse API (TXT Werk)

• Extraktion von Metadaten mit linguistischen und statistischen Verfahren

26

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

neofonie : Big-Data-Technologien

Realisierung der Big-Data-Plattform auf Entwicklungscluster mit 16 Nodes (100 TB Speicherkapazität)

• Apache Spark: Batchverarbeitung und Spark Streaming

• Suchintegration über Cloudera Search/Apache Solr

• Konfigurierbare Dashboards mit “Banana”

27

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

neofonie: Textanalyse

TXT Werk API (http://txtwerk.de/)

• Entitätenerkennung und -verlinkung

• Erkennt Personen,Orte, Organisationen, Jobtitle und Events

• Verlinkung mit LInked-Open-Data-Quellen (Freebase/Wikidata)

• Erkennung unbekannter Personen und Orte mit maschinellen Lernverfahren

• Extraktion der wichtigsten Schlüsselwörter mit statistischen Verfahren

• Klassifikation nach Nachrichtenressorts

• Automatische Zitaterkennung mit rudimentärer Quellenerkennung

• Datumserkennung inkl. Auflösung von Begriffen wie "morgen"

28

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Aktuelle Demonstratoren & „Epics“

29

"Epic": Sprecher- / EreigniserkennungSoftware analysiert live-Audio und reagiert, wenn bekannte Sprecher auftauchen Auch möglich für beliebige Live-Daten (Dax, Rheinpegel)

ENTWURF

30Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

"Epic": O-Ton-ZuordnungRedakteur markiert Zitat im Text, Software ordnet Audio-Schnippsel zu

ENTWURF

31Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

"Epic": “named entities”-Verlinkung Schlagworte, Orte, Personen, Zitate, Organisationen werden erkannt und vorgeschlagenVerlinken mit dpa und anderen Quellen

32Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

ENTWURF

EPIC: Bilden von ThemenbündelnTextähnlichkeit dpa Subjects & Keywords, Themenpakete neofonie Klassifikatoren und Schlagwörtern

ENTWURF

33Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Demonstrator: Vergleich von Texten

Text-Alignment

CVS / diff / 3-way merge

34Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

"Epic": Twitter-Statistik “Live”#Hashtag oder Wort-Statistik im Zeitverlauf

ENTWURF

35Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Demonstrator: Twitter-Dashboardhttp://newsstreamproject.org/werkstattbericht-no-1/

36Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Demonstrator: Twitter-Dashboardhttp://newsstreamproject.org/werkstattbericht-no-1/

37Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Danke

Dr. Gerd Kamp

gkamp@acm.org

@gkamp

38

UmsetzungArchitektur

Archivierte,multimediale

Nachrichteninhalte

Dynamische Nachrichtenströme

Analyse von unstrukturierten

Daten

Aggregierte Metadaten

Kontextualisierung & semantische

Analyse Anreichern

Filtern

IndexierenSemantische Suche undVerwendung von Inhalten

Audio undVideo

RSS Feeds& Websites

Social Streams

Linked & Sensor Data

Newsroom

Batch Layer

Speed Layer

39Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Umsetzung: Lambda-Architektur

Batch Layer

• Batch Function: Prozessierung aller gesammelten Original-Daten

• Batch View: Aufbereitung zur Präsentation der Berechnungs-Ergebnisse

• Batch-Prozesse werden zyklisch wiederholt

Speed Layer

• Unmittelbare Verarbeitung von einkommenden Daten

• Prozessierung zur Präsentation in der Anwendung

• Überbrückung der Batch-Laufzeiten

40

top related