schnelle anfrageverarbeitung im big data umfeldubicomp/projekte/master2… · hauptseminar...

SchnelleAnfrageverarbeitungimBigDataUmfeld

AlexanderPonomarenkoHAWHamburg,MasterInformatikHauptseminarWintersemester2016

20.12.2016

Agenda

• Motivation• BigDataundNoSQL• ApproximativeAnfrageverarbeitung• BlinkDB• SnappyData• Ziele• Risiken

20.12.2016 2

Motivation[2]

• Datenmengennehmenzu– 2012:2,8Zettabyte– 2020:40Zettabyte

• GroßeDatenmengen:Auswertungdauertlange

20.12.2016 3

1000 Kilobyte1000^2 Megabyte1000^3 Gigabyte1000^4 Terabyte1000^5 Petabyte1000^6 Exabyte1000^7 Zettabyte

20.12.2016 4[1]

Motivation[3]

• 7,5TerabyteDaten• Durchschnittswertberechnen

• Verteiltauf100AmazonEC2• Hive/Hadoop

20.12.2016 5

Motivation

• Auswertungdauertzulangeà Ergebnismöglicherweisenutzlos

• WowerdenschnelleAntwortenbenötigt?– Preisvergleiche– KurzfristigerHandelmitWertpapieren– SozialeNetzwerke– ...

20.12.2016 6

BigData[4,5]

20.12.2016 7

ProMinute:Facebook– 2,5MillionenInhalte

Twitter– 600.000TweetsInstagram– 220.000FotosEmail– über200Millionen

ProMinute:Google– über2MillionenSuchabfragen

Amazon– 80.000$UmsatzYouTube– 72StundenVideomaterial

Datensindunterschiedlichundnichtstrukturiert

RelationaleDBdafürnichtausgelegt

NoSQL[6,7]

• NichtrelationaleDaten-Modelle• UnnötigeSQL-Features• SehrgroßeDatenmengen• VerteilteDB-Systeme:SchnellesLesenundSchreiben

• HochverfügbarkeitwichtigeralsKonsistenz

20.12.2016 8

Nochschneller??

20.12.2016 9[B1]

HardDisks

½- 1Stunde 1- 5Minuten 1Sekunde

?Memory

Anfrageverarbeitung aufSamples

100TBauf1000Knoten[9]

20.12.2016 10

AnfrageverarbeitungaufSamples[10,11]

• Sample:„Stichprobe“/„Beispiel“/„Muster“à AlsoeinTeilderoriginalenDaten

• NureinTeilderDatenwirdausgewertet• Dadurchschneller• Sampleswerdenvorberechnet• Antwortistungenau• AberderFehlerderAntwortistbekannt

20.12.2016 11

Samples[11]

20.12.2016 12

WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?

80.848,17€

ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€

Samples[11]

20.12.2016 13

80.848,17€73.611,00€+/- 7.237,17€

Sample

80.848,17€

ID Stadt Gehalt Rate1 Hamburg 50.000,€ 1/45 Berlin 98.341,€ 1/48 Berlin 72.492,€ 1/4

Samples[11]

20.12.2016 14

80.848,17€73.611,00€+/- 7.237,17€81.804,17€+/- 956,00€

Sample

80.848,17€73.611,00€+/- 7.237,17€

ID Stadt Gehalt Rate1 Hamburg 50.000,€ 1/24 Hamburg 120.242,€ 1/25 Berlin 98.341,€ 1/27 Hamburg 60.000,€ 1/210 Hamburg 92.242,€ 1/211 Berlin 70.000,€ 1/2

Geschwindigkeit/Genauigkeit [9]

20.12.2016 15

Fehler

AusführungszeitaufgesamterDatenbasis

InteractiveQueries

2 SekAusführungszeit (Sample-Größe)

Geschwindigkeit/Genauigkeit [9]

20.12.2016 16

Fehler

AusführungszeitaufgesamterDatenbasis

InteractiveQueries

BereitsExistierender

Fehler

Ausführungszeit (Sample-Größe)

Sampling/keinSampling[9]

20.12.2016 17

0100200300400500600700800900

1 10-1 10-2 10-3 10-4 10-5

Teilmengen dergesamten Datenbasis

ortzeitd

erAbfrage

(Sekun

18 13 10 8

(0.02%)(0.07%) (1.1%) (3.4%) (11%)

Fehler

Uniform/Stratified Samples[10,11]

20.12.2016 18

UniformSample

ID Stadt Gehalt Gewicht1 Hamburg 50.000,€ 1/65 Berlin 98.341,€ 1/6

ID Stadt Gehalt Gewicht1 Hamburg 50.000,€ 1/75 Berlin 98.341,€ 1/5

StratifiedSample

BlinkDB[12]

• MassivparallelesFrameworkfürapproximativeAnfrageverarbeitungaufgroßenDatenmengen

• AntwortenineinersehrkurzenZeit• AntwortenmiteinergarantiertenFehlerquote• SkalierbaresSystem,dasfürPetabytevonDatenausgelegtist

20.12.2016 19

BlinkDB:Anfragen[10]

SELECTCOUNT(*)FROMSessionsWHEREGenre=’western’GROUPBYOSERROR0.1CONFIDENCE95%

SELECTCOUNT(*),ERRORAT95%CONFIDENCEFROMSessionsWHEREGenre=’western’GROUPBYOSWITHIN5SECONDS

20.12.2016 20

SampleManagement[13]

• ZukünftigeAnfragensind„ähnlich“• Aberwasist„ähnlich“?• VerschiedeneModelle:– VorhersagbareAnfragen• Werte inWHERE,GROUPBY,HAVINGidentisch

– Vorhersagbare Anfrage-Prädikate• Häufigkeit vonWHERE,GROUPBY,HAVINGbleibt gleich

–MengenderSpaltenändernsichnicht• KeineAnnahmeüberWHERE,GROUPBY,HAVING

20.12.2016 21

BlinkDB:SampleManagement[13]

• MengenderSpaltenändernsichnichtà „QueryColumn Set“(QCS)

• InrealenUmgebungenkommendieselbenQCSssehrhäufigvor– Beispieldaten:Facebook+Conviva

20.12.2016 22

BlinkDB:BeispielfürQCSs[13]

20.12.2016 23

BlinkDB:Ausführungsgeschwindigkeit[3]

20.12.2016 24

BlinkDB:Aktueller Stand[19]

• Letzter Commit2014• Projekt steht still

à Gibt es etwas Aktuelleres?

20.12.2016 25

Anforderungen anBig-Data-Umgebungen[18]

• Kontinuierliches Stream-Processing• Sehr schreibintensive Workloads(OLTP)• Interaktive SQL-Analysen (OLAP)

20.12.2016 26

à Lambda-Architektur

Vorhandene Lösungen[18]

• Hohe Komplexität• Niedrige Performance• Verschwendete Ressourcen• Interaktive Analysen ungenügend

à Verbesserungen möglich?

20.12.2016 27[B4]

SnappyData[14,15,16]

20.12.2016 28

SingleUnifiedClusterOLTP+OLAP+Streaming

BatchDesignHoher Durchsatz

RealTimeDesignNiedrige LatenzHochverfügbarkeitConcurrency

ApproximateQueryProcessing

SnappyData:Ziele[18]

• Schnelle interaktive Analysen• Geringe Investitionen inCluster-Infrastruktur• Geringere Komplexität(im Vergleich zur Lambda-Architektur)

• Einschränkungen:– Terabytes,nicht Petabytes– Keine UseCases,dieeine sehr geringe Latenzbenötigen (Bsp:Wertpapierhandel)

20.12.2016 29

Meine Ziele (1)

• ExperimentierplattformmitSnappyDataaufHAW-Clusterrealisieren(à geradedabei)

• ExperimentierplattformmitSnappyDatabeieinemCloud-Anbieter(AWS?)realisieren

• Performance-Analysendurchführen(TPCBenchmarks)

20.12.2016 30

Meine Ziele (2)

• GibteseineGrenze,abdersichdieapproximativeAnfrageverarbeitunglohnt?– AbwelcherDatenmenge?– BeiwelchenAnwendungsfällen?– BeiwelchenAbfragearten?

• Lässt sich dieQualität derGenauigkeitverbessern?

20.12.2016 31

Risiken

• Probleme bei derInstallation(HAW-Cluster+Cloud-Anbieter)

• Kosten derCloud-Anbieter• Keien Grenze definierbar,abdersich AQPlohnt

• Hürde:Statistische Modelle

20.12.2016 32

Fragen?

20.12.2016 33

Literatur1. U.S.Government’s DataExplosion (Infographic),https://whatsthebigdata.com/2014/09/15/u-s-governments-data-explosion-infographic/,letzterZugriff:12.12.20162. 2.800.000.000.000.000.000.000Byte:DasdigitaleUniversumschwilltan.http://www.spiegel.de/netzwelt/web/das-internet-der-dinge-erzeugt-2-8-zettabyte-daten-a-872280.html,

letzterZugriff:18.12.20163. Mozafari,B.BlinkDB:AMassively ParallelQueryEnginefor BigData,2013.http://istc-bigdata.org/index.php/blinkdb-a-massively-parallel-query-engine-for-big-data/,letzterZugriff:

18.12.20164. DominikKlein,Phuoc Tran-Gia,M.H.Bigdata,2013.http://www.gi.de/service/informatiklexikon/detailansicht/article/big-data.html,letzterZugriff:18.12.2016.5. TheDataExplosionin2014MinutebyMinute– Infographic,2014.http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/,letzterZugriff:18.12.20166. Hecht,R.,andJablonski,S.NoSQLevaluation:Ausecaseorientedsurvey.Proceedings- 2011InternationalConferenceonCloudandServiceComputing,CSC2011(2011),336–341.7. Pritchett,D.Base:anAcid Alternative.Queue6,3(2008),48–55.8. Dean,J.,andGhemawat,S.Mapreduce:simplifieddataprocessingonlargeclusters.Commun.ACM51,1(2008),107–113.9. Agarwal,S.Blinkdb:ApproximateQueriesonVeryLargeData,2013.https://spark-summit.org/wp-content/uploads/2013/10/BlinkDB-SparkSummit-v3.pptx,letzterZugriff:

18.12.2016.10. Agarwal,S.,Mozafari,B.,Panda,A.,Milner,H.,Madden,S.,andStoica,I.BlinkDB:querieswithboundederrorsandboundedresponsetimesonverylargedata.Proceedingsofthe

8thACMEuropeanConferenceonComputerSystems- EuroSys ’13(2013),29.11. Agarwal,S.Blinkdb:Qureying petabytes of data inseconds using sampling,2014.http://de.slideshare.net/Hadoop_Summit/t-1205p212agarwalv2,letzterZugriff:18.12.2016.12. Agarwal,S.,Iyer,A.P.,Panda,A.,Madden,S.,Mozafari,B.,and Stoica,I.Blinkand it’s done:interactive queries onvery largedata.Proceedings of the VLDBEndowment 5,12(2012),

1902–1905.13. Upreti,N.IntroductiontoBlinkDB :QuerieswithBoundedErrorsandBoundedResponseTimesonVeryLargeData,2014.http://de.slideshare.net/nitishupreti/blinkdb,letzterZugriff:

18.12.201614. http://www.snappydata.io/product,letzterZugriff:12.12.201615. https://pivotal.io/big-data/pivotal-gemfire,letzterZugriff:12.12.201616. https://spark.apache.org,letzterZugriff:12.12.201617. http://www.slideshare.net/sawjd/explore-big-data-at-speed-of-thought-with-spark-20-and-snappydata,letzterZugriff:12.12.201618. Mozafari,Jags Ramnarayan1Barzan and Menon,Sumedh Wale1Sudhir and Chakraborty,Neeraj Kumar1Hemant Bhanawat1Soubhik and Bachhav,Yogesh Mahajan1Rishitesh

Mishra1Kishor,SnappyData:Streaming,Transactions,and InteractiveAnalyticsinaUnifiedEngine,http://www.snappydata.io/snappy-industrial,letzterZugriff:18.12.201619. https://github.com/sameeragarwal/blinkdb,letzterZugriff:17.12.2016

BilderB1:http://www.amusingtime.com/images/017/funny-running-dog-picture.jpg,letzterZugriff:12.12.2016B2:http://blinkdb.org/figures/blinkdb-logo-withaffiliations.png,letzterZugriff:12.12.2016B3:http://lambda-architecture.net/img/la-overview_small.png,letzterZugriff:19.12.2016B4:http://nonbinaryreview.com/wp-content/uploads/doc_0.jpg,letzterZugriff:19.12.2016

20.12.2016 34

schnelle anfrageverarbeitung im big data umfeldubicomp/projekte/master2… · hauptseminar...

Documents

negated antonyms and approximative number words: two...

new asappp: a simple approximative analysis framework for...

andatech solarcam smart wireless solar...

chapter 06: variational bayesian...

a251-serv-corona-infosheets-master2 aw.pdf 5 13/03/2020...

ge master2 mobile conversion - qsl.net lib/ge master2 mobile...

just like the real thing - spielzeug...

docketed -...

controls installation and operating instruction for b.e.g...

catalogo master2

approximative matrix inverse computations for very-large...

brooks street corridor plan - missoula current ·...

a modern tool for approximative queueing analysis: theory...

master2 - limossesalva/files/master2.pdf · *par...

university of versailles saint- quentin-en-yvelines (uvsq)...

sfb701.math.uni-bielefeld.de · statistical dynamics of...

from approximative kernelization to high fidelity reductions...

cutting master2

on a class of approximative computation methods in the...

0 wg master2