schnelle anfrageverarbeitung im big data umfeldubicomp/projekte/master2… · hauptseminar...
Post on 15-Jun-2020
1 Views
Preview:
TRANSCRIPT
SchnelleAnfrageverarbeitungimBigDataUmfeld
AlexanderPonomarenkoHAWHamburg,MasterInformatikHauptseminarWintersemester2016
20.12.2016
Agenda
• Motivation• BigDataundNoSQL• ApproximativeAnfrageverarbeitung• BlinkDB• SnappyData• Ziele• Risiken
20.12.2016 2
Motivation[2]
• Datenmengennehmenzu– 2012:2,8Zettabyte– 2020:40Zettabyte
• GroßeDatenmengen:Auswertungdauertlange
20.12.2016 3
1000 Kilobyte1000^2 Megabyte1000^3 Gigabyte1000^4 Terabyte1000^5 Petabyte1000^6 Exabyte1000^7 Zettabyte
20.12.2016 4[1]
Motivation[3]
• 7,5TerabyteDaten• Durchschnittswertberechnen
• Verteiltauf100AmazonEC2• Hive/Hadoop
20.12.2016 5
0.5h
1.5h
Motivation
• Auswertungdauertzulangeà Ergebnismöglicherweisenutzlos
• WowerdenschnelleAntwortenbenötigt?– Preisvergleiche– KurzfristigerHandelmitWertpapieren– SozialeNetzwerke– ...
20.12.2016 6
BigData[4,5]
20.12.2016 7
ProMinute:Facebook– 2,5MillionenInhalte
Twitter– 600.000TweetsInstagram– 220.000FotosEmail– über200Millionen
ProMinute:Google– über2MillionenSuchabfragen
Amazon– 80.000$UmsatzYouTube– 72StundenVideomaterial
Datensindunterschiedlichundnichtstrukturiert
RelationaleDBdafürnichtausgelegt
NoSQL[6,7]
• NichtrelationaleDaten-Modelle• UnnötigeSQL-Features• SehrgroßeDatenmengen• VerteilteDB-Systeme:SchnellesLesenundSchreiben
• HochverfügbarkeitwichtigeralsKonsistenz
20.12.2016 8
Nochschneller??
20.12.2016 9[B1]
HardDisks
½- 1Stunde 1- 5Minuten 1Sekunde
?Memory
Anfrageverarbeitung aufSamples
100TBauf1000Knoten[9]
20.12.2016 10
AnfrageverarbeitungaufSamples[10,11]
• Sample:„Stichprobe“/„Beispiel“/„Muster“à AlsoeinTeilderoriginalenDaten
• NureinTeilderDatenwirdausgewertet• Dadurchschneller• Sampleswerdenvorberechnet• Antwortistungenau• AberderFehlerderAntwortistbekannt
20.12.2016 11
Samples[11]
20.12.2016 12
WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?
80.848,17€
ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€
Samples[11]
20.12.2016 13
WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?
80.848,17€73.611,00€+/- 7.237,17€
Sample
ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€
80.848,17€
ID Stadt Gehalt Rate1 Hamburg 50.000,€ 1/45 Berlin 98.341,€ 1/48 Berlin 72.492,€ 1/4
Samples[11]
20.12.2016 14
WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?
80.848,17€73.611,00€+/- 7.237,17€81.804,17€+/- 956,00€
Sample
ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€
80.848,17€73.611,00€+/- 7.237,17€
ID Stadt Gehalt Rate1 Hamburg 50.000,€ 1/24 Hamburg 120.242,€ 1/25 Berlin 98.341,€ 1/27 Hamburg 60.000,€ 1/210 Hamburg 92.242,€ 1/211 Berlin 70.000,€ 1/2
Geschwindigkeit/Genauigkeit [9]
20.12.2016 15
Fehler
30Min
AusführungszeitaufgesamterDatenbasis
InteractiveQueries
2 SekAusführungszeit (Sample-Größe)
Geschwindigkeit/Genauigkeit [9]
20.12.2016 16
Fehler
30Min
AusführungszeitaufgesamterDatenbasis
InteractiveQueries
2 Sek
BereitsExistierender
Fehler
Ausführungszeit (Sample-Größe)
Sampling/keinSampling[9]
20.12.2016 17
0100200300400500600700800900
1000
1 10-1 10-2 10-3 10-4 10-5
Teilmengen dergesamten Datenbasis
Antw
ortzeitd
erAbfrage
(Sekun
den)
103
1020
18 13 10 8
(0.02%)(0.07%) (1.1%) (3.4%) (11%)
Fehler
Uniform/Stratified Samples[10,11]
20.12.2016 18
WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?
UniformSample
ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€
ID Stadt Gehalt Gewicht1 Hamburg 50.000,€ 1/65 Berlin 98.341,€ 1/6
ID Stadt Gehalt Gewicht1 Hamburg 50.000,€ 1/75 Berlin 98.341,€ 1/5
StratifiedSample
BlinkDB[12]
• MassivparallelesFrameworkfürapproximativeAnfrageverarbeitungaufgroßenDatenmengen
• AntwortenineinersehrkurzenZeit• AntwortenmiteinergarantiertenFehlerquote• SkalierbaresSystem,dasfürPetabytevonDatenausgelegtist
20.12.2016 19
[B2]
BlinkDB:Anfragen[10]
SELECTCOUNT(*)FROMSessionsWHEREGenre=’western’GROUPBYOSERROR0.1CONFIDENCE95%
SELECTCOUNT(*),ERRORAT95%CONFIDENCEFROMSessionsWHEREGenre=’western’GROUPBYOSWITHIN5SECONDS
20.12.2016 20
SampleManagement[13]
• ZukünftigeAnfragensind„ähnlich“• Aberwasist„ähnlich“?• VerschiedeneModelle:– VorhersagbareAnfragen• Werte inWHERE,GROUPBY,HAVINGidentisch
– Vorhersagbare Anfrage-Prädikate• Häufigkeit vonWHERE,GROUPBY,HAVINGbleibt gleich
–MengenderSpaltenändernsichnicht• KeineAnnahmeüberWHERE,GROUPBY,HAVING
20.12.2016 21
BlinkDB:SampleManagement[13]
• MengenderSpaltenändernsichnichtà „QueryColumn Set“(QCS)
• InrealenUmgebungenkommendieselbenQCSssehrhäufigvor– Beispieldaten:Facebook+Conviva
20.12.2016 22
BlinkDB:BeispielfürQCSs[13]
20.12.2016 23
BlinkDB:Ausführungsgeschwindigkeit[3]
20.12.2016 24
BlinkDB:Aktueller Stand[19]
• Letzter Commit2014• Projekt steht still
à Gibt es etwas Aktuelleres?
20.12.2016 25
Anforderungen anBig-Data-Umgebungen[18]
• Kontinuierliches Stream-Processing• Sehr schreibintensive Workloads(OLTP)• Interaktive SQL-Analysen (OLAP)
20.12.2016 26
[B3]
à Lambda-Architektur
Vorhandene Lösungen[18]
• Hohe Komplexität• Niedrige Performance• Verschwendete Ressourcen• Interaktive Analysen ungenügend
à Verbesserungen möglich?
20.12.2016 27[B4]
SnappyData[14,15,16]
20.12.2016 28
SingleUnifiedClusterOLTP+OLAP+Streaming
BatchDesignHoher Durchsatz
RealTimeDesignNiedrige LatenzHochverfügbarkeitConcurrency
ApproximateQueryProcessing
SnappyData:Ziele[18]
• Schnelle interaktive Analysen• Geringe Investitionen inCluster-Infrastruktur• Geringere Komplexität(im Vergleich zur Lambda-Architektur)
• Einschränkungen:– Terabytes,nicht Petabytes– Keine UseCases,dieeine sehr geringe Latenzbenötigen (Bsp:Wertpapierhandel)
20.12.2016 29
Meine Ziele (1)
• ExperimentierplattformmitSnappyDataaufHAW-Clusterrealisieren(à geradedabei)
• ExperimentierplattformmitSnappyDatabeieinemCloud-Anbieter(AWS?)realisieren
• Performance-Analysendurchführen(TPCBenchmarks)
20.12.2016 30
Meine Ziele (2)
• GibteseineGrenze,abdersichdieapproximativeAnfrageverarbeitunglohnt?– AbwelcherDatenmenge?– BeiwelchenAnwendungsfällen?– BeiwelchenAbfragearten?
• Lässt sich dieQualität derGenauigkeitverbessern?
20.12.2016 31
Risiken
• Probleme bei derInstallation(HAW-Cluster+Cloud-Anbieter)
• Kosten derCloud-Anbieter• Keien Grenze definierbar,abdersich AQPlohnt
• Hürde:Statistische Modelle
20.12.2016 32
Fragen?
20.12.2016 33
Literatur1. U.S.Government’s DataExplosion (Infographic),https://whatsthebigdata.com/2014/09/15/u-s-governments-data-explosion-infographic/,letzterZugriff:12.12.20162. 2.800.000.000.000.000.000.000Byte:DasdigitaleUniversumschwilltan.http://www.spiegel.de/netzwelt/web/das-internet-der-dinge-erzeugt-2-8-zettabyte-daten-a-872280.html,
letzterZugriff:18.12.20163. Mozafari,B.BlinkDB:AMassively ParallelQueryEnginefor BigData,2013.http://istc-bigdata.org/index.php/blinkdb-a-massively-parallel-query-engine-for-big-data/,letzterZugriff:
18.12.20164. DominikKlein,Phuoc Tran-Gia,M.H.Bigdata,2013.http://www.gi.de/service/informatiklexikon/detailansicht/article/big-data.html,letzterZugriff:18.12.2016.5. TheDataExplosionin2014MinutebyMinute– Infographic,2014.http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/,letzterZugriff:18.12.20166. Hecht,R.,andJablonski,S.NoSQLevaluation:Ausecaseorientedsurvey.Proceedings- 2011InternationalConferenceonCloudandServiceComputing,CSC2011(2011),336–341.7. Pritchett,D.Base:anAcid Alternative.Queue6,3(2008),48–55.8. Dean,J.,andGhemawat,S.Mapreduce:simplifieddataprocessingonlargeclusters.Commun.ACM51,1(2008),107–113.9. Agarwal,S.Blinkdb:ApproximateQueriesonVeryLargeData,2013.https://spark-summit.org/wp-content/uploads/2013/10/BlinkDB-SparkSummit-v3.pptx,letzterZugriff:
18.12.2016.10. Agarwal,S.,Mozafari,B.,Panda,A.,Milner,H.,Madden,S.,andStoica,I.BlinkDB:querieswithboundederrorsandboundedresponsetimesonverylargedata.Proceedingsofthe
8thACMEuropeanConferenceonComputerSystems- EuroSys ’13(2013),29.11. Agarwal,S.Blinkdb:Qureying petabytes of data inseconds using sampling,2014.http://de.slideshare.net/Hadoop_Summit/t-1205p212agarwalv2,letzterZugriff:18.12.2016.12. Agarwal,S.,Iyer,A.P.,Panda,A.,Madden,S.,Mozafari,B.,and Stoica,I.Blinkand it’s done:interactive queries onvery largedata.Proceedings of the VLDBEndowment 5,12(2012),
1902–1905.13. Upreti,N.IntroductiontoBlinkDB :QuerieswithBoundedErrorsandBoundedResponseTimesonVeryLargeData,2014.http://de.slideshare.net/nitishupreti/blinkdb,letzterZugriff:
18.12.201614. http://www.snappydata.io/product,letzterZugriff:12.12.201615. https://pivotal.io/big-data/pivotal-gemfire,letzterZugriff:12.12.201616. https://spark.apache.org,letzterZugriff:12.12.201617. http://www.slideshare.net/sawjd/explore-big-data-at-speed-of-thought-with-spark-20-and-snappydata,letzterZugriff:12.12.201618. Mozafari,Jags Ramnarayan1Barzan and Menon,Sumedh Wale1Sudhir and Chakraborty,Neeraj Kumar1Hemant Bhanawat1Soubhik and Bachhav,Yogesh Mahajan1Rishitesh
Mishra1Kishor,SnappyData:Streaming,Transactions,and InteractiveAnalyticsinaUnifiedEngine,http://www.snappydata.io/snappy-industrial,letzterZugriff:18.12.201619. https://github.com/sameeragarwal/blinkdb,letzterZugriff:17.12.2016
BilderB1:http://www.amusingtime.com/images/017/funny-running-dog-picture.jpg,letzterZugriff:12.12.2016B2:http://blinkdb.org/figures/blinkdb-logo-withaffiliations.png,letzterZugriff:12.12.2016B3:http://lambda-architecture.net/img/la-overview_small.png,letzterZugriff:19.12.2016B4:http://nonbinaryreview.com/wp-content/uploads/doc_0.jpg,letzterZugriff:19.12.2016
20.12.2016 34
top related