hogyan simul bele a big data a mindennapok elemzési...
TRANSCRIPT
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hogyan simul bele a Big Data a mindennapok elemzési kultúrájába
Markovits Péter Vezető műszaki szakértő, architekt Oracle Hungary INFOTÉR 2015 – eHEALTH Konferencia
Oracle Confidential – Internal/Restricted/Highly Restricted
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.
Oracle Confidential – Internal/Restricted/Highly Restricted 2
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Gartner Hype Cycle for Emerging Technologies, 2014
Oracle Confidential – Internal/Restricted/Highly Restricted 3
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Gartner Hype Cycle for Emerging Technologies, 2015
Oracle Confidential – Internal/Restricted/Highly Restricted 4
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Big Data helyett/mellett új fogalmak, specializáció
Machine Learning
Advanced analytics With Self-Service Delivery
Smart Advisors
Internet of Things
1
2
3
Oracle Confidential – Internal/Restricted/Highly Restricted 5
4
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
A fejlesztés motivációja: Versenyelőny az üzleti elemzésben
Oracle Confidential – Internal/Restricted/Highly Restricted 6
Információ kora
Információ mennyisége
Operatív lekérdezések
Analitikus elemzések
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hol volt a versenyelőny az üzleti riporting területén?
Eladási adatok, Költség adatok
Eladási adatok + Költség adatok -> Profitabilitás, CV
Egyéb működési adatok
Egyéb külső adatok bevonása
Adatok rendelkezésre állása: havi, heti, napi (T+1)
1
2
3
Oracle Confidential – Internal/Restricted/Highly Restricted 7
4
5
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Az új motivációk: Mi várható a jövőben?
Mit fog tenni az ügyfelem?
Mi érdekelhetné a jelenlegi termékein kívül?
Hogyan növelhetném az elégedettségét?
1
2
3
Oracle Confidential – Internal/Restricted/Highly Restricted 8
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Az új motivációk: Mi várható a jövőben?
Mit fog tenni a betegem?
Mi érintheti a jelenlegi betegségein kívül?
Hogyan növelhetném a gyógyulási esélyeit?
1
2
3
Oracle Confidential – Internal/Restricted/Highly Restricted 9
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Machine learning és a Big Data
Oracle Confidential – Internal/Restricted/Highly Restricted 10
Igaz
i po
zití
v ar
ány
Hamis negatív arány
Törzsadat
Törzsadat + „A” adatcsoport
Törzsadat + „A” + „B” adatcsoportok
Törzsadat + „A” + „B” + „C” adatcsoportok
Minél több adatot vonunk be az elemzésbe, annál pontosabb lesz az eredmény – de annál több ideig tart az elemzés. Ennek a gyorsításában jutnak szerephez a Big Data technológiák.
Egy elemzési feladat pontossága
A kívánatos összetétel: 100% találat, 0% tévedés
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Az új motivációk: A nagy adatmennyiség mellett a nagy sebesség, gyors reakció
Oracle Confidential – Internal/Restricted/Highly Restricted 11
Információ kora
Információ mennyisége
Operatív elemzések
Analitikus elemzések
Fast Data
Big D
ata
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 12
Hagyományos vs. Big Data a szakmai/üzleti elemzés tükrében
Relációs tárolás Big Data
Adatmennyiség <= Terabytes >= Terabytes
Struktúra Kötött Szabad
Transzformációk Jellemzően betöltés előtt/közben
Jellemzően elemzés közben
Tipikusabb felhasználás Hagyományos reporting Statisztikai, adatbányászati jellegű elemzések
Tipikusabb felhasználás Múltbéli adatok jelentése, KPI-ok kalkulációja
Jövőt kutató elemzések, mélyebb összefüggések keresése
Fejlesztési igény Jellemzően magas Jelentősen alacsonyabb is lehet
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Big Data adatok elemzésének nehézségei
13
Komplex eszközrendszer
• Szükséges háttértudás jelentős lehet
• BI eszköztámogatás limitált
• Inkább csak céleszközök léteznek, nincs egy eszközben széles funkcionalitás
Az elemzési idő 80%-a az adatok előkészítésére, értelmezésére megy el
Adat bizonytalanság
• Ismeretlen, lehengerlő mennyiségű adat
• Nem nyilvánvaló a benne lévő érték
• Jelentős átalakítást igényel
Gyakran van szükség olyan szakértelemre, ami ritka vagy nehezen elérhető.
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hol van a fő nehézség? Új kompetenciák kellenek
Oracle Confidential – Internal/Restricted/Highly Restricted 14
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data koncepció
• Relációs tárolás és a Big Data együttes alkalmazása
– Hatékonyság alapján osszuk meg az adatokat a két világ között
– Szoros integráció (átjárhatóság) a Big Data és relációs adatok között
– Egységes elemzői felületek biztosítása
• Ne építsünk magunk Big Data infrastruktúrát
– Integráció költségét a szállító viselje
– Egy szállítóhoz tudjunk fordulni a teljes technologiai stack-en
– Ne töltsük a bevezetési időt infrastruktúrális feladatokkal
• Használjunk szállítói tanácsadást a projekteknél is !
Oracle Confidential – Internal/Restricted/Highly Restricted 15
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Big Data Appliance X5-2 Sun Oracle X5-2L Servers with per server:
• 2 * 18 Core Intel Xeon E5 Processors
• 128 GB DDR4-2133 DIMMs Memory (Upgradable to 768GB)
• 48TB Disk space
Integrated Software (4.1):
• Oracle Linux6.x, Oracle JDK
• Oracle Big Data SQL 1.1*
• Cloudera Distribution of Apache Hadoop – EDH Edition
• Cloudera Manager
• Oracle R Distribution
• Oracle NoSQL Database CE
16
* Oracle Big Data SQL külön licenszelendő
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Készen kapni vs. egyedileg megépíteni
Red Hat / CentOS Different
Platform
Every
Time
Integrated
Tuned
Optimized
Identical
Applications
Compute & Storage
Networking
OS
CPU, RAM, Blade, Rack
Switch
120+ separate parts Months from start to production
1 Big Data Appliance Unpack to production in days
Hadoop Distribution
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
• A teljes Oracle SQL funkcionalitás támogatott.
• Egységes jogosultság kezelés
• Smartscan funkcionalitás:
– Where feltétel kiértékelés
– Oszlop projekciók
– Bloom szűrés join-okhoz
– JSON parsing, adatbányászati funkciók
Oracle Confidential – Internal/Restricted/Highly Restricted 18
Oracle Big Data SQL – új funkciók ismert „köntösben”
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Discovery – BI egyszerűségű Big Data elemzés
19
Oracle Big Data Discovery Workloads
Hadoop Cluster (BDA or Commodity Hardware)
BDD node
data node
data node
data node
data node
name node Data Processing, Workflow & Monitoring
• Profiling: catalog entry creation, data type &
language detection, schema configuration • Sampling: dgraph (index) file creation • Transforms: >100 functions • Enrichments: location (geo), text (cleanup,
sentiment, entity, key-phrase, whitelist tagging)
Self-Service Provisioning & Data Transfer
• Personal Data: Upload CSV and XLS to HDFS
In-Memory Discovery Indexes
• DGraph: Search, Guided Navigation, Analytics
Studio
• Web UI: Find, Explore, Transform, Discover, Share
Hadoop 2.x
Filesystem (HDFS)
Workload Mgmt (YARN)
Metadata (HCatalog)
Other Hadoop Workloads
MapReduce
Spark
Hive
Pig
Oracle Big Data SQL (BDA only)
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Data Factory Engine
Innovation Workshops
Discovery Lab
Data Reservoir
DW Offload Information
Management Deep Dive
Fast Data
Big Data & Analytics Rapid Start Packs
Oracle Confidential 20
Hogyan kezdjünk hozzá? - Oracle Konzultációval
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Üzlet vezérelt bevezetés
Infrastruktúrális alapozás
Pilot projekt
BIG DATA ELEMZÉSEK
BIG DATA ALKALMAZÁSOK
BIG DATA MANAGEMENT
BIG DATA INTEGRÁCIÓ
Adatból Információ
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 21