vertica and data modeling approach: tools and strategies ... · vertica and data modeling approach:...
TRANSCRIPT
Vertica and Data Modeling approach: tools and strategies to became a data driven
company
Relatori
Chiara Salvatori
Marketing and Communication Manager
@BNova
Laura Margara
BI Analysis and DWH solution @BNova
• Come rimanere competitivi sui mercati della new economy
➢ BNova, a data intelligence company
➢ Strategie data driven e advanced analytics approach per mettere il cliente al centro
➢ Selezioniamo i tools e le metodologie più performanti per i tuoi standard: BNova e Vertica
• Concetti di Data modeling
➢ Cos’è il data modeling e quali sono le metodologie tradizionali
➢ Modern modeling approach: Anchor Method e Data Vault
• Vertica: built for fast, built for freedom
➢ Caratteristiche principali di Vertica
➢ Perché scegliere Vertica per orientarsi verso una strategia data driven
➢ Come le metodologie di data modeling moderne ottimizzano le caratteristiche di Vertica
• Q&A
AGENDA
A data intelligence
company
Per affrontare con successo la sfida nei
progetti di Big Data, BNova ha maturato
anni di esperienza e competenze in
molteplici ambiti e selezionato
soluzioni adatte a trasformare i dati
aziendali in valore aggiunto. Il Team
Data Scientist di BNova aiuta le
aziende a definire strategie e creare
piattaforme in base a tutto il
patrimonio di informazioni
disponibili e in tempi rapidissimi,
minimizzando il margine di errore
BigData Platform
Architetture big data –Data virtualization –
IOT –Data integration
Cognitive Computing
PredictiveAnalysis – recommendation -Analisi
Semantica - Image Recognition - Natural Query
Language-Analisi Multimodale
Bnova organizza l’analisi di varie forme di
dati strutturati e non, provenienti da fonti
eterogenee utili alle aziende per
programmare investimenti futuri. In
questo contesto l’analisi di tipo what-if
risulta spesso necessaria per prevedere gli
effetti di potenziali cambiamenti nelle
strategie aziendali. Bnova copre l’intero
ciclo dei progetti in ambito Advanced
Analytics, dalla raccolta del dato, alla fase
di trasformazione e aggregazione, fino alla
data visualization, attraverso
rappresentazioni tradizionali e non,
adattabili alle esigenze dell’utente finale
AdvancedAnalytics
Data analytics - Analisi Geo
Referenziata - Data visualization –
What if Analysis
BNova: le nostre principali aree di attività
Attraverso le tecniche di cognitive
computing Bnova consente ai propri clienti
di sviluppare analisi predittive,
comprendere e interpretare rapidamente
grandi quantità di dati inclusi testi e
immagini, ragionando, apprendendo e
interagendo per prendere decisioni più
accurate. Questo consente di generare
processi automatizzati e insight di valore
sviluppando una data driven strategy in
grado di fornire grandi vantaggi competitivi
per l’azienda
BNova è da sempre focalizzata solo su
progetti in ambito analytics: dalla
business intelligence prima, aibig data
ed agli advanced analyticspoi.
Questo ha permesso all’azienda di
sviluppare sensibilità sulle tematichedi
system integration specifiche dei
sistemi legati ai dati ed al loro utilizzo
efficace edefficiente sempre
Focus sul dato Competenzespecifiche
BNova è formata da professionisticon
esperienza decennale di progetti in ambito
analytics, con skill siatecniche che funzionali,
permettendo così di seguire i diversiaspetti
dell’integrazione e dell’utilizzo deidati.
La seniority del team di BNova permette inoltre di
avere sempre ingaggiati sui progetti professionisti
esperti e pronti ad affrontare lediverse sfide che i
progetti di advanced analytics oggicomportano
Negli anni BNova ha sviluppato una
solida rete di partnership con alcuni
dei più importanti player a livello
mondiale nel mercato dei big data e
degli analytics. La propria apertura e
vicinanza al mondo dell’open source
hanno permesso all’azienda diessere
sempre a contatto con tecnologie di
frontiera nel campo deglianalytics
Scoutingtecnologico
BNova: le caratteristiche che ci differenziano
BNova: rete neurale di competenze e collaborazioni
Progetto SEM,Il chattadinoProgetto MUSE: MUltimodalSemantic Extraction
Advanced
Analytics
Big
Data
Platform
Data
Intelligence
Cognitive
Computing
v v
v
SEACOM,prodotti, integrazioni e soluzioni open source di livello enterprise.Zimbra, ProcessMaker, Elasticsearch, ConfluentData
Virtualization - IOT –
Architetture e Piattaforme
Data Driven
Predictive analysis –
Recomendation - analisi
semantica - image
recognition
Data analytics – Natural
Query Language
Analisi geo referenziata
Data visualization - What if
Analysis
Partner
v
LARUS Specialisti nella tecnologia dei database a grafo che, grazie all’approccio "node-relationship"; mostrano l’interconnessione di concetti e idee.
KEPLERO La piattaforma iot per il monitoraggiodei processi industriali scelta da Bnova per supportare le organizzazione Data Driven
VERTICA, db colonnare, veloce, appositamente costruito per consentire agli utenti di divenire operativi in breve tempo, ananlisi e acquisizione real time
• Come rimanere competitivi sui mercati della new economy
➢ BNova, a data intelligence company
➢ Strategie data driven e advanced analytics approach per mettere il cliente al centro
• Concetti di Data modeling
➢ Cos’è il data modeling e quali sono le metodologie tradizionali
➢ Modern modeling approach: Anchor Method e Data Vault
• Vertica: built for fast, built for freedom
➢ Caratteristiche principali di Vertica
➢ Perché scegliere Vertica per orientarsi verso una strategia data driven
➢ Come le metodologie di data modeling moderne ottimizzano le caratteristiche di Vertica
➢ Q&A
AGENDA
Cos’è una Data-Driven Strategy ?
E’ una strategia che permette di utilizzare i
dati per ogni decisione, sia essa strategica,
tattica che operativa e soprattutto consente
di utilizzare questo approccio a tutti i
livelli aziendali.
Ciò implica un utilizzo evolutivo dei dati sia
interni che esterni all’azienda. I dati devono
guidare la strategia e la pianificazione
aziendale secondo un approccio proattivo
anziché essere utilizzati come strumento
reattivo
APPROCCIO TRADIZIONALE APPROCCIO DATA DRIVEN
Data
Silos
EfficiencySpeed
VolumeCosts
Projects
Tools/Process
Data
Silos
EfficiencySpeed
VolumeCosts
Projects
Tools/Process
Strategic
Driven
OutcomesValue
Perchè diventare un’organizzazione Data-Driven?
Principalmente perchè
paga. Mentre nel 2006 tra le
prime 10 compagnie che
performavano meglio in
termini operativi e finanziari,
la sola Microsoft aveva
adottato un approccio di tipo
Data-Driven, oggi la
situazione vede ai primi 5
posti solo aziende che
hanno adottato questo tipo
di modello.
I 3 pilastri fondamentali della strategia Data Driven
DATA GOVERNANCE ANALYTICS ORGANIZATION
Le compagnie Data-Driven hanno sviluppato alcuni skills fondamentali e interdipendenti tra loro, che devono essere presidiati da centri di competenza interni, AL FINE DI SUPERARE I SILOS INFORMATIVI
DevOps e DataOps
Il DevOps ha l’obiettivo di creare una cultura ed un ambiente nel quale progettazione, testing e rilascio del software possano avvenire in maniera rapida, frequente ed efficiente e sta cambiando il modo in cui le applicazioni vengono sviluppate e implementate all'interno delle aziende.
Il DataOps è una pratica che promuove la comunicazione e l'integrazione tra dati, team e sistemi con processi, organizzazione e tecnologie mirate a facilitare le relazioni tra tutti coloro che gestiscono i dati: sviluppatori, data engineers, data analysts/scientists e utenti aziendali.
Costruire un’organizzazione Data-Driven
Un’organizzazione dovrebbe possedere almeno tre skills fondamentali:
Fino ad ora abbiamo visto che cos'è un'organizzazione Data-Driven, l'importanza di
questo modello, ma quali sono i passaggi pratici ancora necessari?
ORGANIZZAZIONE TECNOLOGIA CULTURA CULTURA TECNOLOGIA ORGANIZZAZIONE
Selezioniamo i tools e le metodologie più performanti per i tuoi
standard: BNova e Vertica
BNova è partner di Vertica dal 2013. Lavoriamo insieme su diversi clienti appartenenti a settori molto
diversi tra loro
ASSICURAZIONE/FINANCE – EDITORIA – SUPPLY CHAIN – GEOSPAZIALE
BNOVA ha selezionato la piattaforma Vertica Analytics perché appositamente costruita per
consentire agli utenti di divenire operativi in breve tempo e con meno risorse rispetto alle soluzioni
tradizionali.
• Come rimanere competitivi sui mercati della new economy
➢ BNova, a data intelligence company
➢ Strategie data driven e advanced analytics approach per mettere il cliente al centro
• Concetti di Data modeling
➢ Cos’è il data modeling e quali sono le metodologie tradizionali
➢ Modern modeling approach: Anchor Method e Data Vault
• Vertica: built for fast, built for freedom
➢ Caratteristiche principali di Vertica
➢ Perché scegliere Vertica per orientarsi verso una strategia data driven
➢ Come le metodologie di data modeling moderne ottimizzano le caratteristiche di Vertica
➢ Q&A
AGENDA
Il data modeling è il processo di creazione di un modello dei dati per un sistema informativoapplicando tecniche formali di modellazione dei dati.
Processo usato per definire e analizzare i requisiti dei dati di cui si ha bisogno per supportare i processi aziendali nell'ambito dei corrispondenti sistemi informativi nelle organizzazioni.
Perché il Data Modeling è importante?
- La struttura del DWH è la base
delle analisi successive
Data warehouse & Data modeling
Selezionare la modellazione più adatta
Creazione VALORE INFORMATIVO
I data warehouse aziendali (EDW) hanno lo scopo ultimo di rappresentare tutti i dati e le regole di business dell’azienda e di renderli disponibili ai business users secondo profilazione.
• Tradizionale
- Star schema & Snowflakes
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: tipologie di modellazione
FACTDIMENSION
DIMENSIONDIMENSION
DIMENSION
DIMENSION
• Tradizionale
- Star schema & Snowflakes
Data modeling: Star schema & Snowflakes
FACT
DIMENSION
DIMENSION
DIMENSION
DIMENSION ……
……
…
…
• Fatti
• Dimensioni
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Data Vault (1)
“The Data Vault is a detail oriented, historical tracking and uniquely linked set of normalized tables that supports one or more functional areas of business.
It is a hybrid approach encompassing the best of breedbetween 3rd normal form (3NF) and star schema.”
(Dan Lindstedt)
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Data Vault (2)
Architettura su 3 livelli:
• Staging area layer
• Data warehouse layer
• Data mart layer
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Data Vault (3)
• Hub
• Link
• Satellites
HUB:
• Oggetti aziendali identificati da chiavi
• Un hub per ogni oggetto aziendale
• Granularità semantica
• Chiave hash
HUB
HUB
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Data Vault (3)
LINK:
• Connessioni tra hub attraverso le hash key
• Modellano transazioni, associazioni, gerarchie
• Relazioni «nel tempo»
HUB
HUB
LINK
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Data Vault (3)
SATELLITI:
• Entità descrittive
• Ogni satellite è collegato ad una sola entità
• Intervallo di validità dell’informazione
HUB
HUB
LINK
SATSAT
SAT
SAT
SAT
SAT
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Anchor Modeling (1)
“Anchor Modeling is an agile information modeling techniquethat offers nondestructive extensibility mechanisms enabling
robust and flexible management of changes.A key benefit of Anchor Modeling is that changes in a data warehouse
environment only require extensions, not modications.”(Lars Rönnbäck)
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Anchor Modeling (2)
Entity - Relations 6FN
Emulazione del mondo reale fatto di oggetti e di relazioni (di diverso tipo) tra essi
Ogni attributo non chiave deve essere modellato separatamente→Record: <key, valore>
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Anchor Modeling (3)
• Anchor
• Attribute
• Tie
• KnotANCHOR:
• Entità atomiche del modello
• Tabelle di chiavi
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Anchor Modeling (3)
ATTRIBUTI:
• Modellano le proprietà delle ancore
• Record: <key, value>
• Attributi statici e storicizzati
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Anchor Modeling (3)
TIE:
• Modellano i legami tra ancore
• Tie statiche e storiche
• “Moderna” (Ensemble Modeling)
- Data Vault (Dan Lindstedt)
- Anchor Modeling (Lars Rönnbäck)
Data modeling: Anchor Modeling (3)
KNOT:
• Specificano il contesto
• Collegabili a tie e ad attributi
Punti in comune
- Analisi incentrata sul business (Ensemble modeling)
- Separazione dati statici e dinamici (storici)
- Separazione delle relazioni dal contesto/oggetti
- Creazione di costellazioni di tabelle incentrate su un oggetto/concetto unico
- Flessibilità rispetto alle modifiche
- Scalabilità
- …
Data modeling: DV vs AM
Punti di differenza- Diverso approccio per modellare dati, contesti aziendali e necessità diverse
• Come rimanere competitivi sui mercati della new economy
➢ BNova, a data intelligence company
➢ Strategie data driven e advanced analytics approach per mettere il cliente al centro
• Concetti di Data modeling
➢ Cos’è il data modeling e quali sono le metodologie tradizionali
➢ Modern modeling approach: Anchor Method e Data Vault
• Vertica: built for fast, built for freedom
➢ Caratteristiche principali di Vertica
➢ Perché scegliere Vertica per orientarsi verso una strategia data driven
➢ Come le metodologie di data modeling moderne ottimizzano le caratteristiche di Vertica
➢ Q&A
AGENDA
Vertica
Real-Time Analytics Engine
Vertica
Advanced Compression
Native High
Availability
Standard SQL
Interface
Column Orientation
Machine Learning
MPP Massive Parallel
Processing
Advanced compression
Hadoop integration
Dati organizzati per colonna
Cosa comporta?• Incremento performance• Riduzione tempo e spazio
Cosa significa?• Architettura interna• Importanza ordinamento
Column Orientation
AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 143.74 NYSE NYSE NYSE 5/05/09
5/05/09
5/06/09
5/05/09
5/06/09
143.74
143.75
37.03
37.13
AAPL NYASE NYAASE NYSE NYASE NGG YSE NYGGGSE NYSE NYSE NYSE 143.74 NYSE NYSE NYSE 5/06/09
BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 37.03 NYSE NYSE NYSE 5/05/09
BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 37.13 NYSE NYSE NYSE 5/06/09
Column Store - Reads 3 columns
Row Store - Reads all columns
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
NYSE
NYSE
NYSE
NQDS
AAPL
AAPL
BBY
BBY
SELECT avg(price)FROM tickstoreWHERE symbol = ‘AAPL’ &
date = ‘05/06/09’
Dati organizzati su disco per colonne→ si leggono solo le colonne necessarie
Vertica: orientamento a colonne
Importanza dell’ordinamento:
- Ordine delle colonne nella tabella
- Ordine interno dei campi delle colonne
1256678125403812788581230807
Student_ID
121046612492901244262125249012671701248100124348312303821240224122278112318061246648
Cappiello, EmiliaDalal, AlanaOrner, KatyFrigo, Avis
Name
Stober, SaundraBorba, Milagros
Sosnowski, HillaryNibert, Emilia
Popovic, TanishaSchreckengost, Max
Porcelli, DarrenSinko, Erik
Tarvin, JulioLessig, Elnora
Thon, MaxTrembley, Allyson
FFFM
Gender
FFFFFMMMMFMF
SophomoreSeniorJuniorSenior
Class
JuniorFreshman
JuniorSophomoreFreshman
SeniorJunior
FreshmanSophomore
JuniorSophomore
Junior
62927664
Score
9096685995766791856382
100
DACD
Grade
AADFACDABDBA
Columns used in predicates Correlated values “indexed” by preceding column values
Vertica: orientamento a colonne• Ordinamento esterno ed interno delle colonne (1)
select avg(Score) from examplewhere Class = ‘Junior’ and Gender = ‘F’ and Grade = ‘A’
1256678125403812788581230807
Student_ID
121046612492901244262125249012671701248100124348312303821240224122278112318061246648
Cappiello, EmiliaDalal, AlanaOrner, KatyFrigo, Avis
Name
Stober, SaundraBorba, Milagros
Sosnowski, HillaryNibert, Emilia
Popovic, TanishaSchreckengost, Max
Porcelli, DarrenSinko, Erik
Tarvin, JulioLessig, Elnora
Thon, MaxTrembley, Allyson
FFFM
Gender
FFFFFMMMMFMF
SophomoreSeniorJuniorSenior
Class
JuniorFreshman
JuniorSophomoreFreshman
SeniorJunior
FreshmanSophomore
JuniorSophomore
Junior
62927664
Score
9096685995766791856382
100
DACD
Grade
AADFACDABDBA
Columns used in predicates Correlated values “indexed” by preceding column values
Vertica: orientamento a colonne• Ordinamento esterno ed interno delle colonne (1)
select avg(Score) from examplewhere Class = ‘Junior’ and Gender = ‘F’ and Grade = ‘A’
Vertica
Advanced Compression
Massive Parallel Processing
Cosa comporta?• Incremento prestazioni• Ottimizzazione uso delle risorse• Scalabilità
Cosa significa?• Architettura a nodi indipendenti
Native High
Availability
Standard SQL
Interface
Column Orientation
Machine Learning
MPP Massive Parallel
Processing
Hadoop integration
Advanced compression
Massively Parallel Processing
• “shared Nothing”
• Built-in high availability
• Elastic scale-out architecture
• Open architecture
• Easy setup and administration
Vertica: MPP
Vertica
Advanced Compression
Native high availability
• Dati sempre disponibili
Native High
Availability
Standard SQL
Interface
Column Orientation
Machine Learning
MPP Massive Parallel
Processing
Hadoop integration
Advanced compression
User defined loads User defined functions BI & visualization
ODBCJDBC
OLEDBMessaging
Data transformation
ETL
User defined storage
Security
External tables to analyze in place
R Java Python SQL
Geospatial Real-time Text analytics
Event series Pattern matching
Time series Machine learning Regression
Vertica: Hadoop integration
Advanced Compression
Native High
Availability
Standard SQL
Interface
Column Orientation
Machine Learning
MPP Massive Parallel
Processing
Hadoop integration
Advanced compression
Machine Learning
In cosa consiste?• Meccanismi integrati per il ML
Quali vantaggi?• Nessuna istallazione aggiuntiva• Accesso diretto ai dati• Minimizzati i tempi di sviluppo
e di esecuzione delle analisi• Gestione di grandi volumi
Vertica
Vertica: Machine Learning (1)
Advanced Compression
Native High
Availability
Standard SQL
Interface
Column Orientation
Machine Learning
MPP Massive Parallel
Processing
Hadoop integration
Advanced compression
Advanced compression
In cosa consiste?• Memorizzazione dei dati per colonna
in formato codificato e compresso
Quali vantaggi?• Minore occupazione disco• Minore banda occupata
Vertica
4 APPUNTAMENTI PER DEFINIRE LA TUA DATA DRIVEN STRATEGY
NH HOTEL – PADOVA
https://www.bnova.it/bigdata-academy-2019-padova/
GRAZIEContatti:[email protected]@bnova.it