advanced data analytics -- puc cce março 2017
TRANSCRIPT
1
Data Analytics 3.0PUC CCE
Março, 2017
Dan Reznik, PhD
Principal Consultant, Microsoft Consulting Services
[email protected](c) 2016 Upper West Soluções
2(c) 2016 Upper West Soluções
3
Plano• Big Data• Internet of Things (IoT)• Data Science / Machine Learning• Lab• Azure ML• R
• Practical Aspects in Data Projects
(c) 2016 Upper West Soluções
4
Big Data
(c) 2016 Upper West Soluções
5(c) 2016 Upper West Soluções
6(c) 2016 Upper West Soluções
7(c) 2016 Upper West Soluções
SPARK!
Do DW para o BD
8
Multi-structured
(c) 2016 Upper West Soluções
9(c) 2016 Upper West Soluções
10(c) 2016 Upper West Soluções
11(c) 2016 Upper West Soluções
12(c) 2016 Upper West Soluções
13(c) 2016 Upper West Soluções
14(c) 2016 Upper West Soluções
15(c) 2016 Upper West Soluções
16
Data Storage, Access, Management
Analytics, Visualization, Machine Learning
Applications, Businesses DA
TA S
TACK
(c) 2016 Upper West Soluções
17(c) 2016 Upper West Soluções
18(c) 2016 Upper West Soluções
19(c) 2016 Upper West Soluções
20(c) 2016 Upper West Soluções
21(c) 2016 Upper West Soluções
22(c) 2016 Upper West Soluções
23
Internet of Things (IoT)
(c) 2016 Upper West Soluções
24(c) 2016 Upper West Soluções
25(c) 2016 Upper West Soluções
26(c) 2016 Upper West Soluções
27
IoT: Business Drivers• Increased efficiency (38.3%)• Pursuit of a competitive market advantage (28.4%)• Market share growth (15.9%)• Cost savings (14.9%).• Expertise areas:• Hardware engineering (30.4%)• Sensors development (57.7%)• Systems design and integration (32.3%)• Data analytics (28.9%)• Machine learning (27.4%)• Security (20.9%)
(c) 2016 Upper West Soluções
28(c) 2016 Upper West Soluções
29(c) 2016 Upper West Soluções
30(c) 2016 Upper West Soluções
31(c) 2016 Upper West Soluções
32(c) 2016 Upper West Soluções
33
Data Science
(c) 2016 Upper West Soluções
34(c) 2016 Upper West Soluções
35(c) 2016 Upper West Soluções
36(c) 2016 Upper West Soluções
37(c) 2016 Upper West Soluções
38(c) 2016 Upper West Soluções
39
CRISP-DM
(c) 2016 Upper West Soluções
40(c) 2016 Upper West Soluções
41
Machine Learning
(c) 2016 Upper West Soluções
42
Típos de Analítica
(c) 2016 Upper West Soluções
43(c) 2016 Upper West Soluções
44(c) 2016 Upper West Soluções
45(c) 2016 Upper West Soluções
46(c) 2016 Upper West Soluções
47
Apache Spark’s Mllib(9x faster than Mahout)
1) Descriptive: Summary statistics, correlations, stratified sampling, hypothesis testing, random data generation
2) Classification: support vector machines, logistic regression, linear regression, decision trees, naive Bayes classification
3) Collaborative filtering: alternating least squares (ALS)4) Clustering: k-means, and Latent Dirichlet Allocation (LDA)5) Dimensionality reduction: SVD and PCA6) Feature extraction and transformation functions7) Optimization: stochastic gradient descent, L-BFGS
(c) 2016 Upper West Soluções
48
Azure ML
(c) 2016 Upper West Soluções
49
Data Project Planning
(c) 2016 Upper West Soluções
50(c) 2016 Upper West Soluções
51(c) 2016 Upper West Soluções
52(c) 2016 Upper West Soluções
53(c) 2016 Upper West Soluções
54
Practical Aspects: Projects
(c) 2016 Upper West Soluções
55(c) 2016 Upper West Soluções
56
Sources of business value
•Reduce operational costs•Increase revenues•Reduce risk
(c) 2016 Upper West Soluções
57(c) 2016 Upper West Soluções
58
Ecossistema de Dados
(c) 2016 Upper West Soluções
59
Fluxo de Trabalho
(c) 2016 Upper West Soluções
60
Pirâmide de Maslow
- Qualidade- Integração- Governança
• 360 Cust. View• Anti-Fraud• Anti Churn
ESTRATÉGIA, ROI+
(c) 2016 Upper West Soluções
Maturidade
61
Ambiente HeterogêneoProcessos InformaisDados Caóticos
Ambiente IntegradoProcessos controladosDados Coerentes
SimplificaçãoEncurtar tempo de EntregaRedução de Custos
(c) 2016 Upper West Soluções
62
Barreiras
(c) 2016 Upper West Soluções
64
Diagrama de Dependencias R (2015)
(c) 2016 Upper West Soluções
65
Crescimento Pacotes R (2016)
(c) 2016 Upper West Soluções
66
Microsoft Data Science Virtual Machine Ecosystem (DSVM)
(c) 2016 Upper West Soluções