data science on big data. pragmatic approach

86

Data science using Big Data. Pragmatic approach. Dmitri Babaev Pavel Mesentsev

Upload: dmitri-babaev

Post on 08-Jan-2017

600 views

Category:

Technology

6 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Data science on Big Data. Pragmatic approach

Data science using Big Data. Pragmatic approach.

Dmitri Babaev Pavel Mesentsev

Page 2: Data science on Big Data. Pragmatic approach

Predictive models design

Page 3: Data science on Big Data. Pragmatic approach

Predictive models design

Page 4: Data science on Big Data. Pragmatic approach

Predictive models design

Page 5: Data science on Big Data. Pragmatic approach

Predictive models design

Page 6: Data science on Big Data. Pragmatic approach

Predictive models design

Page 7: Data science on Big Data. Pragmatic approach

Small data case

Page 8: Data science on Big Data. Pragmatic approach

Page 9: Data science on Big Data. Pragmatic approach

Page 10: Data science on Big Data. Pragmatic approach

Page 11: Data science on Big Data. Pragmatic approach

Page 12: Data science on Big Data. Pragmatic approach

Page 13: Data science on Big Data. Pragmatic approach

Page 14: Data science on Big Data. Pragmatic approach

Page 15: Data science on Big Data. Pragmatic approach

Page 16: Data science on Big Data. Pragmatic approach

Page 17: Data science on Big Data. Pragmatic approach

Big data case

Page 18: Data science on Big Data. Pragmatic approach

Big data case

Page 19: Data science on Big Data. Pragmatic approach

Big data case

Page 20: Data science on Big Data. Pragmatic approach

Big data case

Page 21: Data science on Big Data. Pragmatic approach

Big data case

Page 22: Data science on Big Data. Pragmatic approach

Big data case

Page 23: Data science on Big Data. Pragmatic approach

Apache Spark case

Page 24: Data science on Big Data. Pragmatic approach

How does its works

Page 25: Data science on Big Data. Pragmatic approach

How does its works

Page 26: Data science on Big Data. Pragmatic approach

How does its works

Page 27: Data science on Big Data. Pragmatic approach

How does its works

Page 28: Data science on Big Data. Pragmatic approach

How does its works

Page 29: Data science on Big Data. Pragmatic approach

How does its works

Page 30: Data science on Big Data. Pragmatic approach

How does its works

Page 31: Data science on Big Data. Pragmatic approach

How does its works

Page 32: Data science on Big Data. Pragmatic approach

How does its works

Page 33: Data science on Big Data. Pragmatic approach

How does its works

Page 34: Data science on Big Data. Pragmatic approach

How does its works

Page 35: Data science on Big Data. Pragmatic approach

How does its works

Page 36: Data science on Big Data. Pragmatic approach

How does its works

Page 37: Data science on Big Data. Pragmatic approach

How does its works

Page 38: Data science on Big Data. Pragmatic approach

How does its works

Page 39: Data science on Big Data. Pragmatic approach

How does its works

Page 40: Data science on Big Data. Pragmatic approach

How does its works

Page 41: Data science on Big Data. Pragmatic approach

How does its works

Page 42: Data science on Big Data. Pragmatic approach

How does its works

Page 43: Data science on Big Data. Pragmatic approach

How does its works

Page 44: Data science on Big Data. Pragmatic approach

How does its works

Page 45: Data science on Big Data. Pragmatic approach

How does its works

Page 46: Data science on Big Data. Pragmatic approach

Spark Sql

Page 47: Data science on Big Data. Pragmatic approach

Spark Sql

Page 48: Data science on Big Data. Pragmatic approach

Spark Sql

Page 49: Data science on Big Data. Pragmatic approach

Spark Sql

Page 50: Data science on Big Data. Pragmatic approach

Spark Sql

Page 51: Data science on Big Data. Pragmatic approach

Spark Sql

Page 52: Data science on Big Data. Pragmatic approach

Spark Sql

Page 53: Data science on Big Data. Pragmatic approach

Spark Sql

Page 54: Data science on Big Data. Pragmatic approach

Spark Sql

Page 55: Data science on Big Data. Pragmatic approach

Spark Sql

Page 56: Data science on Big Data. Pragmatic approach

Spark Sql

Page 57: Data science on Big Data. Pragmatic approach

Spark Sql

Page 58: Data science on Big Data. Pragmatic approach

Spark Sql

Page 59: Data science on Big Data. Pragmatic approach

Spark Sql

Page 60: Data science on Big Data. Pragmatic approach

Spark Sql

Page 61: Data science on Big Data. Pragmatic approach

Spark Sql

Page 62: Data science on Big Data. Pragmatic approach

Apache Spark case

Page 63: Data science on Big Data. Pragmatic approach

Apache Spark in

Large Scale Machine Learning

Page 64: Data science on Big Data. Pragmatic approach

LSML issues•Too much samples to classify

•Training data does not fit in memory

•Too much training samples

•Too much models to train

Page 65: Data science on Big Data. Pragmatic approach

Why not MLLib?• MLLib is less stable

• too few algorithms comparing to scikit-learn

• ML pipelines are not so mature than in scikit-learn

• e. g. there is no simple way to use logistic regression for feature selection

• MLLib python API falls behind Java/Scala API

• MLLib is actively developed and may be feasible choice in near future

Page 66: Data science on Big Data. Pragmatic approach

Spark + scikit-learn = ?• Parallel training

• meta-parameter grid search

• parallel one-vs-rest for multi-class models

• same features but different targets

• parallel bagging and ensembles

• parallel learning for multi-step classification

• Parallel prediction

Page 67: Data science on Big Data. Pragmatic approach

Distributed learning

Page 68: Data science on Big Data. Pragmatic approach

Distributed learning

Page 69: Data science on Big Data. Pragmatic approach

Distributed learning

Page 70: Data science on Big Data. Pragmatic approach

Distributed learning

Page 71: Data science on Big Data. Pragmatic approach

Distributed learning

Page 72: Data science on Big Data. Pragmatic approach

Distributed learning

Page 73: Data science on Big Data. Pragmatic approach

Distributed learning

Page 74: Data science on Big Data. Pragmatic approach

Distributed learning

Page 75: Data science on Big Data. Pragmatic approach

Distributed learning

Page 76: Data science on Big Data. Pragmatic approach

Distributed prediction

Page 77: Data science on Big Data. Pragmatic approach

Distributed prediction

Page 78: Data science on Big Data. Pragmatic approach

Distributed prediction

Page 79: Data science on Big Data. Pragmatic approach

Distributed prediction

Page 80: Data science on Big Data. Pragmatic approach

Distributed prediction

Page 81: Data science on Big Data. Pragmatic approach

Distributed prediction

Page 82: Data science on Big Data. Pragmatic approach

Distributed prediction

Page 83: Data science on Big Data. Pragmatic approach

Models management•A complex ML task can be expressed as scikit-

learn pipeline

•e. g. feature scaling, then LR feature selection

then GBT classification

•Trained models can be stored on HDFS / S3 along

with training report and loaded for prediction

Page 84: Data science on Big Data. Pragmatic approach

Alternative approaches to LSML•partial / online learning

•e. g. stochastic gradient descent

•distributed stochastic gradient descent

• average sub-gradients to get the gradient

• is implemented in MLLib

Page 85: Data science on Big Data. Pragmatic approach

Spark is everywhere

•Mahout on spark aka Samsara

•H20 Sparkling water

Page 86: Data science on Big Data. Pragmatic approach

Thank you!Questions?

Dmitri Babaev [email protected] Pavel Mezentsev [email protected]

mailto:[email protected]

mailto:[email protected]

Introduction to Big Data, Big Data Processing, and Big ...cis.csuohio.edu/~sschung/CIS660/Lecture1_IntroBigDataAnalyrics.pdf · What’s Big Data? From Wikipedia: • Big data is

On the pragmatic equivalence between representing data and

Pragmatic Method Based on Intelligent Big Data Analytics

Solving the Big Problem A Pragmatic Approach Towards Information Management at NASA

Paper HW04 A Pragmatic Programmers Introduction to Data

A Pragmatic Approach to Create Value using Big Data

Pragmatic steps to implement big data analytics

Big Data Technology Big Data - aakritsubedi9.com.npaakritsubedi9.com.np/files/Big Data Technology.pdf · Big Data Technology Big Data 1"Big data" is a field that treats ways to analyze,

Big Data Visualization: Turning Big Data into Big Insights · Big Data Visualization: Turning Big Data Into Big Insights The Rise of Visualization-based Data Discovery Tools MARCH

Big Data, künstliche Intelligenz und Data Analytics · Big Data, künstliche Intelligenz, Machine Learning, Data Analytics & Co. How big is big? Big Data in der Versicherung sind

DIGITAL TRANSFORMATION The Pragmatic Approach to Industry ... · Real-time Big Data Analysis Digitisation Servitisation Middleware CREMA –Developing a system in the context of Industry

Big Data Prophylactics - Roger Clarke · 2018. 8. 19. · and formalised, most pragmatic and informal ¥ Typically: ¥ Spreadsheets, often primarily financial data ¥ Cost-Benefit

The BIG Future of BIG Data · 2017-03-08 · The BIG Future of BIG Data. Big Data Data Governance Data Warehousing Data Reporting Data Infrastructure. Become a PREDICTIVEEnterprise

Pragmatic Key Management for Data Encryption (pdf) - Securosis

Big Data meets Big Data

MSA220/MVE440 Statistical Learning for Big Data - Lecture 1 · 2018. 3. 19. · Statistical Learning for Big Data Big Data BIG DATA: can’t t on a HD Big Data: 10Gb+1Tb big data:

Caterpillar Big Data Infrastructure Big Data, Data

Pragmatic Data Testing_WPseries

Real Time Big data Applications: file · Web viewUNIT I. INTRODUCTION TO BIG DATA. Big Data – Definition, Characteristic Features – Big Data Applications - Big Data vs. Traditional

Big Data and Hadoop - How Big is this Big Data?

Data science on big data. Pragmatic approach

DATA LEAKAGE PREVENTION A Pragmatic Approachidg.bg/idgevents/idgevents/2015/0928160100-15.20-15.40_AlexandreDiemer.pdf · DATA LEAKAGE PREVENTION A Pragmatic Approach . 2 3 MAIN OBJECTIVES

Big Data Visualization: Turning Big Data into Big Insights · PDF fileWhite Paper Big Data Visualization: Turning Big Data Into Big Insights The Rise of Visualization-based Data Discovery

Pragmatic Analytics - Case Studies of High Performance Computing for Better Business and Big Data

An Introduction of Big data; Big data for beginners; Overview of Big Data; Big data Tutorial

Crowdsourcing from Scratch: A Pragmatic Experiment in Data

Big Data to Big Results - AMT-SYBEX · Big Data – really? Big Data – a bigger definition Pioneers of Big Data ... 16 May 2012 From Big Data to Big Results 9 Smart meters, security

Introduction to Big Data. Reference: What is “Big Data”?What is “Big Data”?

Data Collection Survey on Pragmatic Framework Study of ...open_jicareport.jica.go.jp/pdf/1000015826.pdf · Data Collection Survey on Pragmatic Framework Study of Labour Force Plan

Big Data and Business Analytics: The Engine of Digital ... · Enterprise Big Data Strategy . BIG DATA MANAGEMENT . BIG DATA ANALYTICS . BIG DATA APPLICATIONS . BIG DATA INTEGRATION

Big data solutions - Big data technology

Big Data Meets Big Data Analytics

Pragmatic Data Mining: Novel Paradigms for Tackling Key ... · Pragmatic Data Mining: Novel Paradigms for Tackling Key Challenges ... information retrieval, and related disciplines

Дмитрий Бабаев (ft. Павел Мезенцев): Data science using Big Data. Pragmatic approach

Object Management Group - Amisha at Pragmatic Data LLC