title 44 point verdana all caps...2012/03/11  · software solutions greenplum СУБД, hadoop,...

36
1 © Copyright 2012 EMC Corporation. All rights reserved. EMC Greenplum Унифицированная платформа для аналитики Больших Данных Денис Серов Руководитель направления технического консультирования EMC Россия и СНГ [email protected]

Upload: others

Post on 07-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

1 © Copyright 2012 EMC Corporation. All rights reserved.

EMC Greenplum Унифицированная платформа для аналитики Больших Данных

Денис Серов Руководитель направления технического консультирования EMC Россия и СНГ [email protected]

Page 2: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

2 © Copyright 2012 EMC Corporation. All rights reserved.

Greenplum стал фундаментом Аналитики Больших Данных EMC (Июль 2010)

EMC ПРИОБРЕТАЕТ GREENPLUM

“В течение трех лет, Gartner именовал Greenplum как самого продвинутого вендора среди Визионеров

в своем ежегодном DBMS Magic Quadrant….”

– Gartner

Page 3: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

3 © Copyright 2012 EMC Corporation. All rights reserved.

ЗА 10 ЛЕТ ЦИФРОВАЯ ВСЕЛЕННАЯ ВЫРАСТЕТ ДО

35 ЗЕТТАБАЙТ 35,000,000,000,000,000,000,000

Источник: 2011 IDC Digital Universe Study

Page 4: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

4 © Copyright 2012 EMC Corporation. All rights reserved.

1,000,000,000 запросов в день

900ms среднее время выполнения

Page 5: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

5 © Copyright 2012 EMC Corporation. All rights reserved.

!!!

!!!

!!!

!!!

!!!

“Big Data Is Less About Size, And More About Freedom”

―Techcrunch

!!!

!!!

!!! “Findings: ‘Big Data’ Is More Extreme Than Volume”

― Gartner

“Big Data! It’s Real, It’s Real-time, and It’s Already Changing Your World”

―IDC “Total data: ‘bigger’ than big data”

― 451 Group

НАСТУПИЛА ЭРА

БОЛЬШИХ ДАННЫХ

Page 6: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

6 © Copyright 2012 EMC Corporation. All rights reserved.

Аналитика Больших Данных:

Путь к Выгоде для Бизнеса

В ЭРУ БОЛЬШИХ ДАННЫХ АНАЛИТИКА ЯВЛЯЕТСЯ КЛЮЧОМ К УСПЕХУ

Page 7: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

7 © Copyright 2012 EMC Corporation. All rights reserved.

Предсказание поведения покупателей для повышения дохода

Аналитика Больших Данных делает возможным увеличение прибыли на покупателя

LOW

HIGH

Agent “Best Guess”

Custo

mer

Pro

fit

Branch Level Reporting Enabling

Profit-based Recommendations

Legacy System

TRADITIONAL DATA LEVERAGED BIG DATA LEVERAGED

Greenplum Big Data Analytics

Greenplum Database BI Reporting

Market Basket Analysis & Customer Lifetime Value Computations Enabling

User-based Recommendations

Greenplum In-Database

Analytics

Data Enriched with Unstructured Activity Logs

To Identify At Risk Customers

Пример использования

Page 8: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

8 © Copyright 2012 EMC Corporation. All rights reserved.

Page 9: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

9 © Copyright 2012 EMC Corporation. All rights reserved.

Page 10: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

10 © Copyright 2012 EMC Corporation. All rights reserved.

Page 11: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

11 © Copyright 2012 EMC Corporation. All rights reserved.

Greenplum: унифицированная платформа для аналитики

Page 12: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

12 © Copyright 2012 EMC Corporation. All rights reserved.

Типичная архитектура хранилища данных для аналитики

Хранилища департаментов

Корпоративные приложения

Отчетность

Не гибкие модели

Распределенные витрины

Приоритизированные

операционные процессы

Разные данные и витрины

Хранилища департаментов

Аналитика

Источники данных

Не приоритезированное выделение данных

Статичные схемы срастающиеся со

временем

Page 13: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

13 © Copyright 2012 EMC Corporation. All rights reserved.

Архитектура Greenplum для аналитики

GPDB + Hadoop + Chorus + Labs

Гибкая Аналитика (In-Database)

MADlib/Mahout

Корпоративные приложения

Отчетность

Приоритизированные

операционные процессы

Источники данных

Наследован- ные системы

Page 14: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

14 © Copyright 2012 EMC Corporation. All rights reserved.

Аналитика вместе с Greenplum

Массивная масштабируемость скоростной аналитики SAS-Greenplum

Data Prep

Время получения результата

libname GPlib &dbms &CONNOPT

connection=unique;

data work.combined;

merge GPlib.STAFF GPlib.SUPERV(in=super

rename=(SUPID=IDNUM));

by IDNUM;

if super;

run;

proc hplogistic data=GPlib.sgf_binary;

class A B C;

model y = a b c x1 x2 x3;

performance details host=”gpprod";

run;

Page 15: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

15 © Copyright 2012 EMC Corporation. All rights reserved.

Data Prep

Время получения результата

Маркетинговая оптимизация при помощи MADlib

> SELECT householdID, variables

FROM households

ORDER BY RANDOM()

LIMIT 100000;

> SELECT run_univariate_analysis (

'households_training',

'variables');

WHERE pvalue<.01 AND r2>.01;

> SELECT run_regression(

'univariate_results',

'households_training');

> SELECT householdID,

madlib.array_dot(

coef::REAL[],

xmatrix::REAL[])

FROM coefficients, households;

MADlib

Аналитика вместе с Greenplum

Page 16: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

16 © Copyright 2012 EMC Corporation. All rights reserved.

Время получения результата

Текстовая аналитика с Hadoop и MADlib

-MAP:

NAME: extract_terms

PARAMETERS: [id integer, body text]

RETURNS: [id int, title text, doc _text]

FUNCTION: |

if 'parser' not in SD:

import ...

class MyHTMLParser(HTMLParser):

...

SD['parser'] = MyHTMLParser()

parser = SD['parser']

parser.reset()

parser.feed(body)

id | tfxidf

-----+-------------------------------------------------------------------

2482 | {3,1,37,1,18,1,29,1,45,1,...}:{0,8.25206814635817,0,0.34311110...}

1 | {41,1,34,1,22,1,125,1,387,...}:{0,0.771999985977529,0,1.999427...}

10 | {3,1,4,1,30,1,18,1,13,1,4,...}:{0,2.95439664949608,0,3.2006935...}

...

> CREATE EXTERNAL TABLE document_feature (

docid integer,

term text,

freq integer)

LOCATION ('gphdfs://localhost:9000/user/schopf/docs.txt')

FORMAT 'text' (delimiter '|');

MADlib

Аналитика с Greenplum

Page 17: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

17 © Copyright 2012 EMC Corporation. All rights reserved.

СУБД Greenplum: экстремальная производительность для аналитики

Оптимизирована для BI и аналитики

– Глубокая интеграция со статистическими инструментами

– Высокая производительность параллельной обработки

• Простая и автоматизированная

– Загрузка и запросы как в обычной СУБД

– Таблицы автоматически распределяются по узлам

• Экстремально масштабируемая

– MPP архитектура без разделения ресурсов

– Все узлы обрабатывают данные параллельно

– Линейная масштабируемость

Page 18: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

18 © Copyright 2012 EMC Corporation. All rights reserved.

Производительность достигаемая через параллелизм обработки данных • Горизонтально масштабируемая

архитектура на стандартном оборудовании

• Автоматический параллелизм

– Загрузка и запросы как в обычной СУБД

– Автоматическое распределение таблиц

– Не требует ручной настройки

• Экстремально масштабируемая MPP архитектура без разделения ресурсов

– Все узлы обрабатывают параллельно

– Линейная масштабируемость

– Расширение без остановки работы

Loading

Interconnect

СУБД GREENPLUM

Page 19: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

19 © Copyright 2012 EMC Corporation. All rights reserved.

Greenplum HD решение Hadoop для предприятий

Apache Hadoop – На базе наиболее стабильной версии

Корпоративная поддержка – 24x7 поддержка от EMC

Проверенная – Сертифицировано EMC

Скоростное хранилище Isilon в виде опции

– Лучшая в своем классе СХД без необходимости менять Hadoop приложения

Page 20: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

20 © Copyright 2012 EMC Corporation. All rights reserved.

Проверенное решение с поддержкой мирового класса

Крупнейшая в индустрии

команда поддержки Hadoop

– Ведущие специалисты по

Hadoop (из Yahoo!, LinkedIn,

Talend, и т.д.)

Проверено в масштабе

– 1,000-узлов, 24-Петабайт

– Многомиллионные инвестиции

– Сниженный риск для

заказчиков EMC

– Сертификация с партнерами

Bringing Rapid Innovation to Hadoop

GREENPLUM HD

Page 21: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

21 © Copyright 2012 EMC Corporation. All rights reserved.

Greenplum Chorus делает возможной гибкость для Больших Данных

Первая в мире платформа аналитической продуктивности

– Поиск, изучение, визуализация и импорт данных со всего предприятия

– Самообслуживание и выделение аналитических рабочих сред

– Создание, совместное использование и публикация инсайтов для гибкой аналитики

Page 22: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

22 © Copyright 2012 EMC Corporation. All rights reserved.

Коллаборативная среда для аналитики

Рабочие окружения для аналитики больших данных

Более прозрачные проекты

Коллаборация внутри проектов, обмен информацией между командами

GREENPLUM CHORUS

Page 23: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

23 © Copyright 2012 EMC Corporation. All rights reserved.

Модульный Greenplum

Представляем первое в мире:

– Высокоскоростное

– Специально созданное

– Устройство для обработки данных

Комбинация СУБД Greenplum и Greenplum Hadoop в одном устройстве

Page 24: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

24 © Copyright 2012 EMC Corporation. All rights reserved.

Greenplum Software Solutions

Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании

Гибкость для любой нагрузки и окружения

Постоянные лицензии, либо годовая подписка

Greenplum это выбор и гибкость

Greenplum Data Computing Appliance

Выбор модулей Greenplum СУБД и/или Hadoop инкрементами по ¼ шкафа

Масштабирование добавлением новых узлов по Вашему выбору

Минимальное время развертывания

Page 25: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

25 © Copyright 2012 EMC Corporation. All rights reserved.

Greenplum Data Computing Appliance Революционная модульная архитектура

Стандартный модуль Greenplum

СУБД

9TB (без сжатия)

Состав каждого сервера: • 2 sockets/12 ядер -

48GB памяти • 12x 600GB 10k rpm

Высокоемкий модуль Greenplum

СУБД

31TB (без сжатия)

Состав каждого сервера: • 2 sockets/12 ядер -

48GB памяти • 12x 2TB 7.2k rpm

Модуль Greenplum HD (Hadoop)

28TB (3 копии, без сжатия)

Состав каждого сервера: • 2 sockets/12 ядер -

48GB памяти • 12x 2TB 7.2k rpm

Модуль ускорения интеграции

данных (DIA)

70TB

Состав каждого сервера: • 2 sockets/12 ядер -

48GB памяти • 12x 2TB 7.2k rpm

HD

DIA

GPDB

GPDB

Page 26: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

26 © Copyright 2012 EMC Corporation. All rights reserved.

Масштабируемость до нескольких шкафов инкрементами по ¼ шкафа

Основной шкаф

Add ¼ rack Increments

+

Расширение

Add ¼ rack Increments

+

Functional Module

Functional Module

Functional Module

Greenplum DIA Module

Greenplum Database Modules

or

or

Greenplum HD

Module

Greenplum DIA Module

Greenplum Database Modules

or

or

Greenplum HD

Module

Functional Module

Functional Module

Functional Module

Functional Module

Greenplum Database Module

(required)

Page 27: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

27 © Copyright 2012 EMC Corporation. All rights reserved.

Примеры кластерных конфигураций DCA Greenplum

Module Type Стандартный модуль Greenplum Database

Модуль высокой емкости Greenplum Database

К-во модулей 4 48 4 48

К-во шкафов 1 12 1 12

Полезная емкость (без сжатия)

36 TB 432 TB 124 TB 1,488 TB

Полезная емкость (со сжатием)

144 TB 1,728 TB 496 TB 5,952 TB

Скорость сканирования

24 GB/Sec 288 GB/Sec 14 GB/Sec 168 GB/Sec

Скорость загрузки 10 TB/Hour 120 TB/Hour 10 TB/Hour 120 TB/Hour

Модули СУБД

Greenplum

Page 28: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

28 © Copyright 2012 EMC Corporation. All rights reserved.

Бесшовная интеграция с инфраструктурой

EMC Data Domain для резервного копирования и восстановления

EMC VMAX/VNX SAN Mirror для повышенной

катастрофоустойчивости

Isilon Scale Out для Больших Данных

EMC VMAX SRDF EMC Data Domain

Replication For Disaster Recovery

Page 30: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

30 © Copyright 2012 EMC Corporation. All rights reserved.

Мощная партнерская экосистема

Discovix

Page 31: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой
Page 32: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

32 © Copyright 2012 EMC Corporation. All rights reserved.

Преимущества модульной архитектуры

ПРОСТО

All software infrastructure optimally pre-configured

All hardware automatically monitored by EMC

ГИБКО

• Big Data Analytics need more than just database; it needs an agile platform

• Able to scale as dictated by requirements; In-place expansion; no forklifting needed

ЭФФЕКТИВНО

• Minimized time to value

• Built on best-of-breed commodity hardware

• Automated health monitoring and EMC Dial Home

GREENPLUM DCA

Page 33: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

33 © Copyright 2012 EMC Corporation. All rights reserved.

Greenplum: это не только технология

• Data Science teams will become the driving force for success with big data analytics

• Greenplum is committed to the future of data science

– University data science program collaboration with Stanford and UC Berkeley

– Community investment including the Greenplum Analytic Workbench, Community edition software, and Data Science Summits

• Greenplum built its own Data Science practice

– Leading PhDs with analytic tools expertise

Page 34: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

34 © Copyright 2012 EMC Corporation. All rights reserved.

Научный подход к работе с данными Broad and Deep Experience to Assist Your Teams

Experience:

Yahoo

DemandTec

Fox Interactive

eHarmony

Amazon

Academic Level:

Masters

PhD

Fields of Specialization:

Statistics

Applied Mathematics

Bayesian Analysis

Analytics Software

Quantitative Methods

Risk Analytics

Marketing Optimization

Stochastic Machine Learning

Healthcare Data Mining

Engineering

Academic Affiliations:

Cal Berkeley

Princeton

Stanford

Australian National Univ.

Oxford

Courant Institute

GREENPLUM ANALYTICS LABS

Page 35: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

35 © Copyright 2012 EMC Corporation. All rights reserved.

С чего начать: Greenplum Analytics Labs

Packaged solutions that produce business value and actionable results

Accelerate analytics capabilities on your data with your analysts

Leverage the expertise of Greenplum’s Data Scientists

Establish a strategic vision for analytics development

Page 36: TITLE 44 POINT VERDANA ALL CAPS...2012/03/11  · Software Solutions Greenplum СУБД, Hadoop, & Chorus на Вашем x86 оборудовании Гибкость для любой

36 © Copyright 2012 EMC Corporation. All rights reserved.

Большое спасибо и

ждем ваших заявок!