hadoop in wikimart. part 1. business

Post on 18-Jan-2015

10.261 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Этот доклад я презентовал на конференции BI тренды 11 октября 2012 года в Москве. http://events.cnews.ru/events/programm/bi_instrumenty_v_rossii__poslednie_trendy.shtml

TRANSCRIPT

Hadoop & WikimartРоман Зыков

http://wikimart.ru

Moscow, BI trends, 11th October 2012

Введение

Быть или не быть…. Hadoop

Задачи Wikimart

Что•BI задачи •Веб аналитика (внутреннее решение)•Рекомендации на сайте•Сервисы для маркетинга

Кто•Аналитический отдел•Аналитики других отделов •IT

Проблема

Ждать или платить?•Объем данных•# сервисов

Map Reduce

DATA

Standalone

Map Reduce

Наша идея

Новая платформа только для “больших” задач

•Исследовать Map Reduce ПО•Первый пациент – алгоритмы рекомендаций

Сложности- нет бюджета -> Hadoop бесплатен  - нет экспертов -> изучили- нет железа -> виртуальный кластер

Требования

• Масштабируемость  • Инсталляция• Интеграция • Без Java  • SQL запросы

Схема данных

Сервисы данныхDWH

Результаты

Рекомендации•Коллаборативная фильтрация (веб данные, PIG)•Товары аналоги (атрибуты товаров, PIG)•Популярные товары (веб данные, HiveQL)•Поисковые рекомендации (HiveQL)

1 год эксплуатации•>10% доходов•3 месяца на запуск•Десятки гигабайт обрабатываются за 2 часа•1 авария из-за полного отключения питания

Решение: Вложить деньги в железо

Конечный пользователь

Внутренние ЯП•HiveQL •Pig

BI задачи•Агрегация данных для OLAP•RDBMS как витирина•OLAP и BI должны поддерживать HiveQL

Интеграция данных

• SQOOP• Параллельный обмен с RDBMS

(MS SQL, MySQL, Oracle, Teradata… )• Инкрементальное обновление• HDFS, Hive, HBASE

• Talend Open Studio

Hadoop и RDBMS

• Не заменят RDBMS:• Задержка• Слабые возможности HiveQL отн. SQL

• Задачи по оффлайн вычислениям:• Машинное обучение• Запросы к «большим» таблицам• ….

• Онлайн запросы: NOSQL

Миф

Терабайты?Петабайты?

Big tasks!

Выводы

• Hadoop это не квантовая физика• Вычислительные данные могут быть большими

Starter kit• Система управления Hadoop• Виртуальное железо (облако и т.д.)• Оффлайн вычисления• Pig или HiveQL• Sqoop: импорт/экспорт данных из БД

Спасибо!!!

rzykov@gmail.comlinkedin.com/in/romanzykov

http://kpis.ru

top related