hadoop in wikimart. part 1. business

15
Hadoop & Wikimart Роман Зыков http://wikimart.ru Moscow, BI trends, 11 th October 2012

Upload: roman-zykov

Post on 18-Jan-2015

10.261 views

Category:

Documents


0 download

DESCRIPTION

Этот доклад я презентовал на конференции BI тренды 11 октября 2012 года в Москве. http://events.cnews.ru/events/programm/bi_instrumenty_v_rossii__poslednie_trendy.shtml

TRANSCRIPT

Page 1: Hadoop in Wikimart. Part 1. Business

Hadoop & WikimartРоман Зыков

http://wikimart.ru

Moscow, BI trends, 11th October 2012

Page 2: Hadoop in Wikimart. Part 1. Business

Введение

Быть или не быть…. Hadoop

Page 3: Hadoop in Wikimart. Part 1. Business

Задачи Wikimart

Что•BI задачи •Веб аналитика (внутреннее решение)•Рекомендации на сайте•Сервисы для маркетинга

Кто•Аналитический отдел•Аналитики других отделов •IT

Page 4: Hadoop in Wikimart. Part 1. Business

Проблема

Ждать или платить?•Объем данных•# сервисов

Page 5: Hadoop in Wikimart. Part 1. Business

Map Reduce

DATA

Standalone

Map Reduce

Page 6: Hadoop in Wikimart. Part 1. Business

Наша идея

Новая платформа только для “больших” задач

•Исследовать Map Reduce ПО•Первый пациент – алгоритмы рекомендаций

Сложности- нет бюджета -> Hadoop бесплатен  - нет экспертов -> изучили- нет железа -> виртуальный кластер

Page 7: Hadoop in Wikimart. Part 1. Business

Требования

• Масштабируемость  • Инсталляция• Интеграция • Без Java  • SQL запросы

Page 8: Hadoop in Wikimart. Part 1. Business

Схема данных

Сервисы данныхDWH

Page 9: Hadoop in Wikimart. Part 1. Business

Результаты

Рекомендации•Коллаборативная фильтрация (веб данные, PIG)•Товары аналоги (атрибуты товаров, PIG)•Популярные товары (веб данные, HiveQL)•Поисковые рекомендации (HiveQL)

1 год эксплуатации•>10% доходов•3 месяца на запуск•Десятки гигабайт обрабатываются за 2 часа•1 авария из-за полного отключения питания

Решение: Вложить деньги в железо

Page 10: Hadoop in Wikimart. Part 1. Business

Конечный пользователь

Внутренние ЯП•HiveQL •Pig

BI задачи•Агрегация данных для OLAP•RDBMS как витирина•OLAP и BI должны поддерживать HiveQL

Page 11: Hadoop in Wikimart. Part 1. Business

Интеграция данных

• SQOOP• Параллельный обмен с RDBMS

(MS SQL, MySQL, Oracle, Teradata… )• Инкрементальное обновление• HDFS, Hive, HBASE

• Talend Open Studio

Page 12: Hadoop in Wikimart. Part 1. Business

Hadoop и RDBMS

• Не заменят RDBMS:• Задержка• Слабые возможности HiveQL отн. SQL

• Задачи по оффлайн вычислениям:• Машинное обучение• Запросы к «большим» таблицам• ….

• Онлайн запросы: NOSQL

Page 13: Hadoop in Wikimart. Part 1. Business

Миф

Терабайты?Петабайты?

Big tasks!

Page 14: Hadoop in Wikimart. Part 1. Business

Выводы

• Hadoop это не квантовая физика• Вычислительные данные могут быть большими

Starter kit• Система управления Hadoop• Виртуальное железо (облако и т.д.)• Оффлайн вычисления• Pig или HiveQL• Sqoop: импорт/экспорт данных из БД

Page 15: Hadoop in Wikimart. Part 1. Business

Спасибо!!!

[email protected]/in/romanzykov

http://kpis.ru