hadoop in wikimart. part 1. business
DESCRIPTION
Этот доклад я презентовал на конференции BI тренды 11 октября 2012 года в Москве. http://events.cnews.ru/events/programm/bi_instrumenty_v_rossii__poslednie_trendy.shtmlTRANSCRIPT
Hadoop & WikimartРоман Зыков
http://wikimart.ru
Moscow, BI trends, 11th October 2012
Введение
Быть или не быть…. Hadoop
Задачи Wikimart
Что•BI задачи •Веб аналитика (внутреннее решение)•Рекомендации на сайте•Сервисы для маркетинга
Кто•Аналитический отдел•Аналитики других отделов •IT
Проблема
Ждать или платить?•Объем данных•# сервисов
Map Reduce
DATA
Standalone
Map Reduce
Наша идея
Новая платформа только для “больших” задач
•Исследовать Map Reduce ПО•Первый пациент – алгоритмы рекомендаций
Сложности- нет бюджета -> Hadoop бесплатен - нет экспертов -> изучили- нет железа -> виртуальный кластер
Требования
• Масштабируемость • Инсталляция• Интеграция • Без Java • SQL запросы
Схема данных
Сервисы данныхDWH
Результаты
Рекомендации•Коллаборативная фильтрация (веб данные, PIG)•Товары аналоги (атрибуты товаров, PIG)•Популярные товары (веб данные, HiveQL)•Поисковые рекомендации (HiveQL)
1 год эксплуатации•>10% доходов•3 месяца на запуск•Десятки гигабайт обрабатываются за 2 часа•1 авария из-за полного отключения питания
Решение: Вложить деньги в железо
Конечный пользователь
Внутренние ЯП•HiveQL •Pig
BI задачи•Агрегация данных для OLAP•RDBMS как витирина•OLAP и BI должны поддерживать HiveQL
Интеграция данных
• SQOOP• Параллельный обмен с RDBMS
(MS SQL, MySQL, Oracle, Teradata… )• Инкрементальное обновление• HDFS, Hive, HBASE
• Talend Open Studio
Hadoop и RDBMS
• Не заменят RDBMS:• Задержка• Слабые возможности HiveQL отн. SQL
• Задачи по оффлайн вычислениям:• Машинное обучение• Запросы к «большим» таблицам• ….
• Онлайн запросы: NOSQL
Миф
Терабайты?Петабайты?
Big tasks!
Выводы
• Hadoop это не квантовая физика• Вычислительные данные могут быть большими
Starter kit• Система управления Hadoop• Виртуальное железо (облако и т.д.)• Оффлайн вычисления• Pig или HiveQL• Sqoop: импорт/экспорт данных из БД