data science week 2016. sberbank

42
Корпоративные данные и технологии

Upload: newprolab

Post on 16-Apr-2017

943 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: Data Science Week 2016. Sberbank

Корпоративные

данные и технологии

Page 2: Data Science Week 2016. Sberbank

До Big Data и Deep Machine Learning

С ростом объѐма данных и появлением технологий Big Data, сократился путь от данных к мудрости за счет развития технологий

машинного обучения

WISDOM

KNOWLEDGE

INFORMATION

DATA

WISDOM

DATA

Информационный актив организации

DATA

Machine

Learning

После Big Data и Deep Machine Learning

Page 3: Data Science Week 2016. Sberbank

Рост возможностей по хранению и обработке данных

Существенно

снизилась

стоимость

хранения данных

Появилась возможность

обрабатывать Большие

данные

1,4

0,8

2015 2005 1995 1985

40 000 20 000 0 100 000 80 000 60 000 10 000 30 000 50 000 70 000 90 000

Teradata

Vertica

Greenplum

Oracle

Microsoft

Hadoop

USD

2009 Сегодня

На сегодняшний день мировая вычислительная мощность

сопоставимая с 1,3 млрд ноутбуков

Стоимость хранения 1 ТБ данных

1

2

Page 4: Data Science Week 2016. Sberbank

Определение Big Data

Данные:

большие массивы

цифровых

структурированных и

неструктурированных

данных

Технологии:

возможность хранить и

обрабатывать практически

неограниченные объемы

данных любой структуры

Существенное снижение

стоимости хранения

и обработки данных

Аналитика

и Машинное обучение:

выявление скрытых

зависимостей

на основе анализа всего

объема данных

Новое качество

результатов машинного

обучения

Big Data – это

Таблицы, Текст,

Изображение, Голос, Видео Hadoop, Spark,..

Исследователи данных

открывают новые

закономерности и

возможности для бизнеса

Page 5: Data Science Week 2016. Sberbank

Эволюция аналитики и организации

4

1.0 Традиционная аналитика

• Преимущественно описательная

аналитика и отчетность

• Данные из внутренних источников,

относительно небольшие,

структурированные

• Разрозненные группы аналитиков

• Аналитика вспомогательный

второстепенный инструмент

2.0 Большие данные

• Сложные, большие,

неструктурированные источники

данных

• Новые аналитические и

вычислительные возможности

• Появление «исследователей

данных»

• Продукты и услуги, основанных на

данных источник прибыли

3.0 Data-driven организация

• Целостное сочетание

традиционной аналитики и

больших данных

• Аналитика как неотъемлемый

компонент ведения бизнеса

• Быстрое и гибкое обеспечение

решения

• Аналитические инструменты

доступны в точке принятия

решений

• Аналитика интегрирована в

операционные процессы

Аналитика выполняет вспомогательную

и необязательную функцию

для принятия решений

Создание продуктов и услуг,

основанных на данных

Аналитика встроена во все

операционные и бизнес-процессы

Билл Фрэнкс, Революция в аналитике. Как в эпоху Big Data улучшить ваш

бизнес с помощью операционной аналитики

Page 6: Data Science Week 2016. Sberbank

Основа Data Driven организации

5

Основные элементы:

Данные

Технологии работы с данными

Модели и аналитика

Принятие решений

Культура обращения с данными

Компетенция топ-менеджеров – выстроить

цепочку создания ценности на основе всех

элементов

ДАННЫЕ ТЕХНО

ЛОГИИ

РАБОТЫ С

ДАННЫМИ

МОДЕЛИ

ПРИНЯТИЕ

РЕШЕНИЙ

DATA DRIVEN ОРГАНИЗАЦИЯ

КУЛЬТУРА ОБРАЩЕНИЯ

С ДАННЫМИ

Билл Фрэнкс, ‘Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с

помощью операционной аналитики’

Том Дэвенпорт, Джоан Харрис ‘Аналитика как конкурентное преимущество. Новая наука

побеждать’

Page 7: Data Science Week 2016. Sberbank

Транзакции по картам

6

Транзакции по картам это пример

структурированных, однородных

данных.

Нет «плохих» или «хороших» данных. Разные типы данных могут быть полезны для разного класса задач. Важно

уметь находить им применение.

Представление в таблице реляционной БД

Представление в файле:

Объем Малый Большой

Тип носителя Цифровые Аналоговые

Место генерации Внутренние Внешние

Способ генерации Машина Человек

Доступность Низкая Высокая

Качество Низкое Высокое

Структурированность Низкая Высокая

Однородность Низкая Высокая

Связность Низкая Высокая

Page 8: Data Science Week 2016. Sberbank

КТО ОН?

С КЕМ ОН СВЯЗАН?

ЧТО ОН ДЕЛАЕТ?

Сбор на одной платформе всех доступных данных о клиенте

• Транзакции по картам и счетам

• Историю подключения услуг

• История посещения сайтов

• Данные дочерних компаний

• Открытые внешние данные

• ……

Очистка и объединение данных на уровне клиента в виде

аналитических представлений

Клиентский профиль

3

2

1

Связи

Page 9: Data Science Week 2016. Sberbank

Аналитические представления

Связи

Цепочки событий

Интегральный профиль Идентификатор:

• MDM ID

• Id Соцсетей

• Cookie

(ClickStream)

Соц.дем.:

• Пол, возраст

• Место жительства

• Место работы

• Образование

• Уровень дохода

• Семья….

Контакты.:

• Email

• Телефоны

• Messenger IDs

• …….

Интересы:

• Автомобили

• Недвижимость

• Путешествия

• Спорт

• …….

~150 млн. профилей

Вершины:

• Физ. Лица (клиенты)

• Юр.лица

• Интернет-пользователи

Признак связи:

• Перевод денежных средств

• Владение активами

• Родственные связи

• Работа в одной организации

к ипотеке 5б Детским товарам 7б Путешествиям 4б

Кофе 1б Кино 2б Бензин 2б Одежду 9б

1

1 2

2 3

3 4

Ед

ин

ый

ID

Потратил деньги на:

Проявил интерес в

интернете к:

Последовательности действий по картам, счетам в интернет, агрегированные

из детальных данных в логически понятные события:

Связи физ. лиц, юр. лиц, профилей социальных сетей

Сводная информация по клиенту 1

2

3

Page 10: Data Science Week 2016. Sberbank

Данные как стратегический ресурс

9

Топливо и особенно каменный уголь в наше время составляют первейшее – после людей –

условие всего промышленного развития всякой страны и всякой ее части

Д.И. Менделеев, 1881 – 1883 г.

Кто владеет информацией, тот владеет миром

Натан Ротшильд, 1815 г.

Данные и нефть – это стратегический ресурсы Владение большими объемами этих ресурсов дает владельцу потенциальное конкурентное преимущество. При этом владение данными создают только расходы, а продажа сырых не приносит значимой прибыли. Необходимо уметь извлекать из данных ценность за счет создания новых продуктов использующих аналитику

Page 11: Data Science Week 2016. Sberbank

Задачи технологий работы с данными

• Получить извне

• Передать между

системами

• Собрать в одном

месте

• Сохранить,

предоставить

доступ

• Быстро находить

нужное

• Объединить в

одной структуре

• Рассчитать

показатели

• Обучить модель

• Отчеты,

дашборды,

визуализация

• Предписание в

операционном

процессе

Загрузить Сохранить Обработать Принять решения

Page 12: Data Science Week 2016. Sberbank

Классификация технологий для работы с данными

11

Массивно параллельные

системы управления

базами данных

Massive Parallel

Processing

(MPP)

Технологии и Инструменты Интеграции и Трансформации Данных

Extract Transform Load (ETL)

Технологии и Инструменты Анализа и Визуализации Данных

Business Intelligence (BI)

Реляционные системы

управления базами

данных

(RDBMS)

Специализированные

системы управления

базами данных

GraphDB

FastGraph

Распределенные

системы хранения и

обработки данных

любых форматов

Hadoop

Системы

распределенной

обработка данных в

оперативной памяти

InMemory

Машинное обучение и Искусственный интеллект

Machine Learning (ML) and Artificial Intelligence (AI)

Page 13: Data Science Week 2016. Sberbank

Экосистема Hadoop

12

Определение технологий для работы в экосистеме – сложная задача, которая решается индивидуально исходя

из потребностей и особенностей компании

Управление ресурсам кластера

Распределенная файловая система кластера

Админист

рировани

е,

управлен

ие и

координа

ция

YARN

Вычисления

в памяти

Индексный

поиск

Машинное

обучение

NoSQL

СУБД

SQL аналитик

на данных

Hadoop

Скриптовые

языки

Интеграция и

потоковая

обработка

Page 14: Data Science Week 2016. Sberbank

Продукты на основе данных

Ценность данных для Банка возрастает

за счет инвестиций в процессы и

инфраструктуру хранения и обработки

Данные для дескриптивной

и предсказательной

аналитики

Данные

для предписывающей

аналитики

Подготовленные

данные

• Обучение моделей

• Пилотирование.

• Регуляторная отчетность

• Управленческая отчетность

• Ad-hoc аналитика

• Принятие решений в

реальном времени.

Сырые данные

Системы источники

Копии источников

Консолидированные данные

DM (Витрины данных общего назначения)

DM (Специализированные витрины данных)

Модели / BI

Операционный процесс

13

• Проверка гипотез

Page 15: Data Science Week 2016. Sberbank

Банковская платформа

ФАБРИКА ДАННЫХ

ПРОДУКТОВЫЕ ФАБРИКИ

БИЗНЕС-ХАБ

ЕФС

ТЕХНОЛОГИИ

• Презентационный слой

• Сценарии переходов между экранами

• Бизнес логика ЕФС

• Интеграционный слой

• Управление процессами

• Вычислительный грид

• Оперативные данные

• Аналитика данных

• Хранение больших объемов

данных

ЖЕЛЕЗО

Внутреннее

«ОБЛАКО»

DATA

Оборудование Teradata Типовое оборудование

(архитектура x86)

Внешнее

«ОБЛАКО»

Page 16: Data Science Week 2016. Sberbank

Большие зубы и новые технологии – это еще не все

Компании, которые не использует новые технологии работы с данными, уже проиграли глобальную конкуренцию Но даже использование новых технологий – не залог выживания. Уже недостаточно просто иметь большие данные, нужно уметь их использовать для повышения эффективности операционных процессов.

15

Page 17: Data Science Week 2016. Sberbank

Сбербанк Технологии – Центр Компетенций Супермассивы

Специалисты по технологиям

хранения и обработки данных

• Hadoop/Spark, NoSQL

• Data Mining/Machine Learning

• Java/Scala/Python/R

• DevOps

16

Page 18: Data Science Week 2016. Sberbank

Благодарим за внимание!

Page 19: Data Science Week 2016. Sberbank

Аналитика и машинное обучение

Page 20: Data Science Week 2016. Sberbank

Основные типы аналитики

Описание

Что происходит

сейчас? Что произойдет

дальше?

Как мы можем

повлиять на события?

Выделение ключевых

характеристик, группировка

данных

Прогнозирование

вероятности наступления

будущих событий

Рекомендация

управляющих действий

Сегментация клиентов

Классификация типов

событий

Прогноз показателей

Прогноз банкротства

Предсказание надежности

клиента

Персонализация сайта

Блокировка мошеннических

транзакций

Примеры

Дескриптивная

аналитика

Предиктивная

аналитика

Предписывающая

аналитика

Принцип

Page 21: Data Science Week 2016. Sberbank

Machine Learning

Machine Learning – способы воспроизведения связей между

событиями и результатом

Page 22: Data Science Week 2016. Sberbank

Machine Learning

Gini = 55%

Time = 12-20 h

Gini = 80%

Time = 3-4 h

Отвечаем на вопросы:

• Что происходит сейчас

• Что вероятно произойдет дальше?

Отвечаем на вопросы:

• Что происходит сейчас

• Что вероятно произойдет дальше?

• Как мы можем повлиять на события?

Page 23: Data Science Week 2016. Sberbank

Deep Learning

Deep Learning – способы воспроизведения системы связей

между событиями и результатом, в том числе скрытых связей

Генерация новых объектов

Супермассивы

данных

Связи ‘событие -

результат’

Распознавание образов,

звуков, текста

Системы связей

‘событие - результат’

Page 24: Data Science Week 2016. Sberbank

Уже сегодня глубинные

нейросети способны

создавать ‘шедевры’, но

все еще под контролем

человека

Deep Learning: как это работает

Картина создана с помощью

алгоритмов машинного обучения

Рыцарь превратился в мутанта т.к.

в обучающей выборке было

слишком много фотографий собак

Page 25: Data Science Week 2016. Sberbank

Примеры инициатив Сбербанка

Page 26: Data Science Week 2016. Sberbank

2012 2013 2014 2015

Предотвращение

случаев мошенничества

с документами на

основе анализа фото и

данных клиента

Развитие технологии

для исходной

идентификации

клиентов

АС САФИ

Анализ и сравнение с

базой данных

метрических шаблонов

Итоговый

результат

модели

Анализ правил

текущей и

исторической заявок

Биометрический анализ образов

Система анализа фотоизображений ‘САФИ’

Запуск

САФИ

Ущерб от мошенничества с

паспортом

Page 27: Data Science Week 2016. Sberbank

Запуск в промышленную эксплуатацию в сентябре 2015 года

Рост качества модели на +7 пп. Gini

Оценка кредитных рисков с использованием

данных мобильных операторов

Доходы

Кредитная история Скоринг. модель

Заявка

одобрена

Скоринг. модель + данные моб.

операторов

Заявка

отклонена

Клиент имеет несколько тел. номеров одновременно

Клиент постоянно меняет тел. номера

Клиент пополнил счет своего моб. тел. менее чем на

10 р. за месяц

Page 28: Data Science Week 2016. Sberbank

МОДЕЛЬ

ПРИНЯТИЯ

РЕШЕНИЙ

РУЧНАЯ

РАБОТА

ЭКПЕРТА

Модель

Затраты

Качество

Автоматизация процесса принятия

решений андеррайтинга

Задача Модель прогноза

решения андеррайтера

Источники Внешние и внутренние

данные

Результат Gini = 81%

Применение Оптимизация кредитного

процесса

Качество

Андеррайтер

Затраты

• Проверка

документов

• Проверка стоп

факторов

• Проверка в

других

источниках

• Проверка

работодателя

• Верификация

по телефону

Решение

по заявке

Решение

по заявке ◄ ◄ ► ►

Page 29: Data Science Week 2016. Sberbank

Машинное обучение при оценке

кредитных рисков розничных клиентов (1/2)

Кредитная история

Данные отчѐтности

Качественные

факторы

Применение алгоритмов машинного обучения позволило повысить качество модели

за счет более точного отбора факторов

Модель с традиционным

отбором факторов

Gini = 71%

Рост качества

модели на 4 п.п.

Модель с отбором

факторов на основе ML

Gini = 75%

Page 30: Data Science Week 2016. Sberbank

Преимущества Банка

Значительный поток заявок 50-60 тыс. в день

Наличие необходимых компетенций

Наличие необходимых данных 10-15 млн. карт. транзакций в день

Разнообразие инструментов

Адаптивные скоринговые модели

Решает задачу автоматической

разработки моделей оценки

кредитного риска

В основе системы - алгоритмы

машинного обучения

Машинное обучение при оценке

кредитных рисков розничных клиентов (2/2)

Gini = 67%

Gini = 66%

Разработка

модели

t = 3-4 недели

Разработка

модели

t = 3-4 часа

Page 31: Data Science Week 2016. Sberbank

Моделирование вероятности дефолта для малого

бизнеса в режиме реального времени (1/2)

AS IS: ВНЕШНИЕ ИСТОЧНИКИ оценка рисков – 1-2 дня

ОТЧЕТНОСТЬ

КАЧЕСТВЕННЫЕ ФАКТОРЫ

Трудовые и временные затраты

Недостоверность отчетности

Субъективность оценки качеств. факторов

Смещенность оценки, если нет кред. истории

Сбор полного комплекта затруднителен

TO BE: ТРАНЗАКЦИОННЫЕ ДАННЫЕ оценка рисков – real-time

НАЛОГИ регулярность и величина выплат,

частота и величина штрафов

ВЫРУЧКА равномерность/

стабильность/величина

ДОЛГ выплаты в счет долга,

частота и величина погашения просрочки и пр.

Пр. данные доля поступлений

от инкассации, срок

использования р/с

КРЕДИТНАЯ ИСТОРИЯ

↓ Времени принятия решения

↑ Прибыльности и комиссионного дохода

↑ Эффективности предодобренных

предложений

НЕДОСТАТКИ ПРИЕМУЩЕСТВА

Page 32: Data Science Week 2016. Sberbank

Умные советы: генерация на основе анализа карточных

транзакций клиентов (1/2)

За 3 месяца до крупной

транзакции не было

покупок, связанных с

авто, а после появились

Дата генерации

совета

Расходная транзакция

≥100 000 ₱

≤ 3 мес. В течении 3-х

месяцев нет

транзакций на

авто

Регулярные транзакции на

авто (АЗС, мойка, парковка)

… 2 нед.

Дата генерации

совета Расходная

транзакция

≥100 000 ₱

1 мес.

Увеличение числа транзакций на ремонт /

мебель*

1 мес. 1 мес.

1 мес.

Паттерн покупки авто

Паттерн ремонта/покупки мебели

Паттерн затрат на лечение

≤3 мес.

Расходы на лечение

≥ 40 000 ₽

При сравнении месяца

крупной покупки и месяца

после наблюдается рост

числа транзакций на

ремонт, мебель

По истории транзакций

находим период в

который происходит

активная оплата

лечения в РФ (≥ K ₽)

1

2

3

Page 33: Data Science Week 2016. Sberbank

Умные советы: генерация на основе анализа карточных

транзакций клиентов (2/2)

Паттерн

Количество

советов

(шт.)

ДМС 262 700

Налоговый вычет за 2015 год

217 474

Налоговый вычет 01.2016 – 02.2016

45 226

Начало ремонта 39 900

Покупка мебели 22 578

Покупка авто 12 612

ИТОГО 600 490

Сколько можно было дать советов? Где можно использовать?

Page 34: Data Science Week 2016. Sberbank

Deep learning позволяет разрабатывать модели анализируя

естественный язык общения людей

…организовывать

социальные и

профессиональные

сообщества…

Можно оценивать

настроения людей…

... и даже предсказывать

движение цен акций,

вероятность банкротства

публичных компании

Page 35: Data Science Week 2016. Sberbank

Комбинация данных, технологий и машинного обучения открывают

принципиально новые возможности, но требуют:

• изменения бизнес-культуры:

• data driven менеджмент

• кросс-функциональные команды и сотрудничество

• включения в компанию специалистов нового типа

• приобретения и освоения новых средств IT и создания

целостной высокотехнологичной платформы организации

Начало работ в этом направлении – стратегическое, а не

техническое решение

Повышение роли искусственного интеллекта должно

сопровождаться повышением степени контроля соответствующих

модельных рисков

Page 36: Data Science Week 2016. Sberbank

ДАННЫЕ

МОДЕЛИ

ПРОЦЕССЫ

МОДЕЛЬНЫЙ

РИСК

Модельный риск и его источники

Page 37: Data Science Week 2016. Sberbank

В 1628 году в Швеции новый

военный корабль «VASA»

затонул в свой первый рейс,

проплыв менее мили.

Причина аварии была в том,

что корабль ассиметричный:

будучи толще со стороны

одного из бортов.

Качество данных. Согласованность.

Page 38: Data Science Week 2016. Sberbank

Во время Второй мировой войны командование английских ВВС проводило исследование

уязвимости английских бомбардировщиков . У многих возвращавшихся самолѐтов были

пробоины на крыльях и хвосте, и было принято решение укрепить их бронѐй.

Качество данных. Репрезентативность.

Page 39: Data Science Week 2016. Sberbank

Качество данных. Полнота и однородность.

Page 40: Data Science Week 2016. Sberbank

Ошибки в моделях. Правомерность предпосылок.

1-й бросок 2-й бросок 3-й бросок 4-й бросок

?

?

?

«Закон»

МИДОУ 1 / 8 500

1 / 8 500

х

= 1 / 72 250 000

Page 41: Data Science Week 2016. Sberbank

Ошибки в процессах применения моделей

Page 42: Data Science Week 2016. Sberbank

Благодарим за внимание!