deephack.game red pandas team

9
Red Pandas at DeepHack Артём Воронин Денис Соколов Алексей Куров Валентин Малых Арсений Ашуха Red Pandas Red Pandas: Q-learning 25 июля 2015 1/9

Upload: deephacklab

Post on 18-Aug-2015

399 views

Category:

Science


1 download

TRANSCRIPT

Page 1: DeepHack.Game Red pandas team

Red Pandas at DeepHack

Артём Воронин Денис Соколов Алексей КуровВалентин Малых Арсений Ашуха

Red Pandas Red Pandas: Q-learning 25 июля 2015 1 / 9

Page 2: DeepHack.Game Red pandas team

Как научить программу играть?

breakout space invaders

Red Pandas Red Pandas: Q-learning 25 июля 2015 2 / 9

Page 3: DeepHack.Game Red pandas team

Что предложил DeepMind

Red Pandas Red Pandas: Q-learning 25 июля 2015 3 / 9

Page 4: DeepHack.Game Red pandas team

В чем отличие нашей задачи

DeepMind:I Время на проведение экспериментов не ограниченноI Время обучения ∼ 10 дней для каждой игрыI Для расчетов использовались GPU nVidia GTX Titan/Tesla

DeepHack:I Время на проведение экспериментов ∼ 4 дняI Время обучения финальной модели ∼ 20 часов для каждой игрыI Для расчетов использовались GPU nVidia Grid K520

Red Pandas Red Pandas: Q-learning 25 июля 2015 4 / 9

Page 5: DeepHack.Game Red pandas team

Инфраструктурные улучшения

Как мы доработали решение DeepMind:

I Визуализация процесса обученияI Возможность продолжения обучения после остановкиI Вывод набранных в процессе обучения очков

Red Pandas Red Pandas: Q-learning 25 июля 2015 5 / 9

Page 6: DeepHack.Game Red pandas team

Гипотезы

I Оптический потокI Нормализация изображения (Data Mean)I Небинаризованные и нормализованные игровые очкиI Увеличение вероятности использования успешных игрI Подбор оптимальных гиперпараметровI Увеличение вероятности приоритетных действийI Поиск эффективной архитектуры сетиI Алгоритм Double DQN

Red Pandas Red Pandas: Q-learning 25 июля 2015 6 / 9

Page 7: DeepHack.Game Red pandas team

Гипотезы, которые заработали

I Оптический потокI Нормализация изображения (Data Mean)I Небинаризованные и нормализованные игровые очкиI Увеличение вероятности использования успешных игрI Подбор оптимальных гиперпараметровI Увеличение вероятности приоритетных действийI Поиск эффективной архитектуры сетиI Алгоритм Double DQN

Red Pandas Red Pandas: Q-learning 25 июля 2015 7 / 9

Page 8: DeepHack.Game Red pandas team

Итоговая архитектура сети

Red Pandas Red Pandas: Q-learning 25 июля 2015 8 / 9

Page 9: DeepHack.Game Red pandas team

Вопросы

Red Pandas Red Pandas: Q-learning 25 июля 2015 9 / 9