deephack.game red pandas team

Red Pandas at DeepHack

Артём Воронин Денис Соколов Алексей КуровВалентин Малых Арсений Ашуха

Red Pandas Red Pandas: Q-learning 25 июля 2015 1 / 9

Как научить программу играть?

breakout space invaders


Что предложил DeepMind


В чем отличие нашей задачи

DeepMind:I Время на проведение экспериментов не ограниченноI Время обучения ∼ 10 дней для каждой игрыI Для расчетов использовались GPU nVidia GTX Titan/Tesla

DeepHack:I Время на проведение экспериментов ∼ 4 дняI Время обучения финальной модели ∼ 20 часов для каждой игрыI Для расчетов использовались GPU nVidia Grid K520


Инфраструктурные улучшения

Как мы доработали решение DeepMind:

I Визуализация процесса обученияI Возможность продолжения обучения после остановкиI Вывод набранных в процессе обучения очков


Гипотезы

I Оптический потокI Нормализация изображения (Data Mean)I Небинаризованные и нормализованные игровые очкиI Увеличение вероятности использования успешных игрI Подбор оптимальных гиперпараметровI Увеличение вероятности приоритетных действийI Поиск эффективной архитектуры сетиI Алгоритм Double DQN


Гипотезы, которые заработали

I Оптический потокI Нормализация изображения (Data Mean)I Небинаризованные и нормализованные игровые очкиI Увеличение вероятности использования успешных игрI Подбор оптимальных гиперпараметровI Увеличение вероятности приоритетных действийI Поиск эффективной архитектуры сетиI Алгоритм Double DQN


Итоговая архитектура сети


Вопросы


deephack.game red pandas team

Science

deepmind red pandas

deephack red pandas