deephack.game red pandas team
TRANSCRIPT
Red Pandas at DeepHack
Артём Воронин Денис Соколов Алексей КуровВалентин Малых Арсений Ашуха
Red Pandas Red Pandas: Q-learning 25 июля 2015 1 / 9
Как научить программу играть?
breakout space invaders
Red Pandas Red Pandas: Q-learning 25 июля 2015 2 / 9
Что предложил DeepMind
Red Pandas Red Pandas: Q-learning 25 июля 2015 3 / 9
В чем отличие нашей задачи
DeepMind:I Время на проведение экспериментов не ограниченноI Время обучения ∼ 10 дней для каждой игрыI Для расчетов использовались GPU nVidia GTX Titan/Tesla
DeepHack:I Время на проведение экспериментов ∼ 4 дняI Время обучения финальной модели ∼ 20 часов для каждой игрыI Для расчетов использовались GPU nVidia Grid K520
Red Pandas Red Pandas: Q-learning 25 июля 2015 4 / 9
Инфраструктурные улучшения
Как мы доработали решение DeepMind:
I Визуализация процесса обученияI Возможность продолжения обучения после остановкиI Вывод набранных в процессе обучения очков
Red Pandas Red Pandas: Q-learning 25 июля 2015 5 / 9
Гипотезы
I Оптический потокI Нормализация изображения (Data Mean)I Небинаризованные и нормализованные игровые очкиI Увеличение вероятности использования успешных игрI Подбор оптимальных гиперпараметровI Увеличение вероятности приоритетных действийI Поиск эффективной архитектуры сетиI Алгоритм Double DQN
Red Pandas Red Pandas: Q-learning 25 июля 2015 6 / 9
Гипотезы, которые заработали
I Оптический потокI Нормализация изображения (Data Mean)I Небинаризованные и нормализованные игровые очкиI Увеличение вероятности использования успешных игрI Подбор оптимальных гиперпараметровI Увеличение вероятности приоритетных действийI Поиск эффективной архитектуры сетиI Алгоритм Double DQN
Red Pandas Red Pandas: Q-learning 25 июля 2015 7 / 9
Итоговая архитектура сети
Red Pandas Red Pandas: Q-learning 25 июля 2015 8 / 9
Вопросы
Red Pandas Red Pandas: Q-learning 25 июля 2015 9 / 9