deepconvolutionalneuralnetwork … · 2017. 11. 20. · scientificvisualizationandvisualanalytics...

4
GraphiCon 2017 Научная визуализация и визуальная аналитика 24–28 сентября 2017, Пермь, Россия 125 Применение глубоких свёрточных нейронных сетей для визуализации препятствий на взлётно-посадочной полосе В.В. Князь 1,2 , О.В. Выголов 1 , В.В. Федоренко 1 , В.С. Горбацевич 1 , В.А. Мизгинов 1 , Д.Г. Клевцов 1 [email protected]|[email protected]|[email protected]|[email protected] [email protected]|k [email protected] 1 125319, Москва, ул. Викторенко, 7; 2 Московский физико-технический институт (государственный университет), Москва, Россия Контроль чистоты поверхности взлётно-посадочной полосы является важным фактором обеспечения без- опасности воздушного движения. Современный уровень развития датчиков и методов обработки поступающих от них данных обеспечивает необходимые предпосылки для решения задачи обнаружения и активной визуализации препятствий по данным тепловизионных камер в автоматическом режиме, что позволяет повысить эффектив- ность уборки взлётно-посадочной полосы. Перспективным средством анализа мультиспектральных видеопосле- довательностей являются глубокие свёрточные нейронные сети. В данной статье рассматривается модифици- рованная архитектура глубокой свёрточной сети SqueezeNet для задач автоматического выделения препятствий по видеопоследовательностям видимого и дальнего инфракрасного диапазонов. Ключевые слова: глубокие свёрточные нейронные сети, тепловизионные изображения, обнаружение препят- ствий, взлётно-посадочная полоса, семантическая сегментация Deep convolutional neural network for visualisation of foreign objects on a runway V.V. Kniaz 1,2 , O.V. Vygolov 1 , V.V. Fedorenko 1 , V.S. Gorbatsevich 1 , V.A. Mizginov 1 , D.G. Klevtsov 1 [email protected]|[email protected]|[email protected]|[email protected] [email protected]|k [email protected] 1 State Res. Institute of Aviation Systems (GosNIIAS), 125319, 7, Victorenko str., Moscow, Russia; 2 Moscow Institute of Physics and Technology (MIPT), Russia The presence of foreign objects on airport runways poses a significant threat to the safety of air travel. Infrared camera based runway monitoring systems for automatic detection and visualisation of foreign objects are highly demanded nowadays. Deep neural networks have recently became a powerful instrument for analysis of multispectral image sequences. This paper is focused on the development of an new deep neural network architecture for automatic detection of foreign objects on a runway. The architecture is based on the SqueezeNet network. The new network performs detection using a pair of images captured in visible and far infrared ranges. Keywords: deep convolutional neural networks, thermal vision, obstacle detection, runway, semantic segmentation 1. Введение Перспективным способом уборки взлётно-поса- дочной полосы (ВПП) являются колёсные роботы, оснащённые тепловизионными системами техническо- го зрения. Управление роботом осуществляется уда- лённо из диспетчерского пункта. Оператор периоди- чески производит осмотр поверхности полосы с ис- пользованием системы технического зрения мобильно- го робота. Восприятие тепловизионных изображений требу- ет навыков в силу значительных отличий от изобра- жений видимого диапазона. Это обуславливает акту- альность предварительной обработки тепловизионных изображений для акцентированной визуализации пре- пятствий. Данная задача может быть решена с помо- щью методов семантической сегментации. Анализ по- следних работ в данной области [5–7] показывает, что наиболее перспективным подходом для решения задач семантической сегментации являются глубокие свёр- точные нейронные сети. В данной работе рассматривается разработка но- вой архитектуры глубокой свёрточной нейронной се- ти для выделения препятствий на ВПП. На вход се- ти поступает многоспектральное изображение, вклю- чающее каналы в видимом и инфракрасном диапазо- нах. На выходе сеть выдаёт меточное изображение, на котором визуализируются два класса объектов: фон и препятствие. Разработанная архитектура основывает- ся на архитектуре сети SqueezeNet [8]. В отличие от за- дачи классификации объекта на изображении, при ре- шении задачи семантической сегментации требуется предсказать тип объекта в каждом пикселе исходного изображения. Для восстановления исходного разреше- ния изображения к архитектуре сети SqueezeNet были добавлены два слоя деконволюции. По сравнению с альтернативными методами выде- ления препятствий на ВПП предлагаемый подход обла- дает рядом преимуществ. Во-первых, свёрточные ней- ронные сети позволяют производить обучение без на- сыщения: при поступлении новых изображений в обу- чающую выборку качество распознавания препятствий постоянно растёт. Во-вторых, в отличие от систем, ос-

Upload: others

Post on 27-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • GraphiCon 2017 Научная визуализация и визуальная аналитика

    24–28 сентября 2017, Пермь, Россия 125

    Применение глубоких свёрточных нейронных сетейдля визуализации препятствий на взлётно-посадочной полосе

    В.В. Князь1,2, О.В. Выголов1, В.В.Федоренко1, В.С. Горбацевич1, В.А.Мизгинов1, Д.Г. Клевцов[email protected]|[email protected]|[email protected]|[email protected]

    [email protected]|k [email protected], Москва, ул. Викторенко, 7;

    2Московский физико-технический институт (государственный университет), Москва, Россия

    Контроль чистоты поверхности взлётно-посадочной полосы является важным фактором обеспечения без-опасности воздушного движения. Современный уровень развития датчиков и методов обработки поступающихот них данных обеспечивает необходимые предпосылки для решения задачи обнаружения и активной визуализациипрепятствий по данным тепловизионных камер в автоматическом режиме, что позволяет повысить эффектив-ность уборки взлётно-посадочной полосы. Перспективным средством анализа мультиспектральных видеопосле-довательностей являются глубокие свёрточные нейронные сети. В данной статье рассматривается модифици-рованная архитектура глубокой свёрточной сети SqueezeNet для задач автоматического выделения препятствийпо видеопоследовательностям видимого и дальнего инфракрасного диапазонов.

    Ключевые слова: глубокие свёрточные нейронные сети, тепловизионные изображения, обнаружение препят-ствий, взлётно-посадочная полоса, семантическая сегментация

    Deep convolutional neural networkfor visualisation of foreign objects on a runway

    V.V. Kniaz1,2, O.V. Vygolov1, V.V. Fedorenko1, V.S. Gorbatsevich1, V.A. Mizginov1, D.G. [email protected]|[email protected]|[email protected]|[email protected]

    [email protected]|k [email protected] Res. Institute of Aviation Systems (GosNIIAS), 125319, 7, Victorenko str., Moscow, Russia;

    2Moscow Institute of Physics and Technology (MIPT), Russia

    The presence of foreign objects on airport runways poses a significant threat to the safety of air travel. Infraredcamera based runway monitoring systems for automatic detection and visualisation of foreign objects are highly demandednowadays. Deep neural networks have recently became a powerful instrument for analysis of multispectral imagesequences. This paper is focused on the development of an new deep neural network architecture for automatic detectionof foreign objects on a runway. The architecture is based on the SqueezeNet network. The new network performs detectionusing a pair of images captured in visible and far infrared ranges.

    Keywords: deep convolutional neural networks, thermal vision, obstacle detection, runway, semantic segmentation

    1. Введение

    Перспективным способом уборки взлётно-поса-дочной полосы (ВПП) являются колёсные роботы,оснащённые тепловизионными системами техническо-го зрения. Управление роботом осуществляется уда-лённо из диспетчерского пункта. Оператор периоди-чески производит осмотр поверхности полосы с ис-пользованием системы технического зрения мобильно-го робота.

    Восприятие тепловизионных изображений требу-ет навыков в силу значительных отличий от изобра-жений видимого диапазона. Это обуславливает акту-альность предварительной обработки тепловизионныхизображений для акцентированной визуализации пре-пятствий. Данная задача может быть решена с помо-щью методов семантической сегментации. Анализ по-следних работ в данной области [5–7] показывает, чтонаиболее перспективным подходом для решения задачсемантической сегментации являются глубокие свёр-точные нейронные сети.

    В данной работе рассматривается разработка но-вой архитектуры глубокой свёрточной нейронной се-ти для выделения препятствий на ВПП. На вход се-ти поступает многоспектральное изображение, вклю-чающее каналы в видимом и инфракрасном диапазо-нах. На выходе сеть выдаёт меточное изображение, накотором визуализируются два класса объектов: фон ипрепятствие. Разработанная архитектура основывает-ся на архитектуре сети SqueezeNet [8]. В отличие от за-дачи классификации объекта на изображении, при ре-шении задачи семантической сегментации требуетсяпредсказать тип объекта в каждом пикселе исходногоизображения. Для восстановления исходного разреше-ния изображения к архитектуре сети SqueezeNet былидобавлены два слоя деконволюции.

    По сравнению с альтернативными методами выде-ления препятствий на ВППпредлагаемый подход обла-дает рядом преимуществ. Во-первых, свёрточные ней-ронные сети позволяют производить обучение без на-сыщения: при поступлении новых изображений в обу-чающуювыборку качество распознавания препятствийпостоянно растёт. Во-вторых, в отличие от систем, ос-

  • Scientific Visualization and Visual Analytics GraphiCon 2017

    126 24–28 September 2017, Perm, Russia

    нованных на выделении препятствий на основе моде-ли движения камеры [11, 12], предлагаемый подходобеспечивает выделение препятствий при произволь-ной траектории движения.

    2. Постановка задачи

    Рассматривается задача в следующей постановке:колёсный робот, оснащённый многоспектральной си-стемой технического зрения (СТЗ) FLIR ONE (рис. 1)производит обзор поверхности ВПП. Требуется осуще-ствить обработку изображений, поступающих от СТЗ,для акцентированной визуализации типовых препят-ствий (выделение контуров, маркирование цветом ит.п.). Нахождение визуальных контуров препятствияпроизводится с помощью глубокой свёрточной ней-ронной сети. Таким образом, постановка задачи сво-дится к семантической сегментации многоспектраль-ных изображений на два класса: фон и препятствие.

    Рис. 1.Мобильный робот с многоспектральнойкамерой FLIR ONE

    Целевая функция. Пусть на вход сети поступаетмногоспектральное изображение X ∈ RH×W×3. Тре-буется обучить целевую функцию Ŷ = F(X), котораяпроизводит отображение комплексированного изобра-жения в меточное изображение Y ∈ {0, 1}H×W , гдеH,W – размеры изображения, а метки 0 и 1 обозна-чают, соответственно, фон и препятствие. Для дости-жения равномерной сходимости обучения при обуче-нии используется многомодальная функция потерь Lcl[10], которая задаётся уравнением

    Lcl(Ŷ,Y) = −∑h,w

    v(Yh,w)∑q

    Yh,w,q log(Ŷh,w,q)

    (1)

    3. Архитектура сети

    Анализ последних работ в области семантическойсегментации[3, 5–7] показывает, что наиболее высокойточности классификации позволяют достичь алгорит-мы на основе глубоких свёрточных нейронных сетей.

    В отличие от традиционных архитектур сетей, исполь-зуемых для классификации изображений, в архитекту-рах сетей для семантической сегментации, как прави-ло, отсутствуют полносвязные слои. Также в данныхсетях широко используются слои деконволюции.

    Рис. 2. Архитектура сети

    Для обучения целевой функции Ŷ требовалось раз-работать архитектуру глубокой свёрточной нейроннойсети для семантической сегментации. Для достижениявычислительной эффективности за основу архитекту-ры была взята сеть SqueezeNet [8]. Основным преиму-ществом сети SqueezeNet является выигрышв произво-дительности в 50 раз по сравнению с сетью AlexNet[4],при сохранении сопоставимой точности классифика-ции. Для обеспечения вычислительной эффективностипроизведено уменьшение размеров фильтров свёрткис 3×3 на 1×1. Благодаря этому число обучаемых па-раметров сократилось в 9 раз. Таким образом, сетьстроится из однотипных модулей, называемых «firemodule». Для обеспечения устойчивого выделения пре-пятствий в архитектуру разрабатываемой сети (рис. 2)

  • GraphiCon 2017 Научная визуализация и визуальная аналитика

    24–28 сентября 2017, Пермь, Россия 127

    был внесён ряд изменений. Во-первых, для восстанов-ления пространственного разрешения входного изоб-ражения были добавлены два слоя деконволюции. Во-вторых, для уменьшения количества параметров уда-лён слой субдискретизации (global avgpool).

    4. Построение обучающей выборки

    Обучающая выборка для семантической сегмента-ции состоит из пар геометрически выровненных мно-госпектральных изображенийX и меточных изображе-ний Y. Комплексирование видимого и инфракрасногоизображений осуществлялось путём замены красногоканала исходного изображения видимого диапазона наизображение инфракрасного диапазона.

    Для построения истинных меточных изображенийдля обучающей выборки использовался метод оцен-ки траектории камеры, предложенный в [13]. Приме-ры исходных изображений, а также компенсированно-го и меточного изображений приведены на рисунке 3.Съёмка исходных изображений осуществлялась с по-мощью прототипа мобильного колёсного робота дляуборки ВПП [1, 2].

    (a) Видимый диапазон (b) ИК-диапазон

    (c)Многоспектральноеизображение X

    (d)Меточноеизображение Y

    Рис. 3. Примеры изображений из обучающейвыборки. Условное препятствие (разводной ключ)

    расположено в центре кадра

    Прототип мобильного робота для уборки ВПП.Для подготовки тестовой выборки использовался ко-лёсный робот, оснащённый многоспектральной систе-мой технического зрения. Робот построен на базе ко-лёсной платформы «Hercules» и одноплатного компью-тера «Raspberry Pi» (рисунок 1). В качестве многос-пектральной системы технического зрения использова-лась многоспектральная камера «FLIR ONE», подклю-чённая к смартфону. Разрешение камеры в видимомдиапазоне составляет 640х480 пиксел, в инфракрасном- 160х120 пиксел. Параметры камеры FLIR ONE при-ведены в таблице 1.

    Характеристики FLIR ONEДиапазон температур -20◦ C to 120◦ CВес 29 граммРазмеры (Д x Ш x В) 72 x 26 x 18 ммЧувствительность 0.1◦ CТВ камера 640x480 пикс.ИК камера 160x120 пикс.Поле зрения 46◦x35◦

    Таблица 1. Характеристики камеры FLIR ONE

    Управлением роботом осуществляется с персональ-ного компьютера по каналу сети WiFi. Для управле-ния роботом был разработан специальный протокол иприложения клиент/сервер для «Raspberry Pi» и персо-нального компьютера.

    5. Обучение сети и анализ результатов

    Обучение разработанной архитектуры сети произ-водилось в среде NVIDIA DIGITS с использованиемграфического процессор Titan X PASCAL.

    Тестирование обученной сети проводилось на те-стовой выборке, объёмом в 300 пар изображений. Дляопределения качества работы сети использовалась би-нарнарная мера сходства Intersection over Union (IU),определяемая соотношением:

    IU =AIAU

    , (2)

    где AI – площадь пересечения области препятствия напостроенном меточном изображении и на эталонномметочном изображении, AU – площадь объединенияданных областей. Как правило, значение IU > 50.0%считается показателем приемлемого качества сегмен-тации [9]. Примеры полученных меточных изображе-ний представлены на рисунке 4. Значения IU для раз-личных условий приведены в таблице 2.

    Условия Intersection over UnionТень 62.6Солнце и тень 50.1Мокрый асфальт 49.3

    Таблица 2. Значения IU для различных условий

    (a) Комплексирование (b) Результат работы сети

    Рис. 4. Пример работы сети

  • Scientific Visualization and Visual Analytics GraphiCon 2017

    128 24–28 September 2017, Perm, Russia

    6. Выводы

    В работе предложен метод визуализации препят-ствий на поверхности ВПП с использованием глубокойсвёрточной нейронной сети. Метод предназначен длярешения задачи помощи оператору мобильного колёс-ного робота в обнаружении посторонних препятствийна поверхности ВПП. Он позволяет повысить эффек-тивность обнаружения препятствий в ночное время и вусловиях ограниченной видимости.

    Для реализации метода разработана архитектурасети для выделения визуальных контуров препятствий.Произведено обучение и тестирование сети. Для обу-чения сети использовалась обучающая выборка объё-мом 4000 пар комплексированных и меточных изоб-ражений. Съёмка изображений для обучающей и те-стовой выборок производилась с помощью колёсно-го робота, оснащённого многоспектральной камеройFLIR ONE. Выборка включает снимки условных пре-пятствий (разводной ключ, детали конструкции, пред-меты багажа и т.п.), полученные в различных услови-ях: прямой солнечный свет, граница света и тени, мок-рый асфальт. Истинные меточные изображения былипостроены с использованием программы трёхмерногомоделирования. Обучение сети производилось в средеNVIDIA DIGITS.

    Тестирование разработанной сети производилосьна независимой выборке объёмом в 300 пар изобра-жений. Для определения точности выделения препят-ствий использовалась метрика Intersection over Union.Анализ полученных результатов показал, что сетьуспешно производит выделение препятствия во всехрассмотренных условиях. Средняя точность выделе-ния контуров препятствия по метрике Intersection overUnion составила 54%.

    7. Литература

    [1] Kniaz V V. Fast instantaneous center of rotationestimation algorithm for a skied-steered robot // SPIEOptical Metrology. –– 2015. –– Jun. –– Vol. 9528. ––P. 95280L–95280L–11.

    [2] Kniaz V V. Real-time optical flow estimation on aGPU for a skied-steered mobile robot. –– 2016. ––Apr. –– P. 989706–989706–12.

    [3] Kniaz V. V., Gorbatsevich V. S., Mizginov V. A.THERMALNET: A DEEP CONVOLUTIONALNETWORK FOR SYNTHETIC THERMALIMAGE GENERATION // ISPRS - InternationalArchives of the Photogrammetry, Remote Sensingand Spatial Information Sciences. –– 2017. –– Vol.XLII-2/W4. –– P. 41–45. –– URL: http://www.int-arch-photogramm-remote-sens-spatial-inf-sci.net/XLII-2-W4/41/2017/.

    [4] Krizhevsky A, Sutskever I, Hinton G E. Imagenetclassification with deep convolutional neuralnetworks // Advances in Neural InformationProcessing Systems. –– 2012.

    [5] Long J., Shelhamer E., Darrell T. Fully convolutionalnetworks for semantic segmentation // IEEEConference on Computer Vision and PatternRecognition (CVPR). –– 2015.

    [6] Long J., Shelhamer E., Darrell T. Fully ConvolutionalModels for Semantic Segmentation // CVPR 2015,and PAMI 2016. –– 2016.

    [7] Semantic image segmentation for informationpresentation in enhanced vision / Oleg V. Vygolov,Vladimir S. Gorbatsevich, Nikita A. Kostromovet al. // Proc. SPIE. –– 2017. –– Vol.10197. –– P. 101970H–101970H–8. –– URL:http://dx.doi.org/10.1117/12.2262507.

    [8] SqueezeNet: AlexNet-level accuracy with 50xfewer parameters and