deepconvolutionalneuralnetwork … · 2017. 11. 20. · scientificvisualizationandvisualanalytics...

Post on 27-Jan-2021

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

  • GraphiCon 2017 Научная визуализация и визуальная аналитика

    24–28 сентября 2017, Пермь, Россия 125

    Применение глубоких свёрточных нейронных сетейдля визуализации препятствий на взлётно-посадочной полосе

    В.В. Князь1,2, О.В. Выголов1, В.В.Федоренко1, В.С. Горбацевич1, В.А.Мизгинов1, Д.Г. Клевцов1vl.kniaz@gosniias.ru|o.vygolov@gosniias.ru|vfedorenko@gosniias.ru|gvs@gosniias.ru

    vl.mizginov@gosniias.ru|k dm@gosniias.ru1125319, Москва, ул. Викторенко, 7;

    2Московский физико-технический институт (государственный университет), Москва, Россия

    Контроль чистоты поверхности взлётно-посадочной полосы является важным фактором обеспечения без-опасности воздушного движения. Современный уровень развития датчиков и методов обработки поступающихот них данных обеспечивает необходимые предпосылки для решения задачи обнаружения и активной визуализациипрепятствий по данным тепловизионных камер в автоматическом режиме, что позволяет повысить эффектив-ность уборки взлётно-посадочной полосы. Перспективным средством анализа мультиспектральных видеопосле-довательностей являются глубокие свёрточные нейронные сети. В данной статье рассматривается модифици-рованная архитектура глубокой свёрточной сети SqueezeNet для задач автоматического выделения препятствийпо видеопоследовательностям видимого и дальнего инфракрасного диапазонов.

    Ключевые слова: глубокие свёрточные нейронные сети, тепловизионные изображения, обнаружение препят-ствий, взлётно-посадочная полоса, семантическая сегментация

    Deep convolutional neural networkfor visualisation of foreign objects on a runway

    V.V. Kniaz1,2, O.V. Vygolov1, V.V. Fedorenko1, V.S. Gorbatsevich1, V.A. Mizginov1, D.G. Klevtsov1vl.kniaz@gosniias.ru|o.vygolov@gosniias.ru|vfedorenko@gosniias.ru|gvs@gosniias.ru

    vl.mizginov@gosniias.ru|k dm@gosniias.ru1State Res. Institute of Aviation Systems (GosNIIAS), 125319, 7, Victorenko str., Moscow, Russia;

    2Moscow Institute of Physics and Technology (MIPT), Russia

    The presence of foreign objects on airport runways poses a significant threat to the safety of air travel. Infraredcamera based runway monitoring systems for automatic detection and visualisation of foreign objects are highly demandednowadays. Deep neural networks have recently became a powerful instrument for analysis of multispectral imagesequences. This paper is focused on the development of an new deep neural network architecture for automatic detectionof foreign objects on a runway. The architecture is based on the SqueezeNet network. The new network performs detectionusing a pair of images captured in visible and far infrared ranges.

    Keywords: deep convolutional neural networks, thermal vision, obstacle detection, runway, semantic segmentation

    1. Введение

    Перспективным способом уборки взлётно-поса-дочной полосы (ВПП) являются колёсные роботы,оснащённые тепловизионными системами техническо-го зрения. Управление роботом осуществляется уда-лённо из диспетчерского пункта. Оператор периоди-чески производит осмотр поверхности полосы с ис-пользованием системы технического зрения мобильно-го робота.

    Восприятие тепловизионных изображений требу-ет навыков в силу значительных отличий от изобра-жений видимого диапазона. Это обуславливает акту-альность предварительной обработки тепловизионныхизображений для акцентированной визуализации пре-пятствий. Данная задача может быть решена с помо-щью методов семантической сегментации. Анализ по-следних работ в данной области [5–7] показывает, чтонаиболее перспективным подходом для решения задачсемантической сегментации являются глубокие свёр-точные нейронные сети.

    В данной работе рассматривается разработка но-вой архитектуры глубокой свёрточной нейронной се-ти для выделения препятствий на ВПП. На вход се-ти поступает многоспектральное изображение, вклю-чающее каналы в видимом и инфракрасном диапазо-нах. На выходе сеть выдаёт меточное изображение, накотором визуализируются два класса объектов: фон ипрепятствие. Разработанная архитектура основывает-ся на архитектуре сети SqueezeNet [8]. В отличие от за-дачи классификации объекта на изображении, при ре-шении задачи семантической сегментации требуетсяпредсказать тип объекта в каждом пикселе исходногоизображения. Для восстановления исходного разреше-ния изображения к архитектуре сети SqueezeNet былидобавлены два слоя деконволюции.

    По сравнению с альтернативными методами выде-ления препятствий на ВППпредлагаемый подход обла-дает рядом преимуществ. Во-первых, свёрточные ней-ронные сети позволяют производить обучение без на-сыщения: при поступлении новых изображений в обу-чающуювыборку качество распознавания препятствийпостоянно растёт. Во-вторых, в отличие от систем, ос-

  • Scientific Visualization and Visual Analytics GraphiCon 2017

    126 24–28 September 2017, Perm, Russia

    нованных на выделении препятствий на основе моде-ли движения камеры [11, 12], предлагаемый подходобеспечивает выделение препятствий при произволь-ной траектории движения.

    2. Постановка задачи

    Рассматривается задача в следующей постановке:колёсный робот, оснащённый многоспектральной си-стемой технического зрения (СТЗ) FLIR ONE (рис. 1)производит обзор поверхности ВПП. Требуется осуще-ствить обработку изображений, поступающих от СТЗ,для акцентированной визуализации типовых препят-ствий (выделение контуров, маркирование цветом ит.п.). Нахождение визуальных контуров препятствияпроизводится с помощью глубокой свёрточной ней-ронной сети. Таким образом, постановка задачи сво-дится к семантической сегментации многоспектраль-ных изображений на два класса: фон и препятствие.

    Рис. 1.Мобильный робот с многоспектральнойкамерой FLIR ONE

    Целевая функция. Пусть на вход сети поступаетмногоспектральное изображение X ∈ RH×W×3. Тре-буется обучить целевую функцию Ŷ = F(X), котораяпроизводит отображение комплексированного изобра-жения в меточное изображение Y ∈ {0, 1}H×W , гдеH,W – размеры изображения, а метки 0 и 1 обозна-чают, соответственно, фон и препятствие. Для дости-жения равномерной сходимости обучения при обуче-нии используется многомодальная функция потерь Lcl[10], которая задаётся уравнением

    Lcl(Ŷ,Y) = −∑h,w

    v(Yh,w)∑q

    Yh,w,q log(Ŷh,w,q)

    (1)

    3. Архитектура сети

    Анализ последних работ в области семантическойсегментации[3, 5–7] показывает, что наиболее высокойточности классификации позволяют достичь алгорит-мы на основе глубоких свёрточных нейронных сетей.

    В отличие от традиционных архитектур сетей, исполь-зуемых для классификации изображений, в архитекту-рах сетей для семантической сегментации, как прави-ло, отсутствуют полносвязные слои. Также в данныхсетях широко используются слои деконволюции.

    Рис. 2. Архитектура сети

    Для обучения целевой функции Ŷ требовалось раз-работать архитектуру глубокой свёрточной нейроннойсети для семантической сегментации. Для достижениявычислительной эффективности за основу архитекту-ры была взята сеть SqueezeNet [8]. Основным преиму-ществом сети SqueezeNet является выигрышв произво-дительности в 50 раз по сравнению с сетью AlexNet[4],при сохранении сопоставимой точности классифика-ции. Для обеспечения вычислительной эффективностипроизведено уменьшение размеров фильтров свёрткис 3×3 на 1×1. Благодаря этому число обучаемых па-раметров сократилось в 9 раз. Таким образом, сетьстроится из однотипных модулей, называемых «firemodule». Для обеспечения устойчивого выделения пре-пятствий в архитектуру разрабатываемой сети (рис. 2)

  • GraphiCon 2017 Научная визуализация и визуальная аналитика

    24–28 сентября 2017, Пермь, Россия 127

    был внесён ряд изменений. Во-первых, для восстанов-ления пространственного разрешения входного изоб-ражения были добавлены два слоя деконволюции. Во-вторых, для уменьшения количества параметров уда-лён слой субдискретизации (global avgpool).

    4. Построение обучающей выборки

    Обучающая выборка для семантической сегмента-ции состоит из пар геометрически выровненных мно-госпектральных изображенийX и меточных изображе-ний Y. Комплексирование видимого и инфракрасногоизображений осуществлялось путём замены красногоканала исходного изображения видимого диапазона наизображение инфракрасного диапазона.

    Для построения истинных меточных изображенийдля обучающей выборки использовался метод оцен-ки траектории камеры, предложенный в [13]. Приме-ры исходных изображений, а также компенсированно-го и меточного изображений приведены на рисунке 3.Съёмка исходных изображений осуществлялась с по-мощью прототипа мобильного колёсного робота дляуборки ВПП [1, 2].

    (a) Видимый диапазон (b) ИК-диапазон

    (c)Многоспектральноеизображение X

    (d)Меточноеизображение Y

    Рис. 3. Примеры изображений из обучающейвыборки. Условное препятствие (разводной ключ)

    расположено в центре кадра

    Прототип мобильного робота для уборки ВПП.Для подготовки тестовой выборки использовался ко-лёсный робот, оснащённый многоспектральной систе-мой технического зрения. Робот построен на базе ко-лёсной платформы «Hercules» и одноплатного компью-тера «Raspberry Pi» (рисунок 1). В качестве многос-пектральной системы технического зрения использова-лась многоспектральная камера «FLIR ONE», подклю-чённая к смартфону. Разрешение камеры в видимомдиапазоне составляет 640х480 пиксел, в инфракрасном- 160х120 пиксел. Параметры камеры FLIR ONE при-ведены в таблице 1.

    Характеристики FLIR ONEДиапазон температур -20◦ C to 120◦ CВес 29 граммРазмеры (Д x Ш x В) 72 x 26 x 18 ммЧувствительность 0.1◦ CТВ камера 640x480 пикс.ИК камера 160x120 пикс.Поле зрения 46◦x35◦

    Таблица 1. Характеристики камеры FLIR ONE

    Управлением роботом осуществляется с персональ-ного компьютера по каналу сети WiFi. Для управле-ния роботом был разработан специальный протокол иприложения клиент/сервер для «Raspberry Pi» и персо-нального компьютера.

    5. Обучение сети и анализ результатов

    Обучение разработанной архитектуры сети произ-водилось в среде NVIDIA DIGITS с использованиемграфического процессор Titan X PASCAL.

    Тестирование обученной сети проводилось на те-стовой выборке, объёмом в 300 пар изображений. Дляопределения качества работы сети использовалась би-нарнарная мера сходства Intersection over Union (IU),определяемая соотношением:

    IU =AIAU

    , (2)

    где AI – площадь пересечения области препятствия напостроенном меточном изображении и на эталонномметочном изображении, AU – площадь объединенияданных областей. Как правило, значение IU > 50.0%считается показателем приемлемого качества сегмен-тации [9]. Примеры полученных меточных изображе-ний представлены на рисунке 4. Значения IU для раз-личных условий приведены в таблице 2.

    Условия Intersection over UnionТень 62.6Солнце и тень 50.1Мокрый асфальт 49.3

    Таблица 2. Значения IU для различных условий

    (a) Комплексирование (b) Результат работы сети

    Рис. 4. Пример работы сети

  • Scientific Visualization and Visual Analytics GraphiCon 2017

    128 24–28 September 2017, Perm, Russia

    6. Выводы

    В работе предложен метод визуализации препят-ствий на поверхности ВПП с использованием глубокойсвёрточной нейронной сети. Метод предназначен длярешения задачи помощи оператору мобильного колёс-ного робота в обнаружении посторонних препятствийна поверхности ВПП. Он позволяет повысить эффек-тивность обнаружения препятствий в ночное время и вусловиях ограниченной видимости.

    Для реализации метода разработана архитектурасети для выделения визуальных контуров препятствий.Произведено обучение и тестирование сети. Для обу-чения сети использовалась обучающая выборка объё-мом 4000 пар комплексированных и меточных изоб-ражений. Съёмка изображений для обучающей и те-стовой выборок производилась с помощью колёсно-го робота, оснащённого многоспектральной камеройFLIR ONE. Выборка включает снимки условных пре-пятствий (разводной ключ, детали конструкции, пред-меты багажа и т.п.), полученные в различных услови-ях: прямой солнечный свет, граница света и тени, мок-рый асфальт. Истинные меточные изображения былипостроены с использованием программы трёхмерногомоделирования. Обучение сети производилось в средеNVIDIA DIGITS.

    Тестирование разработанной сети производилосьна независимой выборке объёмом в 300 пар изобра-жений. Для определения точности выделения препят-ствий использовалась метрика Intersection over Union.Анализ полученных результатов показал, что сетьуспешно производит выделение препятствия во всехрассмотренных условиях. Средняя точность выделе-ния контуров препятствия по метрике Intersection overUnion составила 54%.

    7. Литература

    [1] Kniaz V V. Fast instantaneous center of rotationestimation algorithm for a skied-steered robot // SPIEOptical Metrology. –– 2015. –– Jun. –– Vol. 9528. ––P. 95280L–95280L–11.

    [2] Kniaz V V. Real-time optical flow estimation on aGPU for a skied-steered mobile robot. –– 2016. ––Apr. –– P. 989706–989706–12.

    [3] Kniaz V. V., Gorbatsevich V. S., Mizginov V. A.THERMALNET: A DEEP CONVOLUTIONALNETWORK FOR SYNTHETIC THERMALIMAGE GENERATION // ISPRS - InternationalArchives of the Photogrammetry, Remote Sensingand Spatial Information Sciences. –– 2017. –– Vol.XLII-2/W4. –– P. 41–45. –– URL: http://www.int-arch-photogramm-remote-sens-spatial-inf-sci.net/XLII-2-W4/41/2017/.

    [4] Krizhevsky A, Sutskever I, Hinton G E. Imagenetclassification with deep convolutional neuralnetworks // Advances in Neural InformationProcessing Systems. –– 2012.

    [5] Long J., Shelhamer E., Darrell T. Fully convolutionalnetworks for semantic segmentation // IEEEConference on Computer Vision and PatternRecognition (CVPR). –– 2015.

    [6] Long J., Shelhamer E., Darrell T. Fully ConvolutionalModels for Semantic Segmentation // CVPR 2015,and PAMI 2016. –– 2016.

    [7] Semantic image segmentation for informationpresentation in enhanced vision / Oleg V. Vygolov,Vladimir S. Gorbatsevich, Nikita A. Kostromovet al. // Proc. SPIE. –– 2017. –– Vol.10197. –– P. 101970H–101970H–8. –– URL:http://dx.doi.org/10.1117/12.2262507.

    [8] SqueezeNet: AlexNet-level accuracy with 50xfewer parameters and

top related