sistema de reconocimiento de la lengua de senas boliviana˜

5
JUNE 2021 1 Sistema de reconocimiento de la Lengua de Se˜ nas Boliviana Douglas Joel Rojas Vargas 1 1 Universidad Cat´ olica Boliviana “San Pablo” This paper shows the development of a prototype for a sign language recognition system based on computer vision.The main goal is to build a bridge for deaf people to be able to fully integrate on a daily basis into bolivian society. The project sought the interpretation of Bolivian Sign Language dynamic gestures in contrast to past projects. The work is essentially divided in two parts: first the creation of a database for 12 gestures and the use of pose estimation models based on Convolutional Neural Networks for feature extraction for RNN training. Finally, the analysis of the result of these models. Index Terms—Tecnolog´ ıas de Asistencia, Sign Language Recognition, LSTM, Pose Estimation I. I NTRODUCCI ´ ON E N Bolivia existen alrededor de 95.884 personas sordas, la falta de una comunicaci´ on verbal dificulta su integraci´ on con la sociedad, y las barreras que existen en este aspecto suelen ser una de las causas por la que existe discriminaci´ on. Es por este motivo que desde el Estado (Ley 223), y desde otras organizaciones como la ONU [1] se avanza en propuestas desde lo social pero estos esfuerzos parecen no ser suficientes. Dentro de las soluciones que vienen desde el ´ area tecnol´ ogica vienen del desarrollo de sistemas capaces de reconocer los gestos, principalmente en pa´ ıses como Estados Unidos, Arabia Saudita e incluso Argentina[2], [3], [4]. Sin embargo, en el caso de Bolivia se limit´ o a un reconocimiento de alfabeto y sus expresiones est´ aticas por tal motivo en este trabajo se pretende afrontar el problema de variaci´ on temporal. El presente trabajo propone un an´ alisis morfol´ ogico de los lenguajes de se˜ nas, la creaci´ on de un dataset de gestos din´ amicos del Lenguaje de Se˜ nas Boliviano, y un prototipo de sistema para el reconocimiento de gestos. Esta ´ ultima tarea se realizar´ a utilizando el framework Mediapipe para la extracci´ on de los puntos de inter´ es POI y posterior procesamiento en una red neuronal recurrente RNN. Fig. 1. Alfabeto Dactilologico LSB Las siguientes secciones est´ an distribuidas de la siguiente manera: en la Secci´ on II Revisi´ on de la literatura se pro- ceder´ a a un an´ alisis t´ ecnico de los acercamientos previos principalmente en Bolivia y de manera complementaria el estado del arte de la comunidad internacional. En la Secci´ on III Soluci´ on Propuesta se explora los requerimientos y sus soluciones durante el desarrollo del proyecto. En la Secci ´ on IV de Resultados se procede al an´ alisis de los resultados obtenidos en las diferentes arquitecturas. En la Secci ´ on V Conclusiones y Trabajo Futuro se explica de manera detallada las consecuen- cias del proyecto y la sugerencias para desarrollos futuros. II. REVISI ´ ON DE LA LITERATURA A. Reconocimiento del alfabeto dactilol´ ogico boliviano bajo tecnolog´ ıa de visi´ on por computador P. Evert y N. Jorge dan el primer acercamiento de este tipo, al alfabeto de LSB mediante SVM en el 2014. Sin embargo, carece de mayor an´ alisis y limita sus alcances pues no se realiza comparaci´ on con otros m´ etodos de clasificaci ´ on, en este proyecto se limita al reconocimiento de gestos est´ aticos del LSB. Los datos son adquiridos mediante una c´ amara Kinect, y estos son segmentados con un umbral de intensidad, para luego utilizar como descriptor de caracter´ ısticas lo que se conoce como Histogram of oriented gradients HOG para proceder al entrenamiento del clasificador SVM[5]. B. Sistema de visi´ on artificial para el reconocimiento del alfabeto dactilol´ ogico boliviano El proyecto presentado el 2017 se diferencia del resto por ser el primero dentro el ´ ambito del LSB que permite realizar una comparativa entre dos clasificadores como lo son el SVM y K-Nearest Neighbours KNN. Dentro lo que son los descriptores de caracter´ ısticas realiza de igual manera HOG, pero se tuvo en consideraci´ on lo que es Speeded-Up Robust Features SURF.[6] C. An Analysis of Convolutional Long-Short Term Memory Recurrent Neural Networks for Gesture Recognition Es en el 2016 que T. Eleni et al proponen el uso de Convolu- tional Neural Networks CNN en uni ´ on con una Recursive Neu- ral Network RNN del tipo Long Short-Term Memory LSTM. Se realizaron de igual manera comparaci´ on con respecto a los

Upload: others

Post on 28-Nov-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sistema de reconocimiento de la Lengua de Senas Boliviana˜

JUNE 2021 1

Sistema de reconocimiento de la Lengua de Senas Boliviana

Douglas Joel Rojas Vargas1

1 Universidad Catolica Boliviana “San Pablo”

This paper shows the development of a prototype for a sign language recognition system based on computer vision.The maingoal is to build a bridge for deaf people to be able to fully integrate on a daily basis into bolivian society. The project sought theinterpretation of Bolivian Sign Language dynamic gestures in contrast to past projects. The work is essentially divided in two parts:first the creation of a database for 12 gestures and the use of pose estimation models based on Convolutional Neural Networks forfeature extraction for RNN training. Finally, the analysis of the result of these models.

Index Terms—Tecnologıas de Asistencia, Sign Language Recognition, LSTM, Pose Estimation

I. INTRODUCCION

EN Bolivia existen alrededor de 95.884 personas sordas, lafalta de una comunicacion verbal dificulta su integracion

con la sociedad, y las barreras que existen en este aspectosuelen ser una de las causas por la que existe discriminacion.Es por este motivo que desde el Estado (Ley 223), y desdeotras organizaciones como la ONU [1] se avanza en propuestasdesde lo social pero estos esfuerzos parecen no ser suficientes.

Dentro de las soluciones que vienen desde el areatecnologica vienen del desarrollo de sistemas capaces dereconocer los gestos, principalmente en paıses como EstadosUnidos, Arabia Saudita e incluso Argentina[2], [3], [4]. Sinembargo, en el caso de Bolivia se limito a un reconocimientode alfabeto y sus expresiones estaticas por tal motivo en estetrabajo se pretende afrontar el problema de variacion temporal.

El presente trabajo propone un analisis morfologico delos lenguajes de senas, la creacion de un dataset de gestosdinamicos del Lenguaje de Senas Boliviano, y un prototipo desistema para el reconocimiento de gestos. Esta ultima tarea serealizara utilizando el framework Mediapipe para la extraccionde los puntos de interes POI y posterior procesamiento en unared neuronal recurrente RNN.

Fig. 1. Alfabeto Dactilologico LSB

Las siguientes secciones estan distribuidas de la siguientemanera: en la Seccion II Revision de la literatura se pro-

cedera a un analisis tecnico de los acercamientos previosprincipalmente en Bolivia y de manera complementaria elestado del arte de la comunidad internacional. En la SeccionIII Solucion Propuesta se explora los requerimientos y sussoluciones durante el desarrollo del proyecto. En la Seccion IVde Resultados se procede al analisis de los resultados obtenidosen las diferentes arquitecturas. En la Seccion V Conclusiones yTrabajo Futuro se explica de manera detallada las consecuen-cias del proyecto y la sugerencias para desarrollos futuros.

II. REVISION DE LA LITERATURA

A. Reconocimiento del alfabeto dactilologico boliviano bajotecnologıa de vision por computador

P. Evert y N. Jorge dan el primer acercamiento de este tipo,al alfabeto de LSB mediante SVM en el 2014. Sin embargo,carece de mayor analisis y limita sus alcances pues no serealiza comparacion con otros metodos de clasificacion, en esteproyecto se limita al reconocimiento de gestos estaticos delLSB. Los datos son adquiridos mediante una camara Kinect, yestos son segmentados con un umbral de intensidad, para luegoutilizar como descriptor de caracterısticas lo que se conocecomo Histogram of oriented gradients HOG para proceder alentrenamiento del clasificador SVM[5].

B. Sistema de vision artificial para el reconocimiento delalfabeto dactilologico boliviano

El proyecto presentado el 2017 se diferencia del restopor ser el primero dentro el ambito del LSB que permiterealizar una comparativa entre dos clasificadores como lo sonel SVM y K-Nearest Neighbours KNN. Dentro lo que son losdescriptores de caracterısticas realiza de igual manera HOG,pero se tuvo en consideracion lo que es Speeded-Up RobustFeatures SURF.[6]

C. An Analysis of Convolutional Long-Short Term MemoryRecurrent Neural Networks for Gesture Recognition

Es en el 2016 que T. Eleni et al proponen el uso de Convolu-tional Neural Networks CNN en union con una Recursive Neu-ral Network RNN del tipo Long Short-Term Memory LSTM.Se realizaron de igual manera comparacion con respecto a los

Page 2: Sistema de reconocimiento de la Lengua de Senas Boliviana˜

JUNE 2021 2

TABLE IVENTAJAS Y DESVENTAJAS

Ventajas y DesventajasCategorıa Vision GuantesAccesibilidad X 7Mantenimiento X 7Costos X 7Flexibilidad X 7Comodidad X 7

metodos puros y este hıbrido mostro mayor exactitud. Tal esel caso de la LSTM donde la extraccion de caracterısticas fuerealizadas capas convolucionales pre-entrenadas con una caparecurrente y una capa de salida softmax para multicategoria.[7]

D. Reconocimiento de gestos dinamicos y su aplicacion ala lengua de senas

Se trata de una tesis doctoral del ano 2016 con un enfoquecon el Lenguaje de Senas Argentino LSA. Este proyectoes en Sud America lo mas cercano a lo que se busca.Sin embargo, utiliza otra forma de clasificacion que es elclasificador ProbSOM que son redes neuronales competitivasGAN no supervisadas que configuran sus pesos. De igualmanera, cuenta con un sub clasificador de posicion utilizandouna distribucion normal.[2]

E. A review of hand gesture and sign language recognitiontechniques

en 2016 Ming Jin et al, realizan un censo de los proced-imientos y tecnicas mas utilizados al momento de realizarreconocimientos de gestos. Analizan cada etapa y el estadodel arte en cada uno de estos, recorriendo filtros de colores;extraccion de caracterısticas como ser la Shift-invariant featuretransform SIFT y analisis de componente principal PCA, eincluso el uso de red neuronal artificial ANN para lo que serıala clasificacion.[8]

III. SOLUCION PROPUESTA

Existen lineamientos que debe cumplir un sistema de visionartificial, teniendo en cuenta que existen otras aproximacionespor parte de sistemas de reconocimiento por guantes. Por tantoel prototipo debe cumplir los siguientes puntos:

• Accesible: para conseguir los sensores para un guante esnecesario importarlos frente a la opcion de una camaraque se puede conseguir en el mercado interno.

• Mantenimiento: el mantenimiento de software en com-paracion al hardware es mas sencillo de realizar.

• Costos: dejando de lado el desarrollo, los guantes tienensensores que incurren en un costo superior a la camara

• Flexible: el hecho de que solo se necesite una camarapermite utilizarlo en distintas situaciones solo con unmedio de procesamiento de las imagenes adquiridas

• Comodo: no se genera un malestar en el uso de camara,sobre todo en requerimientos de servicio.

Se opto por mantener la esencia del flujo de trabajo pre-sentado en [9], pero se ajustaron o agregaron algunos pasos

necesarios para el desarrollo en del sistema para el enfoqueen el contexto actual del LSB.

Fig. 2. Flujo de desarrollo

A. Diferencias morfologıas del Lenguaje de Senas

A partir de las caracterısticas intrınsecas de los lenguajesde senas, se realiza una comparativa con paıses vecinos delengua hispana. Esto con el fin de demostrar que cada lenguajede senas es distinto por factores culturales y para comprendersus componentes para posterior extraccion de caracterısticas.

1) Queirema: Forma de la mano *2) Toponema: Lugar donde se realiza el gesto *3) Kinema: El movimiento que compone al gesto4) Kineprosema: La direccion del movimiento *5) Queirotropema: La orientacion de las manos6) Prosoponema: La expresion facial

Estos componentes describen un gesto, son caracterısticasinherente a los lenguajes de senas, para la seccion delproyecto correspondiente al preprocesamiento se hara usoprincipalmente de los marcados*.

Realizando las comparaciones con el lenguaje de senas depaises como Chile, Argentina y Peru tomando en cuenta estascaracterısticas en distintos gestos y el alfabeto se pudo mostrarque no es posible replicar en su totalidad trabajos. Dado quelas condiciones culturales de cada paıs tienen una influenciadirecta en su LS.

B. Creacion dataset LSB

La carencia de un dataset de gestos dinamicos del LSBimpone la necesidad de recopilar vıdeos cortos de una lista depalabras que contengan una relevancia en la vida cotidiana,para esto es imprescindible llegar a un consenso con uninterprete calificado con lo cual se llego a la seleccion de lassiguientes palabras: Ayuda ,Bolivia ,Como ,Dinero ,Doctor,Donde ,Explicacion ,Guardar ,Necesito ,Quien v1(Occidente),Quien v2(Oriente) ,Saludos.

Se utilizo como referencia el trabajo presentado por [2], estopensando que a pesar de la robustez que ofrece Mediapipe

Page 3: Sistema de reconocimiento de la Lengua de Senas Boliviana˜

JUNE 2021 3

el dataset pueda servir para futuros trabajos con distintasaproximaciones.Por tal motivo se tomaron en consideracion,los siguientes datos para tener una referencia de la iluminacionde los ambientes. Un promedio de 140 Lux, en un rango deentre 70 Lux como mınimo y 290 Lux maximo.

El resultado final consiste de una recopilacion de 548 vıdeosprofesionales para 12 gestos, cada categorıa con un promediode 48 repeticiones y tres segundos de duracion. Se realizoutilizando la camara Xiaomi CMSXJ22A con resolucion de1920x1080 a 30 FPS.

C. Preprocesamiento

En la seleccion de metodos de estimacion de pose setomaron metricas del area de estimacion de poses humanascomo [email protected] 2 que indica el porcentaje de articulacionesconsideradas correctas dentro una tolerancia; y que representanel tiempo de procesamiento. Ası tambien se tomo en cuentaportabilidad y flexibilidad de implementacion.

Es necesario extraer los POI para poder posteriormente tenerun vector que describa a la imagen, para este punto se planteael uso de Mediapipe dado que en el abanico de opciones tieneuna alta precision y velocidad, e incluso llega a ser flexibleen su implementacion.[10]

Las listas con los puntos de interes POI de cada regionseran filtradas de manera que se tomaran en cuenta solamentelos puntos que tienen mayor relevancia en la morfologıa deun gesto:las puntas de los dedos,falanges proximal,codos yhombros. Despues de filtrar los puntos que fueron resaltadosen la Fig 3. Estos puntos de interes en total son 43, delos cuales el POI0 correspondera a la nariz, y sera usadacomo vertice, convirtiendose ası en referencia espacial de lastrayectorias de las manos.

Fig. 3. Numeracion POI del cuerpo y la mano

1PCK: Percentage of Detected Key-points2Distance between predicted and true joint < 0.2 * torso diameter

Algorithm 1 Procedimiento obtencion POI// Mediapipe trabaja con RGBData: frame,height,lmList,resultsResult: Obtener todos los POI absolutosimgRGB = cv2.cvtColor(frame, cv2.COLOR BGR2RGB)height, width, = frame.shaperesults = holistic.process(imgRGB)lmListBody = [] lmListLeft = [] lmListRight = []if results then

for number,lm in enumerate(results.body)do

cx, cy = int(lm.x * width), int(lm.y * height)lmListBody.append([number, cx, cy])

end

for number,lm in enumerate(results.leftHand)do

cx, cy = int(lm.x * width), int(lm.y * height)lmListLeft.append([number, cx, cy])

end

for number,lm in enumerate(results.rightHand)do

cx, cy = int(lm.x * width), int(lm.y * height)lmListRight.append([number, cx, cy])

end

end

D. Extraccion de Caracterısticas

A diferencia de otros acercamiento como [11], no se trabajadirectamente sobre la imagen si no que de los POI obtenidosdel paso anterior calcularemos sus distancias y angulos conrespecto a la nariz, que se eligio como vertice que describe ala imagen dado que de esa manera no se tiene un conjuntode puntos arbitrarios y se adquiere un sentido espacial yorientado. De acuerdo con el mapa presentado en la Figura3, se eligieron los puntos encerrados en los cırculos. Setienen un total de 42 POI que describiran un fotograma enla secuencia de vıdeo, por lo que tendremos un vector planode 84 caracterısticas(una distancia y un angulo para cadapunto)Ahora cada vıdeo con una duracion promedio de 92fotogramas nos permiten generar una matriz que describa elvıdeo, los vıdeos mas largos seran truncados y los que seanmenores se procedera al relleno temporal[12].

d(P0, Pi) =√

(x0 − xi)2 + (y0 − yi)2 (1)

Donde:• d(P0, Pi) → distancia entre dos puntos P0 y Pi• P0 = (x0, y0) → punto de referencia• Pi = (xi, yi) → punto de interesLa segunda ecuacion es el angulo que se formara entre

el punto de interes y el eje horizontal teniendo al punto dereferencia como vertice.

θi = arctan(yi − y0)

(xi − x0)· 180

π(2)

Page 4: Sistema de reconocimiento de la Lengua de Senas Boliviana˜

JUNE 2021 4

Fig. 4. Matrices de Caracterısticas

Donde:

• θi → angulo de Pi con respecto a la horizontal• P0 = (x0, y0) → punto de referencia• Pi = (xi, yi) → punto de interes• 180

π → conversion de radianes a grados

d(1,1) a(1,1) d(1,2) a(1,2) . . . d(1,t) a(1,t)d(2,1) a(2,1) d(2,2) a(2,2) . . . d(2,t) a(2,t)

......

......

......

...d(42,1) a(42,1) d(42,2) a(42,2) . . . d(42,t) a(42,t)

(3)

Por cuestiones practicas relacionadas al entrenamiento seguardara la matriz 3 como formato de escritura para los*.CSV para las caracterısticas de los N vıdeos del dataset. Esimportante resaltar que la nueva matriz tendra una dimension(42x2T ).De tal manera, que para acceder a las matricesoriginales que la conforman basta con acceder a las columnasimpares para obtener las distancias y que para los angulos alas columnas pares.

E. Entrenamiento

En el entrenamiento se considero cinco variantes de laLSTM, que es una variante RNN que permite solucionarel problema de la gradiente desvaneciente [13]. La idea espoder observar e interpretar la secuencia de imagenes, cadamodelo tiene una caracterıstica durante el entrenamiento quelo diferencia: LSTM Stacked y LSTM Bidireccional,LSTMBidireccional.

Fig. 5. Distribucion matrices correspondiente a los vıdeos

El escalamiento en modelos de redes neuronales se da demanera que operemos con cantidad de entre 0 y 1 y en unadistribucion adecuada

DistanciaMaxima =√

(1920)2 + (1080)2 = 2202.91 (4)

Por lo que la formula de escalamiento es:

NuevaDistanciai =d(Pi)

DistanciaMaxima=d(Pi)

2203(5)

En el caso de los angulos tomamos el angulo de una circun-ferencia completa, 360°

NuevoAnguloi =a(Pi)

360(6)

IV. RESULTADOS

Se entrenaron en aproximadamente varios modelos con3 arquitecturas distintas, ajustando los hiperparametrosde estrucutra como las unidades,las capaas y dropouts.De los cuales 2 mostraron resultados prometedores conperdidas de 0.812 y convergencias variables. Se ajustaron loshiperparametros de learning rate entre 0.001 y 0.0025, losdropouts entre 0.2 y 0.4, donde se logra observar una mejorinferencia obteniendo precision en las validaciones de hastael 79%. Los valores del batch size oscilaron entre los 16 y64 obteniendo mejoras considerables con 32.

Fig. 6. Matriz de confusion

Se obtuvo los mejores resultados con la arquitectura bidi-reccional, por tal motivo se sumergio mas que en el resto.

Page 5: Sistema de reconocimiento de la Lengua de Senas Boliviana˜

JUNE 2021 5

Fig. 7. Curvas de Aprendizaje Bidireccionales

Se puede considerar que se puede estar en niveles seme-jantes a los modelos propuestos en los trabajos del exteriorque oscilan entre 80% y 92% de precision. Ademas que sehizo pruebas con vıdeos de personas no acreditadas comointerpretes de manera satisfactoria.

V. CONCLUSIONES Y TRABAJO FUTURO

Se escogieron los modelos LSTMCuDNN y LSTM Bidi-rectional por su rendimiento en las matrices de confusion ysu capacidad de inferencia en vıdeos fuera del dataset. Deigual manera se desarrollo una interfaz para la visualizaciony reproduccion de audio de manera satisfactoria.

Fig. 8. Interfaz Grafica de Usuario

Es posible mejorar las metricas de aprendizaje, con-siderando que se puede aumentar la cantidad de vıdeos porgesto. Para futuras aplicaciones se sugiere explorar la imple-mentacion de estos modelos a nivel de moviles y serviciosweb, esto por la posibilidad de exportar los modelos conTFLite y TensorflowJS, ademas de lo ligero y flexible quees Mediapipe.

REFERENCES

[1] “Organization de naciones unidas. objetivos de desarrollo sostenibleagenda 2030.”

[2] F. Ronchetti, F. Quiroga, C. Estrebou, L. Lanzarini, and A. Rosete,“Lsa64: A dataset of argentinian sign language,” XX II CongresoArgentino de Ciencias de la Computacion (CACIC), 2016.

[3] A. C. Duarte, “Cross-modal neural sign language translation,” in Pro-ceedings of the 27th ACM International Conference on Multimedia,pp. 1650–1654, 2019.

[4] N. C. Camgoz, S. Hadfield, O. Koller, and R. Bowden, “Subunets: End-to-end hand shape and continuous sign language recognition,” in 2017IEEE International Conference on Computer Vision (ICCV), pp. 3075–3084, IEEE, 2017.

[5] E. I. Pocoma Copa and J. A. Nava Amador, “Reconocimiento delAlfabeto Dactilologico Boliviano Bajo Tecnologıa de Vision por Com-putador,” pp. 65–73, 2014.

[6] R. Troche and G. Sahonero Alvarez, “Sistema de vision artificial parael reconocimiento del alfabeto dactilologico boliviano,” 2017.

[7] E. Tsironi, P. Barros, C. Weber, and S. Wermter, “An analysis ofConvolutional Long Short-Term Memory Recurrent Neural Networksfor gesture recognition,” Neurocomputing, vol. 268, no. 2017, pp. 76–86, 2017.

[8] M. J. Cheok, Z. Omar, and M. H. Jaward, “A review of hand gesture andsign language recognition techniques,” International Journal of MachineLearning and Cybernetics, vol. 10, no. 1, pp. 131–153, 2019.

[9] Z. Xia, Q. Lei, Y. Yang, H. Zhang, Y. He, W. Wang, and M. Huang,“Vision-Based Hand Gesture Recognition for Human-Robot Collab-oration: A Survey,” 2019 5th International Conference on Control,Automation and Robotics, ICCAR 2019, pp. 198–205, 2019.

[10] C. Lugaresi, J. Tang, H. Nash, C. McClanahan, E. Uboweja, M. Hays,F. Zhang, C.-L. Chang, M. G. Yong, J. Lee, et al., “Medi-apipe: A framework for building perception pipelines,” arXiv preprintarXiv:1906.08172, 2019.

[11] D. Kragic Jensfelt, “Tracking of Humans in Video Stream Using LSTMRecurrent Neural Network,” Master Thesis, 2017.

[12] N. Granger and M. A. el Yacoubi, “Comparing hybrid nn-hmm andrnn for temporal modeling in gesture recognition,” in InternationalConference on Neural Information Processing, pp. 147–156, Springer,2017.

[13] R. Pascanu, T. Mikolov, and Y. Bengio, “On the difficulty of trainingrecurrent neural networks,” in International conference on machinelearning, pp. 1310–1318, PMLR, 2013.