enrique cabello - urjc.es facial en... · rapidez: entrenamiento y test inconveniente ... adquirida...

87
Enrique Cabello

Upload: trinhdan

Post on 29-Aug-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Enrique Cabello

Biometría facial

Reconocimiento facial en 2D: métodos

Experimentos con caras

Nuevas líneas de investigación.

2

Numerosos artículos y conferencias, tesis y trabajos cada año.

Una de las mejores referencias es la Conferencia Anual FG2015 (IEEE International Conference on Automatic Face and Gesture Recognition).

Este año en Eslovenia: http://www.fg2015.org/

3

Biometrics in the Wild.

Context Based Affect Recognition.

De-identification for Privacy Protection in Multimedia.

Emotion Representation, Analysis and Synthesis in Continuous Time and Space.

Facial Expression Recognition and Analysis Challenge.

Understanding Human Activities through 3D Sensors.

4

Gran interés científico en evaluación y comparación de resultados en las mismas condiciones.

Competiciones como BANCA (celebrada en 2004), FRVT (celebrada en 2000, 2002, 2006 y 2013) o MOBIO (celebrada en 2013) y otras celebradas por NIST. http://www.ee.surrey.ac.uk/CVSSP/banca/icba2004/messer-icba04.pdf

http://www.nist.gov/itl/iad/ig/frvt-home.cfm

http://www.beat-eu.org/evaluations/icb-2013-face-recognition-mobio

5

Evaluaciones NIST (National Institute of Standards and Technology)

http://biometrics.nist.gov/cs_links/face/frvt/frvt2013/NIST_8009.pdf

6

Situaciones en las cuales se está implementando: ◦ Control accesos

◦ Paso de fronteras

◦ Búsqueda de sospechosos en bases de datos

En resumen: movimiento hacia entornos no controlados, clasificación con una única imagen de entrenamiento y búsqueda en grandes (muy grandes bases de datos).

7

Empresas que realizan y comercializan sistemas de verificación o reconocimiento facial: ◦ Nec

◦ Cognitec

◦ Morpho-safran

◦ Artec id

◦ Neurotechnology

◦ Etc.

8

Maturity

(H/M/L)

Applicability

(H/M/L)

Acceptance

(H/M/L)

Performance

(H/M/L)

Rights-compliance

(Y/N)

Cost

(H/M/L)

Constrains

(H/M/L)

Deployment

(H/M/L)

Universidad Rey Juan Carlos

2D Face recognition Medium High High Medium Yes Medium Medium Medium

3D + 2D Face recognition Medium Medium High Medium Yes High Medium Medium

Retina recognition Low Low Low High Yes High High High

Unobtrusive suspicious demeanour detectors Medium High High Medium Yes Medium Medium Medium

2D Face recognition at a distance Medium High High Medium Yes Medium High Medium

9

Nop. ◦ En entornos no controlados

◦ En sistemas móviles (y también…con móviles).

◦ Multimodalidad (fusión con voz, iris, huella)

◦ 3d en entornos reales (kinect)

◦ Uso de video

10

Actuales o pasados: ◦ ABC4EU

◦ FastPass

◦ MobilePass

En el área Security ◦ Nuevas calls previstas

11

Etapas de la verificación/reconocimiento facial: ◦ Localización de la cara

◦ Reducción de la dimensión

◦ Clasificación

12

Método Viola-Jones es el método habitual de localización de la cara ◦ No es perfecto (gafas, oclusiones, giros)

◦ Funciona muy bien

◦ Disponible el código

13

14

Hay una serie de métodos de referencia: ◦ Métodos globales: PCA, LDA, 2D-PCA

◦ Métodos locales: Gabor

El método que mejor está funcionando es LBP (Local Binary Pattern) y sus derivados

15

Hablando rápidamente es una transformada de Fourier pero local.

La transformada de Fourier extrae las frecuencias espaciales y orientaciones típicas de las texturas de una imagen.

Sin embargo, no proporciona la localización de dichas texturas, salvo que operemos con la transformada.

Necesitamos encontrar un filtro que nos dé simultáneamente información de frecuencia espacial, orientación y posición en la imagen.

16

Los wavelets son funciones oscilatorias (no necesariamente sinusoidales), que tienden a cero rápidamente. Por tanto, están acotadas: ◦ En el dominio espacial: posición definida.

◦ En el dominio espectral: frecuencia clara.

Es precisamente este carácter doble el que da ventaja a los wavelets respecto del tradicional análisis de Fourier.

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

Se suelen escoger determinadas frecuencias y orientaciones para muestrear el dominio espectral: banco de filtros. ◦ 5 frecuencias (0 n 4):

Alta frecuencia: n=0 (restringida por el T. Nyquist-Shannon).

Baja frecuencia: n=4

El tamaño del wavelet es inversamente proporcional a la frecuencia: la información que cambia rápidamente se mira con grano fino.

◦ 8 orientaciones para la dirección de la propagación de la onda plana (0 m 7): Propagación horizontal (frentes de onda verticales): m=0

Propagación vertical (frentes de onda horizontales): m=4

32

33

34

Alta frecuencia

Baja frecuencia

35

Existen dos escuelas: ◦ Métodos analíticos: trabajan con un conjunto

reducido de coeficientes de Gabor para representar una imagen seleccionados mediante:

Grafos.

Otros métodos sin grafos.

Métodos optimizados.

◦ Métodos holísticos: consideran la información global de la imagen, por tanto, se quedan con las convoluciones completas.

36

LBP es un método usado en reconocimiento de texturas

Es un método de extracción de características locales en imágenes. Considera las características locales de un objeto. Y estas características serán de baja dimensión.

Un buen métodos además de las variaciones de iluminación debe ser robusto frente a cambios de escala, traslación o rotación en las imágenes.

La idea básica de LBP es resumir la estructura local de una imagen mediante la comparación de cada píxel con sus vecinos.

37

Tomemos un píxel como centro y su nivel de gris como umbral. Consideraremos los 8 píxeles vecinos (una matriz 3x3).

Si la intensidad del píxel central es mayor-igual a su vecino, entonces ponemos un 1 y un 0 en caso contrario.

Para cada pixel podremos definir un número binario, por ejemplo 11001111.

En este caso tenemos 2 ^ 8 combinaciones posibles, llamados patrones binarios locales o, a veces referido como códigos de LBP.

38

39

Desde un punto de vista más formal:

donde (xc, yc) son las coordenadas del píxel central e ic es su intensidad, ip es la intensidad del píxel vecino, s es la funcion signo definida como:

40

Esta descripción permite capturar los detalles muy finos.

Para clasificar texturas es tan bueno (o mejor) que otros métodos más complejos.

Sin embargo, el uso de una vecindad fija presentaba problemas.

41

42

Una mejora (Circular LBP o Extended LBP) alinea un número arbitrario de vecinos en un círculo con un radio variable.

En este caso, dado un píxel central (xc, yc) la posición del píxel vecino (xp, yp) viene dado por:

Donde R es el radio considerado y P es el número de muestras.

Si el punto no corresponde con un punto de la imagen, se interpola su valor de intensidad.

43

44

Al final se calcula el histogramas de la imagen o se divide en regiones de las cuales se calculan los histogramas.

Otras opciones es el calculo de varios histogramas en un punto con distintas resoluciones.

45

Más utilizado: SVM (Máquinas de Vector Soporte). ◦ Ventajas

Sencillo

Poco sobre-ajuste y buena generalizacion

Rapidez: entrenamiento y test

◦ Inconveniente

Binario

46

)(

:

xx

FX

47

48

El kernel de la función SVM se puede adaptar a nuestro problema: ◦ Lineal

◦ Polinomial

◦ RBF

Para clasificar con svm y distinguir entre n clases necesito n clasificadores binarios

Hay one class svm. Sólo necesitan ejemplos de una clase.

49

Bases de datos

Resultados

50

FRAVwebcam

FRGC v1.0

FRAV2D

Base de datos “ad-hoc”

51

Adquirida por el grupo de Reconocimiento Facial y Visión Artificial de la Universidad Rey Juan Carlos de Madrid, en el curso académico 2003/2004.

109 personas (75 hombres y 34 mujeres)

32 imágenes a color por sujeto.

52

12 imágenes frontales: el sujeto está mirando a la cámara sin mostrar ningún gesto. Se empleó luz difusa procedente de dos focos.

4 imágenes con un giro de 15º con respecto al eje de la cámara.

4 imágenes con un giro de 30º con respecto al eje de la cámara

4 imágenes con expresiones faciales 4 imágenes con algunos rasgos faciales ocultos: el

sujeto está mirando a la cámara, por ejemplo, tapándose la mitad izquierda de su cara con la mano.

4 imágenes con cambios de iluminación: en este caso no se usó luz difusa, sino un fluorescente situado en el techo de la habitación

53

54

Para la captura se empleó una cámara web,

Imágenes frontales realizadas en días distintos.

Se emplearon 4 iluminaciones distintas: fluorescente, halógena, LED y NIR (infrarrojo cercano).

134 sujetos (90 hombres y 44 mujeres) con 32 imágenes por sujeto. ◦ Fluorescente: 117 sujetos (80 hombres y 37 mujeres) ◦ Halógena: 120 sujetos (78 hombres y 42 mujeres) ◦ LED: 126 sujetos (87 hombres y 39 mujeres) ◦ Infrarrojo cercano (NIR): 114 sujetos (78 hombres y 36

mujeres)

55

56

Universidad de Notre Dame (Estados Unidos) en 2003

233 sujetos con aprox. 21 imágenes por sujeto

Imágenes frontales, aunque no están centradas con la cámara.

57

58

44 usuarios

254 capturas. Cada captura son 30 imágenes tomadas en intervalos de 100 milisegundos durante 3 segundos,

59

Habitualmente te piden porcentaje de acierto

Mejor: medir errores. ◦ Falsos positivos: Tasa de Falsa Aceptación (FAR:

False Acceptance Rate)

◦ Falsos negativos: Tasa de Falso Rechazo (FRR de False Rejection Rate)

60

Como medida conjunta de los errores FAR (tasa de falsos positivos) y FRR (tasa de falsos negativos), los sistemas se suelen caracterizar mediante la Tasa de Error Igual (EER de Equal Error Rate),

61

Compromiso entre el TPR y el FPR ya que, según se sitúe el umbral, ambas varían de manera opuesta. ◦ Umbral alto (sistema seguro): no se “cuelan”

impostores, se reduce la permisividad con los usuarios válidos. Esta situación es preferida en entornos de alta seguridad como en el control de acceso a instalaciones sensibles. El objetivo de esta configuración es evitar que accedan personas no autorizadas.

◦ Umbral bajo (sistema amigable), el sistema será tolerante con usuarios válidos, pero por el contrario permitirá que se “cuelen” impostores.

62

Las curvas ROC: representación gráfica del ratio de verdaderos positivos (TPR = True Positive Rate) frente al ratio de falsos positivos (FPR = False Positive Rate) para un sistema de clasificación binario según se varía el umbral de discriminación (valor a partir del cual decidimos que un caso es positivo).

También puede ser FAR vs FRR.

63

64

Se midieron el EER teórico (punto donde la gráfica corta a la diagonal) y real (punto más cercano a este pero con valores reales en los datos)

Umbral (threshold) óptimo: el umbral del punto más cercanos al origen.

Umbral seguro: umbral del punto en el cual no hay ningún falso positivo, o en otras palabras, ningún intruso por error accederá a nuestro sistema.

Valor AUC (área bajo la curva ROC) que puede llegar a representar el nivel de eficiencia de dicho sistema. Cuanto más próximo a 1, más eficiente es dicho algoritmo.

65

Paso inicial al proceso de verificación

Pueden darse casos de programas con un buen funcionamiento, pero que tengan problemas a la hora de aceptar capturas.

66

Base de datos “académica” los porcentajes son mayores que en la base de datos “ad-hoc”, al tener cierto grado de normalización en la adquisición de las imágenes.

Influencia de distintos tipos de iluminación ◦ iluminación LED mejores resultados, en general

◦ iluminación halógena y NIR nos ofrece los peores resultados generales

67

“Académica” pero se pueden calcular ratios de aceptación en diferentes condiciones: giros de 15 y 30 grados, gestos, oclusiones, y variación de iluminación

Interesante: gestos y giros de 15 grados (habituales en entornos fuera del laboratorio)

68

Oclusiones: la mitad de la cara tapada (derecha o izquierda)

Cambios de iluminacion, hay cambios, pero es en un entorno “de laboratorio”, no es exteriores

69

Entornos no controlados (LFW y PubFig)

Grandes bases de datos (FRVT)

70

LFW (Labeled Faces in the Wild) ◦ Base de datos para el estudio de reconocimiento

facial no controlado.

◦ Más de 13,000 imágenes recogidas de la web. Etiquetadas con el nombre de la persona.

◦ 1680 sujetos tienen dos o más fotos diferentes

◦ Unica restriccion: la cara debe ser detectada por el método Viola-Jones.

71

72

AUC (Area Under ROC Curve)

SD-MATCHES, 125x12512, funneled

0.5407

H-XS-40, 81x15012, funneled 0.7547

GJD-BC-100, 122x22512, funneled 0.7392

LARK unsupervised20, aligned 0.7830

LHS29, aligned 0.8107

I-LPQ*24, aligned forthcoming

Pose Adaptive Filter (PAF)31 0.9405

MRF-MLBP30 0.8994

73

74

PubFig database

Consiste 58,797 imágenes de 200 sujetos obtenida en internet.

Situaciones no controladas, sujetos no cooperativos, grandes cambios en pose, iluminacion, expresion, escena, cámara, condiciones y pparámetros d ela imagen, etc.

75

76

Algorithm Average Accuracy

Attribute Classifiers (Kumar et al. 2009)

78.65%

77

78

FRVT (Face Recognition vendor Test) ◦ Realizado por el NIST (National Institute of

Standards and Technology)

◦ Ediciones en 2000, 2002, 2006 y 2013.

◦ En 2010 se realizó Multiple Biometrics Evaluation

79

Base de datos de 1,6 millones de imágenes

Varias pruebas ◦ One-to-many identification in a set of mugshot images

◦ One-to-one verification of visa images

◦ Multi-sample still facial imagery

◦ Recognition of persons in video sequences

◦ Twins

◦ 90 degree profile-view

◦ Gender estimation (M|F)

◦ Age estimation (in years)

◦ Pose estimation

◦ Expression neutrality

80

81

82

Hay varias preguntas: ◦ Que se quiere hacer?

◦ En que entorno?

◦ Cuantas imágenes de entrenamiento?

83

Cuanto mejor sea la imagen mejor será el resultado final.

Cuanto más se parezca la imagen de prueba a la de entrenamiento, mejores resultados

Mejor imagen: sujeto frontal y con buena iluminación.

84

Generar un prototipo para probar.

Usar uno o varios sistemas comerciales.

Sistemas comerciales mejores y pasando a utilizarse en entornos reales.

Miedo a suplantaciones o a videos virales que dañen la reputación de la empresa: ◦ Hackeo sistema de huella iphone

◦ Hackeo sistema reconocimiento de cara móviles (video frente a móvil).

85

Investigar en verificación? ◦ Hay software comercial de calidad.

Que hacer? ◦ Envejecimiento

◦ Emociones

◦ Antispoofing

86

Muchas gracias.

Preguntas?

Contacto: ◦ Enrique Cabello

◦ http://www.frav.es

[email protected]

87