Download - Clase3 RNA
-
8/18/2019 Clase3 RNA
1/34
1
Curso de Ingeniería Neuronal
Clase 3: Alquimia o Ingeniería Neuronal?:
Algunos elementos de reflexión
Universidad de Santiago de ChileUniversidad de Santiago de Chile
ProgramaProgramaMagíster en Ingeniería InformáticaMagíster en Ingeniería Informática
Enero 2005
Dr. Gonzalo Acuña L.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Temario• Introducción• Otros algoritmos de optimización• Alquimia o Ingeniería Neuronal
– Planteamiento de cualquier problema de modelación – “Buenos modales” para la elaboración de modelos
neuronales – Problemas en el aprendizaje – El problema de la generalización
-
8/18/2019 Clase3 RNA
2/34
2
I . Introducción
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
• Recordatorio sobre el algoritmo deretropropagación “del gradiente”!!
-
8/18/2019 Clase3 RNA
3/34
-
8/18/2019 Clase3 RNA
4/34
4
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
• Por otra parte: qué decir del intento deelaborar un modelo neuronal que incluyemás de 8000 parámetros para atacar un
problema de clasificación, sabiendo queesos más de 8000 parámetros deberánser correctamente determinados conmenos de 50 ejemplos?
La eterna tentación de ejercer alquimia
neuronal -- CUIDADO!!
II. Otros algoritmos paradeterminar valor de los pesos de
la red
-
8/18/2019 Clase3 RNA
5/34
5
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Mínimo local
LocalMinimum
GlobalMinimum
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Métodos deoptimización
• Gradiente Conjugado
• Quasi-Newton
• Simulated Annealing
• Algoritmos genéticos
• …etc
[ ]2
ˆ21∑
=
−=k
sh
t
t i
ii Y Y J Min
¿Deterministas o Estocásticos?Deterministas o Estocásticos?
-
8/18/2019 Clase3 RNA
6/34
6
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Fletcher y Reeves...
• Es una extensión del método de gradiente conjugado a
funciones cualquiera (nono necesariamentenecesariamente cuadráticascuadráticas)y sin lasin la utilizaciónutilización explícitaexplícita deldel HesianoHesiano.
• Etapa de inicialización: – Seleccionar un punto de partida
– Calcular
• Etapa iterativa – Determinar que minimiza
en la dirección
– Calcular donde
0 x
( )000 x f gd −∇=−=
k λ k k k k d x x ⋅+=+ λ 1k d
k k k k d gd ⋅+−= ++ β 11k
T k
k T k
k
gg
gg
⋅⋅
= ++ 11 β
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Métodos de Newton• Métodos de Gradiente
– En General:
Problema: Convergencia lenta. Tendencia a
quedar atrapada en mínimos locales
1
1: ( )
dirección
k k
amplitud pasobusqueda
k k
w w h d
Gradiente w w d w
+
+
= + ⋅
= + −∇
-
8/18/2019 Clase3 RNA
7/34
7
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
• Ejemplo:2
1 1
2 1
( ) 1
: 1 1 1 ( 2 ) 1
1 1 ( 2 ) 1
.
k k
k
J x x y d
Si x x x
x x
cte
+
+ −
= =
= ⇒ = + ⋅ − = −
= − + ⋅ − =
x
J(x)
-1 1
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Métodos Quasi-Newton
( )[ ] k k k k k g x f x x ⋅∇⋅−= −
+
12
1 α
( )k x f 2∇
es una aproximación
convenientemente elegida
de…
k G
k G
Simétrica
Definida positiva
• Hay muchas formas deactualizar la matriz G o suinversa S y que satisfacen loscriterios para anteriores.
k k k q pG =⋅
k k k k k d x x p ⋅=−= + α 1
k k k ggq −= +1
)()()(
1k k k
T k
T k k k k k k
k k pGq p
pGq pGqGG
⋅−⋅
⋅−⋅⋅−+=+
)())(
1k k k
T k
T k k k k k k
k k qS pq
qS pqS pS S
⋅−⋅
⋅−⋅⋅−+=+
-
8/18/2019 Clase3 RNA
8/34
8
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Gradiente Conjugado
Dirección de gradiente
X0
X1
X2Gradienteconjugado
1k wk k d J d β −= −∇ +
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Métodos 2º orden tipo Newton
• Taylor de J(w):
0 0 0 0 0
2
0 0
0 0
10 0
1( ) ( ) ( ) ( ) ( ) (1)
2
(1) :
( ) ( ) ( ) (2)( ) 0
0 ( ) ( )
( )
ij
i i j
J w J w w J w w w H w w
J J J H
w w w
Derivando
J w J w H w wmínimo J w
J w H w w
w w H J w−
= + − ∇ + − − +
∂ ∂∇ = =
∂ ∂ ∂
∇ = ∇ + − +⇒ ⇒ ∇ =
⇒ = ∇ + −
⇒ = − ∇
-
8/18/2019 Clase3 RNA
9/34
9
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
• Ejemplo:
• Quasi-Newton: – H-1 se aproxima en forma recursiva.
– BFGS Broyden, Fletcher, Glodfarb, Shanno
20
2
2
1 1
2 0
( ) ; 1
2 ; 2
11 ( 2 ) 0
21
0 ( 2 ) 02
J w w w
J J w
w w
w w
w w
= =
∂ ∂= =
∂ ∂
⇒ = + − =
= + − =
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Levenberg - Marquardt
• Modificación de Gauss-Newton
• Ventajas: – Bien definido aunque J no sea de rango pleno
– Globalmente convergente
11 [ ]
T T
k k k k k k k
Aproximación Hessiano
w w J J I J r µ −+ = − +
-
8/18/2019 Clase3 RNA
10/34
10
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Simulated Annealing
• Energía mínima...• ¿« f » diférenciable?
• ¿Óptimos locales?
• Parámetros?
• Enfriamiento?
• Calidad de la solución?
Ω
Estadoinicial
Estadofinal
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Algoritmos genéticos
• Rango= [-4 , 4]
• Bits=8
• Población=30• Generaciones=50
-
8/18/2019 Clase3 RNA
11/34
11
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
• Los algoritmos genéticos son una clase de estrategias de búsqueda que presentan un compromiso equilibrado y
razonable entre la exploración y la explotación; en efecto,analisis teóricos han mostrado que los algoritmos genéticosgeneran este compromiso de manera casi óptima.
a) Inicializar la Población : Crear y evaluar la población inicial decromosomas.
b) Seleccionar y reproducir loscromosomas.
c) Evaluar los “fitness ” del
nuevo hijo.
d) Substituir los cromosomas de la población por los hijos.
e) Volver a b)
• Evaluación.
• Selección.
• Reproducción concruzamiento y mutación
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Problemas en la práctica...
• ¿Qué algoritmo utilizar?
• ¿Qué fórmula Q-N utilizar?
• ¿Qué tipo de búsqueda lineal sedeberá implementar?
• ¿Cómo hacer la corrección de la
matriz cuando ?1+k S I S o=
-
8/18/2019 Clase3 RNA
12/34
12
III. Alquimia o Ingeniería Neuronal
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
III. 1.- Planteamiento decualquier problema demodelación:
-
8/18/2019 Clase3 RNA
13/34
13
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
SISTEMA:• Combinación de elementos o componentes
interrelacionados entre sí y con el todo, queactúan juntos para lograr una cierta meta.
• Porción de la realidad que queremos aislar para estudiar.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Proceso Objeto Real,
no formalizado
Sistema
Modelo
Simplificación
de la Realidad
-
8/18/2019 Clase3 RNA
14/34
14
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Metodologías de Modelación1.- Modelación Teórica o Fundamental
• Se usa teoría aceptada por las ciencias quesubyacen el fenómeno.
• Leyes de Conservación.
• Ecuaciones Constitutivas.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
• ecuaciones diferenciales parciales no lineales
simplificación
• linealización• parámetros concentrados• etc....
• sistema de ecuaciones diferenciales ordinarias
lineales
-
8/18/2019 Clase3 RNA
15/34
15
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Características:
→ Se requiere ayuda de expertos.
→ Fácilmente generalizable.
→ Comprensión del fenómeno o proceso.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
2.- Modelación empírica o experimental
• Observaciones directas Ecuaciones.
• Sólo información entrada - salida
• Métodos de desarrollo:Algorítmicos, numerosos y diversos identificación
• modelos lineales de orden reducido.
• utilizables como un todo.• no-generalizables.
-
8/18/2019 Clase3 RNA
16/34
16
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
3.- Modelación Combinada (descriptivos)
•Frecuentemente utilizada.
•La estructura se define por modelación teórica.
•Parámetros experimentación.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Sistema Supuestos
Selección de variables fundamentales
Selección de variables Dependientes
Aplicación de Principios de Conservación
Principios de conservación
completamente explotados.
Ecuaciones
Constitutivas
Suficientes
Ecuaciones
Modelo
Matemático
NO
SI
NO SI
-
8/18/2019 Clase3 RNA
17/34
17
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Variables y Parámetros de un ModeloParámetros de
Diseño
Parámetros del
Sistema
Constantes cuyo valor
puede ser escogido.
Constantes propias
del sistema.
Ej. : Estanque.
•Sección de salida : Diseño.•Sección de tanque : Del Sistema.y cte. de gravitación
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Variables de Salida.•Son aquellas cuyo comportamientonos interesa “conocer”.
•No son definidas por el proceso, es eldiseñador quién las escoge
⎥⎥⎥⎥
⎥
⎦
⎤
⎢⎢⎢⎢
⎢
⎣
⎡
=
)t(y
)t(y
)t(y
)t(y
p
2
1
-
8/18/2019 Clase3 RNA
18/34
18
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Variables de Entrada(o de control).
•Son variables que influencian al sistema peroque no son, ellas a su vez, influenciadas por él.
Podemos manipularlas.
⎥
⎥⎥⎥
⎦
⎤
⎢
⎢⎢⎢
⎣
⎡
=
)t(u
)t(u
)t(u
)t(u
m
2
1
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Perturbaciones (w)
•También son variables externas al sistemay que lo influencian pero sobre las cuales no
tenemos manera de actuar.
Variables Internas
•Todas aquellas que no son ni entradas ni salidas.
-
8/18/2019 Clase3 RNA
19/34
19
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Resumen
Constante
Param. Sist.
Param. Diseño
Variable
V. Salida
V. Externa
V. Control.
PerturbaciónV. Interna
Cantidad que no varía en el tpo.
Cte. dada por el sistema.
Cte. Que se puede “variar”.
Varía en función del tpo.
Nos interesa medir, controlar, etc.
Afecta al sist. ,pero no es
afectada por él.
Podemos Manipular (externa).
No podemos Manipular (externa).Variable de sistema que no es
salida ni entrada
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
III. 2.- “Buenos modales” para laelaboración de modelos
neuronales
-
8/18/2019 Clase3 RNA
20/34
20
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 1: Exhaustivo análisis de
sistema• En este análisis se debe dejar establecido el
número y tipo de variables de entrada y salida delmodelo, la posibilidad de reducir la dimensión del
problema disminuyendo el número de variablesinvolucradas, etc...
• Es realmente imprescindible usar un modeloneuronal? Porqué no utilizar modelos clásicosexistentes? RED NEURONAL: SEGUNDA
MEJOR SOLUCIÓN !!• Si se decide utilizar un modelo neuronal, se cuenta
con los datos que representen adecuadamente elfenómeno a modelar y en la cantidad suficiente?
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 2: Preprocesamiento
• Datos: un modelo neuronal es de tipo “cajanegra”. Son modelos de interpolación (NUNCADE EXTRAPOLACIÓN) que dependenFUERTEMENTE de calidad y cantidad de datosdisponible.
• Calidad: relacionada con el grado con que los
datos disponibles representan la función que seestá aproximando. Deseable: obtenerlos siguiendoun plan de experiencias adecuadamente diseñado.
-
8/18/2019 Clase3 RNA
21/34
21
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 2: Preprocesamiento• Datos (ejemplos):
• Cantidad: es extremadamente importante puessólo una cantidad de datos adecuada nos permitiráidentificar en forma correcta los parámetros(pesos) de nuestro modelo neuronal.
• Si la cantidad de datos es pequeña, NO
PODEMOS PRETENDER elaborar un modeloneuronal complejo.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 2: Preprocesamiento
• Examinar atentamente (visualmente) losdatos. Detectar y en lo posible eliminar“outliers” (errores gruesos), vacíos, etc...
• Una atenta examinación visual permite aveces detectar correlación entre variables y,
por lo tanto, reducir dimensionalidad, etc...
-
8/18/2019 Clase3 RNA
22/34
22
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 2: Preprocesamiento
• Normalización de variables: Necesaria cuandointervienen variables con diferentes unidades y porlo tanto amplitudes a veces varios órdenes demagnitud diferentes.
• Ejemplo1 : Xn = (X-Xmin)/(Xmax-Xmin); Xn € (0,1)
• Ejemplo2: Xn = 2*(X-Xmin)/(Xmax-Xmin) – 1; Xn € (-1,1)• Xmax = 1,1 máximo valor de datos; Xmin = 0,9 mínimo valor de datos
• Es necesario, a la salida, realizar ladesnormalización correspondiente.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 3: Diseño del modeloneuronal• Número de neuronas de entrada y de salida,
dependiente del análisis de sistemaanteriormente analizado.
• Número de neuronas de capa intermedia Nc: – Lo importante es que dicho número de lugar a
una cantidad de parámetros (pesos) Nw tal que:
• Nw < (Número de ejemplos) / 10
-
8/18/2019 Clase3 RNA
23/34
23
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 3: Diseño del modeloneuronal
• El número de pesos Nw de un perceptronmulticapas, con 1 capa entrada con Neneuronas, una capa oculta con Nc neuronasy una capa de salida con Ns neuronas es:
Nw = (Ne+1)*Nc+(Nc+1)*Ns
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 3: Diseño del modeloneuronal• Por lo tanto, si se tiene una red con 3
entradas, 4 neuronas en la capa oculta y 2salidas, su cantidad de pesos es:
Nw = (3+1)*4+(4+1)*2 = 26
Luego, se requiere de AL MENOS 260 ejemplosen el conjunto de entrenamiento para identificarlos parámetros de esta red.
-
8/18/2019 Clase3 RNA
24/34
24
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 3: Diseño del modeloneuronal
• Funciones de transferencia: la ventaja de los modelosneuronales y lo que los hace poderosos para aproximarfunciones complejas es su capacidad de utilizar funcionesde transferencia de tipo sigmoidal (facilita laretropropagación).
• Un criterio usual es, dado que está demostrado que bastauna sola capa oculta con un adecuado número de neuronas para aproximar con un grado de precisión arbitrariocualquier función no lineal [Funahashi, 89, Cybenko, 89,Hornik et al., 89, Hornik, 91], utilizar funcionessigmoidales en la capa oculta y funciones lineales en la desalida.
• Sin embargo también pueden usarse sigmoides en la salida.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 4: Entrenamiento
• El entrenamiento supervisado de una redneuronal es un proceso muy delicadodebido a la complejidad que ostenta lasuperficie de la función error, la que puede
poseer numerosos mínimos locales, puntos
silla, etc...
-
8/18/2019 Clase3 RNA
25/34
25
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 4: Entrenamiento• Hay tres problemas principales que pueden surgir
durante entrenamiento:
– 1 Sesgo – 2.- Sobreparametrización – 3.- Sobreaprendizaje
Los dos últimos dan lugar a un fenómeno similar queafecta la capacidad de “generalización” de la red (altavarianza).
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
1.- Problema de gran sesgo (bias)
y(x)
x
-
8/18/2019 Clase3 RNA
26/34
26
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 4: EntrenamientoComo disminuir el sesgo?
1.-Aumentando prudentemente el número deneuronas en la capa oculta
2.- Logrando llegar a un mejor mínimo local paralo cual es importante realizar una buenacantidad de entrenamientos diferentes partiendo
desde pesos iniciales aleatoriamente escogidos(20 o más intentos).
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
2.- Problema de gran varianza (sobreparametrización y
sobreentrenamiento)
y(x)
x
-
8/18/2019 Clase3 RNA
27/34
27
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 4: EntrenamientoFormas de evitar los problemas anteriores:
1.- Trabajar siempre con dos conjuntos duranteentrenamiento:
conjunto de entrenamiento
conjunto de test (prueba)
Lo ideal es visualizar el comportamiento de la
función error en forma simultánea en ambosconjuntos
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Grafico de función error en conjuntosaprendizaje (-) y test (---)
Número
iteraciones
Mínimo error de test
Error
-
8/18/2019 Clase3 RNA
28/34
28
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
No. parámetros red
Error
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 4: Entrenamiento
Característica de los conjuntos de aprendizaje y prueba:
Ambos deben ser numerosos y los ejemplos quelos compongan deben ser representativos delfenómeno subyacente que se quiere modelar
-
8/18/2019 Clase3 RNA
29/34
29
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 4: EntrenamientoOtros métodos utilizados:
1.- Validación cruzada: se elaboran distintosmodelos neuronales a partir del uso de losejemplos disponibles para aprendizajeconfeccionando de distinta forma los conjuntos
de aprendizaje y test. Se escoge aquel modeloque da mínimo error sobre conjunto de test.
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 4: Entrenamiento
2.- “Early stopping”: la idea es detener el proceso de aprendizaje apenas el error sobre elconjunto de test comience a aumentar. Se evita,de esta manera, que la red neuronal modelice elruido que pueden contener los datos.
3.- Regularización: se trata de agregar términos
a la función objetivo de tal manera que alminimizarla se penalice la cantidad de
parámetros que tenga el modelo.
-
8/18/2019 Clase3 RNA
30/34
30
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 4: Entrenamiento4.- Poda: la idea es comenzar con una red
neuronal con una gran cantidad de pesos e ir“podando” dichos pesos bajo ciertos criteriosque también incluyen la adición de términos ala función objetivo, los análisis de sensibilidad,etc…
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 5: Generalización
Para probar la capacidad de generalización de lared, o sea sus resultados sobre un conjuntodistinto de datos, es importante haber reservadoejemplos para confeccionar un tercer conjunto,el CONJUNTO DE GENERALIZACIÓN.
Este debe ser tan representativo del fenómeno a
modelar como los anteriores (aprendizaje ytest).
-
8/18/2019 Clase3 RNA
31/34
31
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
3.- Aproximación correcta de la función subyacente
GENERALIZACIÓN
y(x)
x
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 5: Generalización
Es importante chequear la capacidad de generalización, loque también se conoce como VALIDACIÓN delmodelo neuronal.
Hay dos formas básicas de validar un modelo dinámico,que es eminentemente predictivo:
En predicción “un-paso-adelante” (OSA =one-step-
ahead)En predicción “múltiples-pasos-adelante” (MPO =model predictive output)
-
8/18/2019 Clase3 RNA
32/34
32
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 5: GeneralizaciónOSA:
x1k
x2k
X1k+1
X2k+1
MPO:
X1k
x2k
X1k+1
X2k+1
Z-1
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 5: Generalización
La “prueba de fuego” de un modelo siempre es sucapacidad de predicción MPO
-
8/18/2019 Clase3 RNA
33/34
33
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Paso 5: GeneralizaciónÍndices para validación numérica de modelos:
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
ResultadosÍndices de error usados:
: Valores predichos.
: Valores observados
N : Número total de datos.
: Valor medio de las observaciones.
iο
i p mii p p ο −='mii
ο ο ο −='
mο
( )
∑
∑
=
=
−
=n
i
i
n
i
ii p
RMS
1
2
1
2
ο
ο ( )
N
p
RSD
n
i
ii∑=
−
= 1
2ο ( )
( )∑
∑
=
=
+
−
−=n
i
ii
n
i
ii
p
p
IA
1
2
1
2
''1
ο
ο
-
8/18/2019 Clase3 RNA
34/34
Universidad de Santiago de Chile Departamento de Ingeniería Informática
Ingeniería Neuronal Magíster en Ingeniería Informática
Referencias• Métodos de segundo orden
– Shepard, “Second-order methods for neural networks”, Springer 1997.
Aproximadores Universales
Funahashi, Neural Networks 2, 183 (1989)
Cybenko, Math. Control, Signals Syst 2, 304 (1989)
Hornick, Stinchcomb, White, Neural Networks 2, 359 (1989)
Hornick, Neural Networks 4, 251 (1991)
“Buena conducta”
Bishop, “Neural networks and their applications”, Rev. Sci. Instrum,
65(6): 1803-1832, 1994.Bishop, “Neural networks for pattern recognition”, Oxford UniversityPress, 1993.