introducci¶on a las redes neuronales - unican.esintroducción a las redes neuronales universidad de...

$: Introducci¶on a las Redes Neuronales - unican.esIntroducción a las Redes Neuronales Universidad de Cantabria EL TEST DE TURING Alan M. Turing (1912-1954), en el art¶‡culo \Comput-ing$
Introduccion a las Redes Neuronales

Jose Manuel Gutierrez (Universidad de Cantabria)[email protected]

http://ccaix3.unican.es/˜gutierjmhttp://ccaix3.unican.es/˜AIGroup

JAVA:http://www.aist.go.jp/NIBH/˜b0616/Lab/Links.html

Introducción a las Redes Neuronales

Universidadde Cantabria

DEFINICIONES DEINTELIGENCIA ARTIFICIAL

Las “definiciones” de Inteligencia Artificial(IA) involucran las siguientes ideas:

•Metodos y algoritmos que permitan com-portarse a las computadoras de modo in-teligente.

• Estudio de las facultades mentales atraves del uso de modelos computa-cionales.

• Desarrollo de automatas (maquinas con-struidas por el hombre) para simular elproceso deductivo e inductivo humano deadquisicion y aplicacion de conocimiento.

Dogma central de la IA:

• “los procesos que se llevan a cabo en elcerebro pueden ser analizados, a un nivelde abstacion dado, como procesos com-putacionales de algun tipo”.

2



CONTROVERSIA

Durante el desarrollo de la IA siempre ha existidouna controversia sobre los lımites de esta Ciencia

• Hubert L. Dreyfus, What Computers Can’t Do

“Great artists have always sensed thetruth, stubbornly denied by both philoso-phers and technologists, that the basis ofhuman intelligence cannot be isolated andexplicitly understood.”

• Donald Michie, Chief Scientist of the TuringInstitute

“It is a mistake to take up too muchtime asking, “Can computers think?” “Canthey be really creative?” For all practicalpurposes they can. The best course for us isto leave the philosophers in their dark roomand get on with using the creative computerto the full.”

3



EVOLUCION DE LA IAPrimera Generacion (hasta 1955)

Esta generacion establecio las bases filosoficas y losprimeros modelos matematicos de esta disciplina.Alan Turing (1950) publico Computing Machin-ery and Intelligence donde sugiere: “machines maysomeday compete with men in all purely intellectualpursuits.”Claude Shannon (1950) publico “A Chess-PlayingMachine” en Scientific American analizando elproblema del juego automatico de ajedrez (10120

movimientos posibles).En 1953, publico “Computers and Automata” connuevos y sugestivos interrogantes. ¿Podra constru-irse una maquina que

1. localice y repare sus propias averıas?

2. que se programe a sı misma?

3. que “aprenda”?

Warren McCulloch and Walter Pitts (1943)primer modelo matematico de red neuronal en “ALogical Calculus of the Ideas Immanent in NervousActivity”. Este modelo consistıa en una red de neu-ronas binarias y sinapsis. Este modelo es esencial-mente equivalente a una maquina de Turing.

4



EVOLUCION DE LA IASegunda Generacion

• La Conferencia de DartmouthOrganizada by John McCarthy y Marvin Minsky(1956), fundo las bases modernas de esta disci-plina bajo el lema

to proceed on the basis of the conjecturethat every aspect of learning or any otherfeature of intelligence can in principle be soprecisely described that a machine can bemade to simulate it.

• Logic Theorist fue uno de los primeros progra-mas eficientes desarrollado Allen Newell, HerbertSimon y J.C. Shaw. Fue capaz de probar 38 delos primeros 52 teoremas del Capıtulo 2 del libroPrincipia Mathematica de Whitehead y Russell.

•Mycin fue el pionero de los sistemas exper-tos (desarrollado por Edward Shortliffe). Puedediagnosticar infecciones bacterianas a partir desıntomas.

• En 1957 Allen Newell predijo que en un plazode 10 anos, un ordenador serıa el campeon delmundo de ajedrez.

5



EL TEST DE TURING

Alan M. Turing (1912-1954), en el artıculo “Comput-ing Machinery and Intelligence”, describio un juegode imitacion para probar la “inteligencia” de lasmaquinas: “If conversation with a computer is indis-tinguishable from that with a human, the computeris displaying intelligence.”

• Test de Turing: Primera Fase

– An interrogator tries to determine which oftwo communicators is a man and which is awoman by questioning each. The rules of thegame require the man to try to fool the in-terrogator and the woman to try to convincehim that she is the woman. Queries are madethrough a neutral medium such as a remoteterminal and each party is isolated in a sep-arate room to eliminate any visual or audibleclues.

• Test de Turing: Segunda Fase

– Now the man is replaced by a computer andthe game resumes. If the computer can deceivethe interrogator as often as the man did, wesay the computer is displaying intelligence.

6



CARACTERISTICAS DELOS MODELOS DE IA

Los modelos y algoritmos “estandard” de la IAtienen las siguientes caracterısticas:

• El conocimiento se representa explıcitamente us-ando reglas, redes semanticas, modelos proba-bilısticos, etc.,

• Se imita el proceso humano de razonamientologico para resolver los problemas, centrando laatencion en las causas que intervienen en el pro-blema y en sus relaciones (encadenamiento de re-glas, inferencia probabilıstica), y

• Se procesa la informacion secuencialmente.

Con el rapido desarrollo de la IA aparecieron ungran numero de problemas complejos donde no nose disponıa de una representacion explıcita del co-nocimiento y de un procedimiento de razonamientologico para resolverlo.Posibles causas de este fallo: Procedimientos algo-ritmicos y estructura computacional empleados eranincorrectos.Posible solucion: Uso de estructuras computa-cionales paralelas inspiradas en redes neuronalesbiologicas.

7



INSPIRACION BIOLOGICA

Las neuronas receiven senales (inputs) de otrasneuronas via conexiones sinapticas que pueden serexcitantes o inhibidoras. En funcion de las senalesrecibidas, una neurona envıa a su vez una senal aotras neuronas por medio del axon.

Una neurona contiene un potencial interno continuollamado potencial de membrana. Cuando esteexcede un cierto valor umbral, la neurona puedetransmitir todo su potencial por medio del axon.

Se estima que el cerebro humano contiene mas decien mil millones (1011) de neuronas y que hay masde 1000 sinapsis a la entrada y a la salida de cadaneurona.

8



REDES NEURONALESARTIFICIALES

(NEURAL NETWORKS)

Neural Network Study (1988, AFCEA InternationalPress, p. 60):

... a neural network is a system composedof many simple processing elements operatingin parallel whose function is determined bynetwork structure, connection strengths, andthe processing performed at computing ele-ments or nodes.

Haykin, S. (1994), Neural Networks: A Comprehen-sive Foundation, NY: Macmillan, p. 2:

A neural network is a massively paral-lel distributed processor that has a naturalpropensity for storing experiential knowledgeand making it available for use. It resemblesthe brain in two respects:1. Knowledge is acquired by the network

through a learning process.2. Interneuron connection strengths known

as synaptic weights are used to store theknowledge.

9



wi1

wi2

win

x1

x2

xn

Network Neuron

F(wi,x) yi

REDES NEURONALESESTRUCTURA

• Las redes neuronales artificiales estancopuestas de gran cantidad de proce-sadores conectados entre sı y actuandoen paralelo.Los modelos neuronales biologicos sonmucho mas complejos que los modeloscomputacionales actuales.

• El comportamiento de la red esta deter-minado por su topologıa, los pesos de lasconexiones y la funcion caracterıstica delas neuronas.

10



REDES NEURONALESCARACTERISTICAS

•Aprendizaje Adaptativo: Las RNAaprenden a realizar tareas a partir de unconjunto de datos dados en el proceso deaprendizaje.

•Auto-organizacion: Pueden crear supropia organizacion o representacion dela informacion recibida.

•Operacion en tiempo real: Las op-eraciones realizadas pueden ser llevadasa cabo por computadores paralelos, odispositivos de hardware especiales queaprovechan esta capacidad.

•Tolerancia a fallos parciales: La de-struccion parcial de una red dana par-cialmente el funcionamiento de la misma,pero no la destruye completamente. Estoes debido a la redundancia de la infor-macion contenida.

11



REDES NEURONALESDEFINICIONES

Definition 1 (Neurona o Unidad Procesadora) Unaneurona, o unidad procesadora, sobre un conjunto denodos N , es una tripleta (X, f, Y ), donde X es unsubconjunto de N , Y es un unico nodo de N y f :→es una funcion neuronal (tambien llamada funcionactivacion) que calcula un valor de salida para Ybasado en una combinacion lineal de los valores delas componentes de X, es decir,

Y = f( ∑xi∈X

wi xi).

Los elementos X, Y y f se denominan conjunto denodos de entrada, conjunto de nodos de salida, yfuncion neuronal de la unidad neuronal, respectiva-mente.

Definition 2 (Red Neuronal Artificial) Una redneuronal artificial (RNA) es un par (N,U), dondeN es un conjunto de nodos y U es un conjunto deunidades procesadoras sobre N que satisface la sigu-iente condicion: Cada nodo Xi ∈ N tiene que ser unnodo de entrada o de salida de al menos una unidadprocesadora de U .

12



(a)RedX1

X2

X3

X4

X5

X6

X7

X8

(b)w1

w2

wn

x1

x2

xn

Neurona

y=f(Σwi xi)

Entradas

SalidaNeurona

Pesos

REDES NEURONALESEJEMPLO

U1 = ({x1, x2, x3}, f1, {x4}),U2 = ({x1, x2, x3}, f2, {x5}),U3 = ({x1, x2, x3}, f3, {x6}),U4 = ({x4, x5, x6}, f4, {x7}), yU5 = ({x4, x5, x6}, f5, {x8}).

13



EL APRENDIZAJE

Existen dos fases en toda aplicacion de las redes neu-ronales: la fase de aprendizaje o entrenamiento y lafase de prueba.

• Fase de Aprendizaje: una caracterıstica delas redes neuronales es su capacidad de apren-der. Aprenden por la actualizacion o cambio delos pesos sinapticos que caracterizan a las conex-iones. Los pesos son adaptados de acuerdo a lainformacion extraıda de los patrones de entre-namiento nuevos que se van presentando. Nor-malmente, los pesos optimos se obtienen opti-mizando (minimizando o maximizando) alguna”funcion de energıa”. Por ejemplo, un crite-rio popular en el entrenamiento supervisado esminimizar el least-square-error (error cuadraticomedio) entre el valor deseado y el valor de salidade la red.

• Fase de Prueba: Una vez calculados los pesosde la red, las neuronas de la ultima capa se com-paran con la salida deseada para determinar lavalidez del diseno.

14



EL APRENDIZAJEMETODOS

Supervisado: Los datos estan consistituidos porvarios patrones de entrada y de salida. El hechode conocer la salida implica que el entrenamiento sebeneficia la supervision de un maestro.

No Supervisado: Para los modelos de entre-namiento No Supervisado, el conjunto de datos deentrenamiento consiste solo en los patrones de en-trada. Por lo tanto, la red es entrenada sin el ben-eficio de un maestro. La red aprende a adaptarsebasada en las experiencias recogidas de los patronesde entrenamiento anteriores.

Supervisado No SupervisadoPerceptron / multicapa Mapa de caracterısticas

Modelos temporales Redes competitivas

15



APRENDIZAJE DE HEBB

Hebb describe una forma de ajustar el peso de unaconexion acorde a la correlacion exitente entre losvalores de las dos unidades de proceso que conecta.En su libro, “The Organization of Behavior (1949)”:

When an axon of cell A is near enough toexcite a cell B and repeatedly or persistentlytakes a part in firing it, some growth processor metabolic change takes place in one or bothcells such that A’s efficiency as one of the cellsfiring B is increased.

Computacionalmente, esto se traduce en:

• No Supervisado: el valor del peso wij es la cor-relacion del valor de las unidades xi y xj:

∆wij = xixj

• Supervisado: Se ajusta el valor del peso entrelas dos unidades en proporcion a la diferencia en-tre los valores deseado y calculado en cada unade las unidades de la capa de salida.

∆wij = αxi[yj − yj]α es la constante de aprendizaje (0 < α¿ 1).

16



VALIDACION DEL MODELO

Una vez que ha terminado el proceso de aprendizajey los pesos de la red neuronal han sido calculados,es importante comprobar la calidad del modelo re-sultante. Algunas medidas estandar del error son:

1. La suma de los cuadrados de los errores (SumSquare Errors, SSE), definida como

r∑p=1‖ bp − bp ‖2 . (1)

2. La raız cuadrada del error cuadratico medio(Root Mean Square Error, RMSE) definida como

√√√√√√ r∑p=1‖ bp − bp ‖2 /r. (2)

3. El error maximo,

max{‖ bp − bp ‖, p = 1, . . . , r}, (3)

donde bp es la salida de la red para el vector de en-trada ap. Notese que en el caso de una unica sal-ida, la funcion norma ‖ . ‖ se reduce a la funcionvalor absoluto | . | usual.

17



0 2 4 6 8 10

0

1

2

3

4

5

6

(c)

0 2 4 6 8 10

0

1

2

3

4

5

6

(d)

0 2 4 6 8 100

1

2

3

4

5

6

(a)

0 2 4 6 8 100

1

2

3

4

5

6

(b)

SOBREAJUSTE (OVERFITTING)

En estadıstica es bien conocido que cuando se uti-liza un modelo con muchos parametros para ajus-tar un conjunto de datos procedente de proceso conpocos grados de libertad, el modelo obtenido puedeno descubrir las tendencias reales del proceso origi-nal, aunque pueda presentar un error pequeno.La curva (a) pasa exactamente por los puntos deentrenamiento. La curva (b) muestra el compor-tamiento sobre un conjunto alternativo. La curva(c) es un polinomio de tercer grado. La diferenciaentre ambos modelos puede verse en (d).

18



wi1

wi2

win

θix1

x2

xn

Σj=1

nwij xj f( )Σ

j=1

nwij xj

-1

NEURONASUNIDADES DE PROCESO

• Neuronas: X = (x1, . . . , xi, . . . , xn), donde xi esel nivel de actividad de la i-esima neurona.

• Pesos: los pesos de la neurona i-esima formanun vector Wi = (wi1, . . . , wij, . . . , wi,n), donde wijes el peso de la conexion de xj a xi.

La actividad lineal de xi esta dada por la funcion,

F (xi,Wi) =n∑j=1

wijxj,

que depende de los pesos Wi.

Para incluir un valor umbral Θi para la neurona xi,se considera una neurona auxiliar de valor x0 = −1y se conecta a xi con un peso Θi.

u(w, xi) =n∑j=1

wijxj − wi0Θi or u(w, xi) = Wi ·X

19



FUNCIONES DE ACTIVACION

• Funciones lineales: f(x) = x.

• Funciones paso:Dan una salida binaria depen-diente de si el valor de entrada esta por encima opor debajo del valor umbral.

sgn(x) =−1, si x < 0,1, sino, , Θ(x) =

0, si x < 0,1, sino.

• Funciones sigmoidales: Funciones monotonasacotadas que dan una salida gradual no lineal.

1. La funcion logıstica de 0 a 1:

fc(x) =1

1 + e−c x.

2. La funcion tangente hiperbolica de −1 a 1fc(x) = tanh(c x).

20



(a)

(c)

(b)

ARQUITECTURAS DE RED

1. Conexiones hacia delante.

2. Conexiones laterales.

3. Conexiones hacia atras (o recurrentes).

21



LA RED DE HOPFIELD

La red neuronal de Hopfield es una arquitec-tura formada por una sola capa principal-mente que se utiliza principalmente comomemoria autoasociativa, para almacenar yrecuperar informacion.

La informacion se almacena usando unmetodo simple de aprendizaje no super-visado que obtiene la matriz de pesos quehace que dado cada uno de los patrones deentrenamiento (almacenamiento) la red de-vuelva el mismo patron (recuperacion).

Posteriormente, cuando se tenga una con-figuracion arbitraria de las neuronas comoentradas, la red devolvera aquel patron al-macenado que este mas cerca de la configu-racion de partida en terminos de la distanciade Hamming

22



LA RED DE HOPFIELDMEMORIZANDO DATOS

Se considera una red neuronal de una sola capa sobreun conjunto de neuronas binarias {x1, . . . , xn} (convalores en {−1, 1}) donde cada neurona xi posee unvector de pesos wi = (wi1, . . . , win), con wii = 0 indi-cando que no existe conexio consigo misma.Se considera tambien la siguiente definicion binariade la neurona:

xi = sgn(n∑j=1

wijxj). (4)

Ahora, supongase que se quieren obtener los pe-sos apropiados para “memorizar” un patron a =(a1, . . . , an). Entonces, los pesos tienen que satis-facer las siguientes condiciones de estabilidad:

ai = sgn(n∑j=1

wijaj), i = 1 . . . , n, (5)

p or tanto la red devuelve el mismo patron dadocomo entrada. Como se estan usando los valoresneuronales {−1, 1}, entonces a2

j = 1 y las condi-ciones anteriores de estabilidad se pueden alcanzarconsiderando los pesos

wij =1naiaj. (6)

23



LA RED DE HOPFIELDMEMORIZANDO DATOS

El mismo algoritmo puede extenderse a varios pa-trones, {(ap1, . . . , apn), p = 1, . . . , r}:

wij =1n

r∑p=1

apiapj. (7)

En este caso, cuando se da como entrada un patronap se obtiene

xi = sgn(1n

∑j

r∑k=1

akiakj apj)

= sgn(1n

∑japiapj apj + ∑

j

∑k 6=p

akiakj apj)

= sgn(api +1n

∑j

∑k 6=p

akiakj apj). (8)

El problema de estabilidad se determina por losterminos de correlacion cruzada en el segundotermino de la suma en (8). Si es mas pequeno que n,entonces se puede concluir que el patron es estable.Un analisis estadıstico de estos terminos cruzadosdemostro que cuando el numero de patrones a seralmacenado, p, y el numero de neuronas, n, satisfacela relacion: p < 0.138n, entonces menos del 1% delos bits es inestable

24



EJEMPLO: RECONOCIMIENTODE CARACTERES

Para este ejemplo se utiliza una red deHopfield con 25 neuronas consistente enuna cuadrıcula 5 × 5 que recibe una ima-gen de puntos de una letra. Se consideran

unicamente las tres representaciones habit-uales de las vocales ‘A’, ‘E’, e ‘I’.

Los dıgitos ‘A’, ‘E’, e ‘I’ se representan como‘-1-11-1-1. . . ’, ‘1111-1. . . ’, y ‘-1111-1. . . ’, re-spectivamente donde los valores negativosse representan en gris y los positivos en ne-gro.

25



EJEMPLO: RECONOCIMIENTODE CARACTERES

La matriz de pesos 25×25 se obtiene facilmente. Porejemplo,

w12 =125

3∑k=1

a1ka2k =125

(−1×−1+1×1−1×1) =125×1.

El valor resultante, ignorando la constante de nor-malizacion, se representa por un cuadrado negro depequeno tamano en la esquina superior izquierda(peso w12). En esta figura, los colores negro y grisestan asociados a los pesos positivos y negativos, re-spectivamente, donde el tamano de la caja repre-senta la magnitud del valor.

26



INFORMACION CORRUPTA

Una vez construıda la red de Hopfield, estareconoce las tres vocales aun cuando se uti-liza como entrada cualquier otra cuadrıcula(digitalizacion) 5× 5 correspondiente a unaversion particular no estandar de la vocal.

27



ESTADOS ESPUREOS

Si se intenta utilizar la misma arquitec-tura de red para reconocer las cinco vocales

como en este caso el numero de patroneses mayor de 0.138 × n = 0.138 × 25 = 3.45,pueden aparecer algunos estados de falsa es-tabilidad en el modelo.

28



REDES MULTI-CAPA

Entre las arquitecturas de red mas populares desta-can las llamadas redes multi-capa o de retro-propagacion.

Definition 3 (Capa de Entrada de una Red Neu-ronal) Una unidad se dice que esta en la capa deentrada de una red neuronal (X,U), si es la entradade al menos un unidad funcional de U y no es lasalida de ninguna unidad procesadora de U .

Definition 4 (Capa de Salida de una Red Neuronal)Una unidad se dice que esta en la capa de salida deuna red funcional (X,U), si es la salida de al menosuna unidad funcional de U y no es la entrada deninguna unidad procesadora de U .

Definition 5 (Capas Intermedias u Ocultas de unaRed Neuronal) Una unidad se dice que esta en lacapa intermedia de una red neuronal (X,U), si es laentrada de al menos una unidad funcional de U y, almismo tiempo, es la salida de al menos una unidadprocesadora de U .

29



y1 y2 y3

x1 x2 x3 x4

Inputs

Outputs

wji

y1 y2 y3

x1 x2 x3 x4

a1p

a2p

a3p

a4p

b1p

b2p

b3p

b1p

b2p

b3p

EL PERCEPTRON

El perceptron es un red neuronal de dos capas (unade entrada y una de salida) con conexiones haciadelante.

yi = f(Yi) = f(∑jwijxj)

¿Como se pueden obtener los pesos adecuados para“aprender” un conjunto de patrones?.

30



EL PERCEPTRON(APRENDIZAJE)

• Aprendizaje Hebbiano: Inicialmente se eli-gen valores aleatorios para los pesos. La ideadel aprendizaje Hebiano era modificar los pesosacorde a la correlacion entre las unidades. Seeligen los patrones de uno en uno; por ejemplo(ap, bp). Si bpi 6= bpi , entonces se modifica el peso:

∆wij = η(bpi − bpi )apj• Descenso de Gradiente: Inicialmente se eli-

gen valores aleatorios para los pesos. La idea deeste metodo es utilizar un proceso iterativa queminimice la funcion de error

E(w) =12

∑i,p

(bpi − bpi )2.

En el caso lineal (f(x) = x) se tiene

∆wij = −η ∂E∂wij

= η∑p(bpi − bpi )apj.

En general, se tiene

∆wij = −η ∂E∂wij

= η∑p(bpi − bpi )f ′(Bp

i )apj.

El parametro η se llama tasa de aprendizaje.

31



EL PERCEPTRON(APRENDIZAJE)

En el caso de funciones sigmoidales, las formulas an-teriores no involucran derivadas simbolicas, pues

f(x) =1

1 + e−c x⇒ f ′(x) = c f(x) (1− f(x))

f(x) = tanh(c x) ⇒ f ′(x) = c (1− f(x)2)

Se han propuesto distintas mejoras de este metodopara incrementar su eficiencia.

• Se puede incluir un parametro de inercia α paraacelerar la convergencia al mınimo:

∆wij(t+ 1) = −η ∂E∂wij

+ α∆wij(t− 1)

• Otros metodos incluyen terminos la funcion deerror que penalizan grandes pesos:

E(w) =r∑p=1

(yp − yp)2 + λ∑i,jw2ij, (9)

donde λ es un parametro de regularizacion, quecontrola el equilibrio entre el modelo ajustado yla penalizacion. El efecto de esta regularizacionde los pesos es suavizar la funcion de error, yaque los pesos grandes estan usualmente asociadosa valores de salida altos.

32



0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

CLASIFICACION LINEALPLANTEAMIENTO

Los problemas de clasificacion consisten en asignarpatrones dados a sus respectivas clases, o categorıas,basandose en patrones representativos de cada clase.

x y c x y c x y c

0.272 0.987 0 0.524 0.196 1 0.629 0.232 10.506 0.371 1 0.750 0.594 1 0.818 0.295 10.526 0.900 0 0.005 0.972 0 0.112 0.318 00.932 0.968 1 0.641 0.926 0 0.351 0.813 00.369 0.938 0 0.827 0.617 1 0.739 0.706 1

Se puede construir un perceptron con estos puntospara obtener automaticamente el criterio de clasifi-cacion. Por ejemplo, si se considera un perceptroncon dos entradas, xi y yi, y una salida ci con funcionde activacion lineal

ci = w1xi + w2yi + q, (10)

33



0 5 10 15 20 250.2

0.3

0.4

0.5

0.6

0.7

0.8

e

n

0 5 10 15 20 25

-0.5

0

0.5

1

w2

w1

q

0 0.2 0.4 0.6 0.8 1x

0.2

0.4

0.6

0.8

1

y

0

1c

0 0 2 0 4 0 6 0 8 1

2

.4

0.6

0.8

1

y

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

0

1

CLASIFICACION LINEALAPRENDIZAJE

Descenso de gradiente con η = 0.2.

ci = 1.28xi − 0.815yi + 0.384. (11)

34



0 0.2 0.4 0.6 0.8 1x

0.2

0.4

0.6

0.8

1

y

0

1

c

0 0 2 0 4 0 6 0 8 1

2

0.4

0.6

0.8

1

y

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

0

1

0 0.2 0.4 0.6 0.8 1x

0.2

0.4

0.6

0.8

1

y

0

1

c

0 0 2 0 4 0 6 0 8 1

2

0.4

0.6

0.8

1

y

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

0

1

CLASIFICACION LINEALAPRENDIZAJE

Si se considera una funcion de activacion sigmoidalf(x) = (1 + e−x)−1 o de paso Θ(x) en (10).

35



-1 -0.5 0 0.5 1

-1

-0.5

0

0.5

1

CLASIFICACION NO LINEAL

Supongase que se tiene un conjunto de100 puntos aleatorios en el intervalo (−1,1)clasificados en dos categorıas: los que estandentro del cırculo (puntos rellenos), y losque estan fuera (puntos huecos).

Como estas dos categorıas no son lineal-mente separables, entonces un perceptronno puede obtener un criterio de clasificacionapropiado.

36



h1 h2 h3

y1 y2

x1 x2 x3 x4

Inputs

Outputs

HiddenUnits

Wkj

wji

EL PERCEPTRON MULTI-CAPA

En este caso los patrones de aprendizaje sonun conjunto de inputs {api , i = 1, . . . , n} y suscorrespondientes outputs {bpk, k = 1, . . . ,m}.El metodo mas popular de aprendizaje sedenomina retro-propagacion y esta basadoen minimizar la funcion de error medianteun metodo de descenso de gradiente.

Inicialmente se eligen valores aleatoriospara los pesos.

37



h1 h2 h3

y1 y2

RETRO-PROPAGACIONLA CAPA DE SALIDA

Los pesos de correspondientes a las neuronas dela capa de salida yi = f(Yi) son modificados con-siderando los valores de las neuronas ocultas hi =f(Hi). En este caso, la funcion de error es

E(w) =12

∑p,k

(bpk − bpk)2

=12

∑p,k

(bpk − f(∑jWkj f(∑

iwji x

pi )))2.

Entonces

∆Wkj = −η ∂E

∂Wkj=∂E

∂bpk

∂bpk

∂Bpk

∂Bpk

∂Wkj

∆Wkj = η hpj δpk, where δpk = (bpk − bpk)f ′(Bp

k)

38



h1 h2 h3

x1 x2 x3 x4

wji

RETRO-PROPAGACIONLA CAPA OCULTA

Los pesos de correspondientes a las neuronas dela capa oculta hi = f(Hi) son modificados con-siderando los valores de las neuronas de entradaxi = f(Xi) y los de las neuronas de salida yi = f(Yi).

∆wji = −η ∂E∂wji

=∂E

∂bpk

∂bpk

∂Bpk

∂Bpk

∂hpj

∂hpj∂Hp

j

∂hpj∂wji

,

∆wkj = η api δpk ψ

pj where ψpj = ∑

kδpk Wkj f

′(Hpj ).

39



RETRO-PROPAGACIONALGORITMO

1. Inicializar los pesos con valores arbitrarios.

2. Elegir un patron p y propagarlo hacia delante.Con ello obtenemos hpj y bpk (outputs de las capasoculta y de salida).

3. Calcular los errores de salida:

δpk = (bpk − bpk)f ′(Bpk) = (bpk − bpk)bpk(1− bpk)

4. Calcular los errores de la capa oculta:

ψpj = ∑kδpk Wkj f

′(Hpj ) = ∑

kδpk Wkj h

pj(1− hpj)

5. Calcular:∆Wkj = η hpj δ

pk,

y∆wkj = η api δ

pk ψ

pj

y actualizar los pesos.

6. Repetir los pasos anteriores para cada patron.

40



-1 -0.5 0 0.5 1

-1

-0.5

0

0.5

1

0 100 200 300 4000

0.1

0.2

0.3

0.4

0.5

e

n

CLASIFICACION NO LINEAL

Perceptron multicapa 2 : 5 : 1

41



MAPAS CAOTICOS:EL MAPA DE HENON

El mapa de Henon es uno de los ejemplos mas ilus-trativos de sistemas simples con dinamica compleja(caos determinista).

xn+1 = 1.0− 1.4x2n + 0.3xn−1

Para aproximar este mapa se utiliza una red neu-ronal 2:3:1 (la salida es xn y las entradas xn−1 y xn−2).

42



EL MAPA DE HENONRED NEURONAL

En algunos casos el proceso de optimizacion no con-verge al mınimo global, sino a uno local. Esto esdebido al gran numero de parametros involucradoen la red y a las caracterısticas de los modelos deaprendizaje.

43



y1

y2

yk

x1

x2

x3

xi

a1j

a2j

a3j

aij wki

REDES COMPETITIVAS

Las redes competitivas son muy utilizadaspara detectar automaticamente grupos, ocategorıas, dentro de los datos disponibles.Cada patron de entrada representa unpunto en el espacio de configuracion (el es-pacio de entradas) donde se quieren obtenerclases. Para ello, la capa de salida contienetantas neuronas como clases, o categorıas,como se quieran obtener.

44



REDES COMPETITIVASAPRENDIZAJE

Este tipo de arquitectura se entrena normalmentecon un algoritmo consistente en seleccionar laganadora (“winner takes all”), por lo que solo son ac-tualizados los pesos asociados a la neurona de mayorsalida (la ganadora) para un patron dado.

Considerense los datos de entrenamiento consis-tentes en un conjunto de patrones de entrada(a1j, . . . , anj), j = 1, . . . ,m.Se empieza con pequenos valores aleatorios paralos pesos. A continuacion, se aplica el patron(a1j, . . . , anj), y se selecciona la unidad salidaganadora, sea yk. Los pesos asociados con esta neu-rona son modificados de acuerdo con

∆wki = η(aij − wki). (12)

El efecto es mover el vector peso (wk1, . . . , wkn) di-rectamente hacia (a1j, . . . , anj).

Notese que en el caso de clasificacion supervisada,usando perceptrones multi-capa, el usuario propor-ciona ejemplos de las diferentes categorıas.

45



0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

00

x

y

(b)(a)

x

y

x

y

w11 z1

z2

w12

w22

w21

z1

z2

z3

w11w12

w13w21

w22w23

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

00 0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

00

(a) (b)

ωx 1

yω2

ωx 1

REDES COMPETITIVASEJEMPLO

46



EJERCICIOS

1. Utilizar un perceptron con dos unidades de en-trada y una de salida para modelizar las funcioneslogicas AND y OR. ¿Se puede modelizar tambienuna puerta XOR?

2. Considerar el fichero de datos “sincos.dat” quecontienetres colomnas de datos (x, sin(x), cos(x)) e in-tentar aproximarlo con un perceptron multicapa2:?:1. Probar varios valores de los parametrosde aprendizaje, η, y momento, α y comparar laconvergencia en los distintos casos. ¿Que valoresrecomiendas para este problema?

3. Considerar la funcion no lineal

y(x) = 20e−8.5x(Ln(0.9x+ 0.2) + 1.5).

Generar un fichero con 50 pares (x, y(x)) en el in-tervalo (0, 1) para entrenar un perceptron multi-capa 1:8:1. Generar tambien un fichero con otros50 puntos distintos para comprobar la validez dela aproximacion.

47

introducci¶on a las redes neuronales - unican.esintroducción a las redes neuronales universidad de...

Documents