reinforcement learning with modular neural networks for control

Upload: skryba100

Post on 09-Apr-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/8/2019 Reinforcement Learning With Modular Neural Networks for Control

    1/4

    R e i n f o r c e m e n t L e a r n i n g w i t h M o d u l a r N e u r a l N e t w o r k s f o r C o n t r o l

    C h a r l e s W . A n d e r s o n Z h a o h u i H o n g

    D e p a r t m e n t o f C o m p u t e r S c i e n c e

    C o l o r a d o S t a t e U n i v e r s i t y

    F o r t C o l l i n s , C O 8 0 5 2 3

    a n d e r s o n @ c s . c o l o s t a t e . e d u

    A b s t r a c t

    R e i n f o r c e m e n t l e a r n i n g m e t h o d s c a n b e a p p l i e d t o

    c o n t r o l p r o b l e m s w i t h t h e o b j e c t i v e o f o p t i m i z i n g t h e

    v a l u e o f a f u n c t i o n o v e r t i m e . T h e y h a v e b e e n u s e d

    t o t r a i n s i n g l e n e u r a l n e t w o r k s t h a t l e a r n s o l u t i o n s t o

    w h o l e t a s k s . J a c o b s a n d J o r d a n 5 h a v e s h o w n t h a t a

    s e t o f e x p e r t n e t w o r k s c o m b i n e d v i a a g a t i n g n e t w o r k

    c a n m o r e q u i c k l y l e a r n t a s k s t h a t c a n b e d e c o m p o s e d .

    E v e n t h e d e c o m p o s i t i o n c a n b e l e a r n e d . I n s p i r e d b y

    B o y a n ' s w o r k o f m o d u l a r n e u r a l n e t w o r k s f o r l e a r n i n g

    w i t h t e m p o r a l - d i e r e n c e m e t h o d s 4 , w e m o d i f y t h e

    r e i n f o r c e m e n t l e a r n i n g a l g o r i t h m c a l l e d Q - L e a r n i n g t o

    t r a i n a m o d u l a r n e u r a l n e t w o r k t o s o l v e a c o n t r o l p r o b -

    l e m . T h e r e s u l t i n g a l g o r i t h m i s d e m o n s t r a t e d o n t h e

    c l a s s i c a l p o l e - b a l a n c i n g p r o b l e m . T h e a d v a n t a g e o f

    s u c h a m e t h o d i s t h a t i t m a k e s i t p o s s i b l e t o d e a l w i t h

    c o m p l e x d y n a m i c c o n t r o l p r o b l e m e e c t i v e l y b y u s i n g

    t a s k d e c o m p o s i t i o n a n d c o m p e t i t i v e l e a r n i n g .

    1 I n t r o d u c t i o n

    N e u r a l n e t w o r k s h a v e b e e n a p p l i e d i n a n u m b e r o f

    w a y s t o t h e p r o b l e m o f l e a r n i n g t o c o n t r o l a s y s t e m

    3 . U s u a l l y t h e r e i s a s i n g l e n e t w o r k i n a s y s t e m .

    T h e p e r f o r m a n c e o f t h e s y s t e m d e p e n d s o n m a n y f a c -

    t o r s , s u c h a s t h e s t r u c t u r e a n d t h e s i z e o f t h e p r o b -

    l e m t o w h i c h i t i s a p p l i e d , t h e a m o u n t o f t r a i n i n g

    d a t a , t h e t y p e o f n e u r o n s i n t h e n e t w o r k , a n d s o o n .

    L a r g e r n e t w o r k s a r e c a p a b l e o f l e a r n i n g m o r e c o m p l e x

    f u n c t i o n s , b u t g e n e r a l l y r e q u i r e m o r e t r a i n i n g e x p e -

    r i e n c e . T h i s p r o m p t e d t h e d e v e l o p m e n t o f a m o d u -

    l a r n e t w o r k a r c h i t e c t u r e t o a u t o m a t i c a l l y d e c o m p o s e

    a p r o b l e m a n d t r a i n m u l t i p l e , s m a l l e r n e t w o r k s o n

    s u b - p r o b l e m s . M o d u l a r n e t w o r k s h a v e b e e n p r i m a r -

    i l y s t u d i e d i n t h e s u p e r v i s e d - l e a r n i n g p a r a d i g m . H e r e

    w e d e v e l o p a m o d u l a r n e t w o r k f o r m o f a r e i n f o r c e m e n t

    l e a r n i n g a l g o r i t h m , t h e Q - l e a r n i n g a l g o r i t h m , a n d a p -

    p l y i t t o t h e s i m u l a t e d p o l e - b a l a n c i n g p r o b l e m .

    R e i n f o r c e m e n t l e a r n i n g i s a d i r e c t l e a r n i n g m e t h o d

    i n w h i c h t h e p e r f o r m a n c e o f t h e l e a r n i n g a g e n t i s e v a l -

    u a t e d b a s e d o n a s i n g l e s c a l a r r e i n f o r c e m e n t s i g n a l .

    T h e o b j e c t i v e i s t o d e t e r m i n e a n o p t i m a l p o l i c y w h i c h

    c a n d e t e r m i n e t h e a c t i o n s t h a t t h e a g e n t i s g o i n g t o

    t a k e g i v e n e a c h s t a t e .

    Q - l e a r n i n g i s a f a m i l y o f r e i n f o r c e m e n t l e a r n i n g

    a l g o r i t h m s i n i t i a l l y d e v e l o p e d b y W a t k i n s 6 . T h e

    p r e v a l e n c e o f t h e s e a l g o r i t h m i s p a r t i a l l y d u e t o t h e

    e x i s t e n c e o f c o n v e r g e n c e p r o o f s 7 . I n Q - l e a r n i n g , t h e

    p r e d i c t e d l o n g t e r m c u m u l a t i v e r e i n f o r c e m e n t , c a l l e d

    t h e Q - v a l u e , i s a f u n c t i o n o f a c t i o n s a s w e l l a s i n p u t

    s t a t e s . T h e Q - f u n c t i o n a c t s a s a n e v a l u a t i o n f u n c -

    t i o n t h a t p r e d i c t s t h e d i s c o u n t e d c u m u l a t i v e r e i n f o r c e -

    m e n t . T h e a c t i o n - s e l e c t i o n p o l i c y i s b a s e d o n t h e Q -

    v a l u e a n d t h e a d j u s t m e n t o f t h e r e i n f o r c e m e n t p r e -

    d i c t i o n i s b a s e d o n t h e t e m p o r a l d i e r e n c e e r r o r i n

    t h e Q - v a l u e . T h e Q - n e t w o r k l e a r n s t h e o p t i m a l Q -

    f u n c t i o n t h a t m a p s e a c h a c t i o n - s t a t e p a i r t o t h e d i s -

    c o u n t e d c u m u l a t i v e r e i n f o r c e m e n t . T h e c o n t r o l p o l i c y

    s i m p l y s e l e c t s t h e a c t i o n t h a t l e a d s t o t h e m a x i m u m

    Q - v a l u e f o r t h e c u r r e n t s t a t e .

    M o d u l a r n e t s c o n s i s t o f s e v e r a l s i n g l e n e t w o r k s a n d

    a g a t i n g n e t w o r k , w h i c h d e t e r m i n e s h o w m u c h o f e a c h

    n e t w o r k ' s o u t p u t i s a p p l i e d t o t h e n a l o u t p u t . T h e

    s i n g l e n e t w o r k i s a l s o c a l l e d a n e x p e r t n e t w o r k . E x -

    p e r t n e t w o r k s a n d t h e g a t i n g n e t w o r k w o r k t o g e t h e r

    t o l e a r n t o d i v i d e a t a s k i n t o s e v e r a l s u b t a s k s t h a t a r e

    f u n c t i o n a l l y i n d e p e n d e n t . T h e g a t i n g n e t w o r k m e d i -

    a t e s t h e c o m p e t i t i o n o f e a c h e x p e r t n e t w o r k a n d a l l o -

    c a t e s d i s t i n c t n e t w o r k s t o l e a r n e a c h t a s k . T h i s m o d -

    u l a r a r c h i t e c t u r e a v o i d s l e a r n i n g a x e d g l o b a l c o n t r o l

    p o l i c y , w h i c h m a y n o t b e g o o d f o r t h e w h o l e c o n t r o l

    t a s k u n d e r e v e r y d i e r e n t o p e r a t i o n p o i n t .

    F i g u r e 1 s h o w s a t y p i c a l a r c h i t e c t u r e o f m o d u l a r

    n e t w o r k s . T h e r e a r e t w o t y p e s o f m o d u l a r n e t w o r k s .

    T h e d i e r e n c e r e s i d e s i n t h e d e s i g n o f t h e g a t i n g n e t -

    w o r k . F o r t h e r s t t y p e o f n e t w o r k a h u m a n d e c o m -

    p o s e s t h e p r o b l e m . A p r i o r k n o w l e d g e i s h a r d - c o d e d

  • 8/8/2019 Reinforcement Learning With Modular Neural Networks for Control

    2/4

    Expert Network 1

    Expert Network 21 2 2 n n

    Expert Network n

    Gating Network

    y

    y

    y

    g g g

    1

    2

    1 2 n

    n

    output=g y + g y + ... + g y1

    F i g u r e 1 : A M o d u l a r C o n n e c t i o n i s t A r c h i t e c t u r e

    i n t o t h e g a t i n g n e t w o r k s o t h e g a t i n g n e t w o r k c a n c o -

    o r d i n a t e t h e o u t p u t s o f t h e e x p e r t n e t w o r k s w i t h o u t

    b e i n g t r a i n e d . T h e s e c o n d t y p e o f n e t w o r k c o n s i s t s

    o f s e v e r a l e x p e r t n e t w o r k s a n d a g a t i n g n e t w o r k t h a t

    l e a r n s t o c o n t r o l t h e n a l o u t p u t o f t h e w h o l e n e t w o r k .

    T h i s n e t w o r k s t a r t s t r a i n i n g f r o m s c r a t c h a n d d o e s n ' t

    n e e d a n y a p r i o r i k n o w l e d g e .

    J a c o b s a n d J o r d a n 5 s t u d i e d t h e m o d u l a r n e t w o r k

    a r c h i t e c t u r e i n a m u l t i p l e p a y l o a d r o b o t i c s " t a s k .

    T h e y t e s t e d f o u r a r c h i t e c t u r e s : a s i n g l e n e t w o r k , a

    m o d u l a r a r c h i t e c t u r e , a m o d u l a r a r c h i t e c t u r e w i t h a

    s h a r e n e t w o r k , a n d a c o n s t r a i n e d m o d u l a r a r c h i t e c t u r e

    w i t h a s h a r e n e t w o r k , r e s p e c t i v e l y . T h e y c o n c l u d e d

    t h a t f a s t e r l e a r n i n g s p e e d o v e r t h e s i n g l e n e t w o r k c a n

    b e a c h i e v e d b y d e v e l o p i n g a p i e c e w i s e c o n t r o l s t r a t e g y

    f o r e a c h s u b - n e t w o r k .

    B o y a n 4 d e v e l o p e d a m o d u l a r n e u r a l n e t w o r k f o r

    l e a r n i n g g a m e s t r a t e g i e s . H e a p p l i e d h i s D e s i g n e r

    D o m a i n D e c o m p o s i t i o n " a n d M e t a - P i " a r c h i t e c t u r e s

    t o t h e T i c - T a c - T o e a n d B a c k g a m m o n g a m e s . B o t h

    a r c h i t e c t u r e s u s e d t e m p o r a l - d i e r e n c e m e t h o d s .

    1 . 1 Q - L e a r n i n g f o r M o d u l a r N e t w o r k s

    F i g u r e 1 s h o w s s e v e r a l e x p e r t n e t w o r k s i n t h e m o d -

    u l a r a r c h i t e c t u r e a n d o n e g a t i n g n e t w o r k . T h e e x p e r t

    n e t w o r k a r c h i t e c t u r e s a r e e q u i v a l e n t , a n d i n f a c t c a n

    b e u s e d a s s t a n d - a l o n e n e t w o r k s t r a i n e d t o l e a r n t h e

    w h o l e t a s k . W h e n u s e d a s p a r t o f a b i g g e r m o d u l a r

    n e t w o r k , e a c h c o m p e t e s t o l e a r n a s u b - t a s k i n s t e a d o f

    l e a r n i n g t h e w h o l e t a s k . I n F i g u r e 1 , y

    i

    i = 1 2 ; : : : ; n

    d e n o t e s t h e o u t p u t s o f e x p e r t n e t w o r k s . T h e g a t -

    i n g n e t w o r k h a s t h e s a m e n u m b e r o f o u t p u t u n i t s

    a s t h e n u m b e r o f e x p e r t n e t w o r k s . T h e v a r i a b l e s

    g

    i

    i = 1 2 ; : : : ; n d e n o t e t h e o u t p u t s o f e a c h o u t p u t

    u n i t o f t h e g a t i n g n e t w o r k . T h e v a l u e s o f g

    i

    a r e n o n -

    n e g a t i v e a n d s u m t o o n e . T h e o u t p u t o f t h e e n t i r e

    n e t w o r k i s d e t e r m i n e d b y

    o u t p u t =

    n

    X

    i = 0

    g

    i

    y

    i

    I n t h i s w a y , t h e g a t i n g n e t w o r k d e t e r m i n e s h o w m u c h

    e a c h e x p e r t n e t w o r k s h o u l d c o n t r i b u t e t o t h e n a l o u t -

    p u t .

    T h e w e i g h t s o f a n e u r a l n e t w o r k b e i n g t r a i n e d v i a

    Q - l e a r n i n g a r e m o d i e d s o a s t o m a x i m i z e t h e d i s -

    c o u n t e d c u m u l a t i v e r e i n f o r c e m e n t i n t h e f u t u r e :

    V

    t

    =

    1

    X

    k = 0

    k

    r

    t + k

    w h e r e V

    t

    i s t h e d i s c o u n t e d c u m u l a t i v e r e i n f o r c e m e n t ,

    r

    t

    i s t h e r e i n f o r c e m e n t r e c e i v e d a f t e r t h e s t a t e t r a n s i -

    t i o n f r o m t t o t + 1 i s a d i s c o u n t e d f a c t o r a d j u s t i n g

    t h e i m p o r t a n c e o f l o n g t e r m c o n s e q u e n c e s o f a c t i o n s .

    D u r i n g l e a r n i n g , m a x f Q y k k 2 a c t i o n s g i s u s e d a s

    a n a p p r o x i m a t i o n t o t h e d i s c o u n t e d c u m u l a t i v e r e i n -

    f o r c e m e n t V

    t

    W h e n g i v e n a s t a t e x a n d a n a c t i o n a , t h e s y s t e m

    g o e s i n t o a n e w s t a t e y a n d g e t s f e e d b a c k r e i n f o r c e -

    m e n t r f r o m t h e e n v i r o n m e n t . T h e Q - f u n c t i o n c a n b e

    l e a r n e d b y t h e f o l l o w i n g s t e p s :

    1 . i n p u t v e c t o r i s f e d i n t o e x p e r t n e t w o r k s a n d t h e

    g a t i n g n e t w o r k .

    2 . t h e g a t i n g n e t w o r k s e l e c t s i t h e x p e r t n e t w o r k f o r

    t h a t p a r t i c u l a r i n p u t s t a t e a c c o r d i n g t o t h e p r e -

    c o d e d o u t p u t v a l u e .

    3 . l e t u b e t h e c u r r e n t v a l u e o f Q x a o u t p u t b y

    t h e i t h e x p e r t n e t w o r k ;

    4 . l e t u b e t h e i t h e x p e r t n e t w o r k ' s p r e d i c t e d v a l u e

    r + m a x f Q y k k 2 a c t i o n s g

    5 . u p d a t e t h e w e i g h t s o f t h e i t h e x p e r t n e t w o r k t o

    i m p r o v e Q - f u n c t i o n b y b a c k - p r o p a g a t i n g t h e t e m -

    p o r a l d i e r e n c e e r r o r u , u

    W h e n t h e g a t i n g n e t w o r k i s n o t x e d , t h e m o d u -

    l a r n e t w o r k i s a b l e t o l e a r n b o t h a d e c o m p o s i t i o n o f

    t h e w h o l e t a s k a n d t h e c o n t r o l o f e a c h s u b - t a s k . T h e

    g a t i n g n e t w o r k w i t h t r a i n a b l e w e i g h t s t a k e s t h e s a m e

    i n p u t a s w h a t t h e e x p e r t n e t w o r k s t a k e . T h e l a s t l a y e r

    o f t h e n e t w o r k c o m p u t e s t h e w e i g h t e d s u m s o f t h e o u t -

    p u t s o f t h e h i d d e n u n i t s . T h e w e i g h t e d s u m o f t h e j t h

    u n i t i s d e n o t e d a s s

    j

    s

    j

    =

    m

    X

    i = 1

    x

    i

    w

    j i

  • 8/8/2019 Reinforcement Learning With Modular Neural Networks for Control

    3/4

    w h e r e m i s t h e n u m b e r o f h i d d e n u n i t s , a n d w

    j i

    i s t h e

    w e i g h t c o n n e c t i n g o u t p u t n o d e j a n d h i d d e n u n i t o u t -

    p u t x

    i

    . B e c a u s e t h e o u t p u t s o f g a t i n g n e t w o r k h a v e

    t o s u m t o o n e , t h e s o f t m a x a c t i v a t i o n f u n c t i o n i s u s e d

    i n t h e s e c o n d l a y e r o f t h e n e t w o r k t o m e e t t h i s c o n -

    s t r a i n t . T h e i t h o u t p u t n o d e i s d e n o t e d a s g

    i

    g

    i

    =

    e

    s

    i

    P

    n

    j = 1

    e

    s

    j

    w h e r e n i s t h e n u m b e r o f o u t p u t u n i t s .

    D u r i n g t h e t r a i n i n g , t h e w e i g h t s o f t h e e x p e r t n e t -

    w o r k s a n d t h e g a t i n g n e t w o r k a r e u p d a t e d a t t h e s a m e

    t i m e u s i n g t h e b a c k p r o p a g a t i o n w i t h T D - e r r o r . T h e

    Q - f u n c t i o n i s l e a r n e d a n d t h e d i s c o u n t e d c u m u l a t i v e

    r e i n f o r c e m e n t i n t h e f u t u r e i s m a x i m i z e d . I n o u r e x -

    p e r i m e n t s , t h e e x p e r t n e t w o r k s u s e d r a d i a l b a s i s f u n c -

    t i o n s i n t h e h i d d e n u n i t s i n o r d e r t o c o m p a r e d i r e c t l y

    t o t h e r e s u l t s o f A n d e r s o n 2 .

    2 E x p e r i m e n t s a n d R e s u l t s

    T h e p o l e - b a l a n c i n g p r o b l e m i s a c l a s s i c e x a m p l e

    o f a n i n h e r e n t l y u n s t a b l e s y s t e m . I t i n v o l v e s a p o l e

    h i n g e d t o t h e t o p o f a w h e e l e d c a r t w h i c h c a n m o v e

    a l o n g a t r a c k o f l i m i t e d l e n g t h . T h e s y s t e m i s m o d -

    e l l e d b y t w o d i e r e n t i a l e q u a t i o n s , t a k e n f r o m A n d e r -

    s o n 1 . T h e n e u r a l n e t w o r k r e c e i v e s a p e r f o r m a n c e

    f e e d b a c k , w h i c h i n d i c a t e s f a i l u r e w h e n t h e p o l e f a l l s

    p a s t 1 2 d e g r e e s f r o m v e r t i c a l a n d w h e n t h e c a r t h i t s

    t h e b o u n d s o f t h e t r a c k , a n d a f o u r - c o m p o n e n t v e c t o r

    a s t h e c u r r e n t s t a t e i n c l u d i n g t h e v e l o c i t i e s a n d p o s i -

    t i o n s f r o m t h e p o l e - c a r t s y s t e m . T h e p o l e i s s a i d t o b e

    b a l a n c e d i f i t d o e s n o t f a i l w i t h i n 1 0 , 0 0 0 s t e p s . A f t e r

    e a c h f a i l u r e e i t h e r d u e t o t h a t t h e p o l e f a l l s t o a d e -

    g r e e g r e a t e r t h a n r e q u i r e d o r d u e t o t h e c a r t h i t s t h e

    h o r i z o n t a l b o u n d a r y , t h e p o l e a n d t h e c a r t i s r e s e t t o

    t h e o r i g i n a l p o s i t i o n i n w h i c h p o l e i s s t r a i g h t u p a n d

    t h e c a r t i s i n t h e m i d d l e o f t h e t r a c k .

    T h e p e r f o r m a n c e i s j u d g e d b y t h e a v e r a g e n u m b e r

    o f f a i l u r e s b e f o r e t h e p o l e b a l a n c e d . T h e s m a l l e r i t

    i s , t h e b e t t e r t h e p e r f o r m a n c e i s . A v e r a g e s a r e t a k e n

    f r o m a t o t a l o f 3 0 r u n s . E a c h r u n f o l l o w s t h e p r o c e -

    d u r e o f i n i t i a l i z i n g t h e n e t w o r k s , t a k i n g t h e p o l e c a r t

    s y s t e m s t a t e f r o m i n p u t v e c t o r , p r e d i c t i n g t h e a c t i o n

    t h a t n e e d s t o t a k e , a p p l y i n g t h e a c t i o n , g e t t i n g n e x t

    p o l e c a r t s y s t e m s t a t e , a n d u p d a t i n g t h e n e t w o r k .

    E a c h r u n e n d s u p w i t h t h e p o l e c a r t s y s t e m i s b a l -

    a n c e d . T h e o n l y d i e r e n c e a m o n g t h e s e r u n s i s t h a t

    t h e i n i t i a l s t a t e s o f n e t w o r k s a r e d i e r e n t b e c a u s e o f

    t h e d i e r e n c e s e e d v a l u e s f o r t h e r a n d o m n u m b e r g e n -

    e r a t o r .

    F o r t h e x e d g a t i n g n e t w o r k , w e t e s t e d n e t w o r k s

    w i t h t w o a n d w i t h f o u r e x p e r t n e t w o r k s a n d f o u r p a r -

    T a b l e 1 : T r a i n i n g w i t h t r a i n a b l e g a t i n g n e t w o r k f o r

    d i e r e n t n u m b e r s o f e x p e r t n e t w o r k s .

    n u m b e r o f e x p e r t n e t w o r k s 2 4 8

    a v g . n u m b e r o f f a i l u r e s 2 3 9 8 . 8 2 3 6 4 . 9 7 2 5 9 6 . 2 3

    n u m b e r o f f a i l e d r u n s 0 0 0

    t i t i o n i n g m e t h o d s : p a r t i t i o n i n g t h e s t a t e s p a c e a c -

    c o r d i n g t o t h e p o s i t i o n o f t h e c a r t , t h e v e l o c i t y o f t h e

    c a r t , t h e p o s i t i o n o f t h e p o l e , a n d t h e v e l o c i t y o f t h e

    p o l e . T h e r e s u l t s o f a t y p i c a l t w o - e x p e r t e x p e r i m e n t

    a r e t h e f o l l o w i n g . T h e e v e r a g e n u m b e r o f f a i l u r e s b e -

    f o r e b a l a n c i n g i s 2 4 3 3 , 2 3 6 4 , 3 5 4 8 , a n d 4 5 0 7 f o r p a r -

    t i t i o n s b a s e d o n c a r t p o s i t i o n , v e l o c i t y , p o l e p o s i t i o n ,

    a n d p o l e v e l o c i t y , r e s p e c t i v e l y . T h e a v e r a g e n u m b e r

    o f f a i l e d r u n s f o r t h e s e f o u r p a r t i t i o n m e t h o d s i s 0 ,

    0 , 5 , a n d 2 1 . T h e a v e r a g e n u m b e r o f f a i l u r e s b e f o r e

    b a l a n c i n g d o e s n o t c o u n t t h e f a i l e d r u n s . F r o m t h e s e

    r e s u l t s , w e s e e t h a t t h e p e r f o r m a n c e o f t h e n e t w o r k

    d e p e n d s o n t h e m e t h o d s o f t a s k d e c o m p o s i t i o n . T h e

    d e c o m p o s i t i o n b a s e d o n t h e c a r t ' s p o s i t i o n a n d v e l o c -

    i t y a r e s i g n i c a n t l y b e t t e r t h a n o n t h e p o l e ' s p o s i t i o n

    a n d v e l o c i t y .

    A t y p i c a l f o u r - e x p e r t e x p e r i m e n t r e s u l t e d i n o n l y

    1 7 r u n s b a l a n c i n g t h e p o l e a n d o t h e r 1 3 r u n s d o n ' t

    b a l a n c e . T h e a v e r a g e n u m b e r o f f a i l u r e s b e f o r e b a l -

    a n c e i n t h e 1 7 s u c c e s s f u l r u n s i s 4 3 2 3 , n o t c o u n t i n g

    t h e u n s u c c e s s f u l r u n s . T h i s r e s u l t s h o w s t h a t p e r f o r -

    m a n c e i s n o t i m p r o v e d a s t h e t a s k i s d e c o m p o s e d i n t o

    m o r e s u b - t a s k s .

    I n e x p e r i m e n t s w i t h a t r a i n a b l e g a t i n g n e t w o r k , o u r

    g o a l w a s t o s e e w h e t h e r t h e n u m b e r o f e x p e r t n e t -

    w o r k s i m p a c t t h e p e r f o r m a n c e o f t h e w h o l e n e t w o r k

    a n d h o w t h e g a t i n g n e t w o r k a l l o c a t e t h e e x p e r t n e t -

    w o r k s t o t h e v a r i o u s i n p u t s t a t e s p a c e s o v e r d i e r e n t

    r u n s . T a b l e 1 s h o w s t h e p e r f o r m a n c e o f t h e n e t w o r k

    w i t h v a r i o u s n u m b e r s o f e x p e r t n e t w o r k s . T h e p e r f o r -

    m a n c e i s a l m o s t t h e s a m e f o r a l l t h e n e t w o r k s , w h i c h

    c o n t r a d i c t s o u r e x p e c t a t i o n s . W e e x p e c t e d t h a t t h e

    p e r f o r m a n c e w o u l d i n c r e a s e a s t h e n u m b e r o f e x p e r t s

    i n c r e a s e s . H o w e v e r , w e f o u n d t h a t a f o u r e x p e r t n e t -

    w o r k s w i t h a t r a i n a b l e g a t i n g n e t w o r k g e n e r a l l y p e r -

    f o r m s b e t t e r t h a n t h e o n e j u s t c o n g u r e d w i t h a x e d

    g a t i n g n e t w o r k .

    T r a i n i n g w i t h a t r a i n a b l e g a t i n g n e t w o r k r e s u l t s i n

    a s m a l l e r a v e r a g e n u m b e r o f f a i l u r e s , a n d a s m a l l e r

    n u m b e r o f u n s u c c e s s f u l r u n s d u r i n g t h e t o t a l o f 3 0

    r u n s . T h e t r a i n a b l e g a t i n g n e t w o r k h e l p e d t h e e x p e r t

    n e t w o r k s p e r f o r m b e t t e r t h a n a x e d g a t i n g n e t w o r k .

    T a b l e 2 , w h i c h s h o w s t h e t r a i n i n g r e s u l t s u n d e r t w o

    s a m e l e a r n i n g r a t e s e t s i n e a c h p a i r , t h e r s t i t e m

  • 8/8/2019 Reinforcement Learning With Modular Neural Networks for Control

    4/4

    T a b l e 2 : F i x e d G a t i n g N e t w o r k v s . T r a i n a b l e G a t i n g

    N e t w o r k

    l e a r n i n g r a t e 1 l e a r n i n g r a t e 2

    x e d 4 3 2 3 . 1 2 , 1 3 3 1 9 9 . 7 5 , 6

    t r a i n a b l e 2 4 0 5 . 0 0 , 2 2 4 3 0 . 3 3 , 0

    r e p r e s e n t s t h e a v e r a g e n u m b e r o f f a i l u r e s b e f o r e b a l -

    a n c e , t h e s e c o n d i t e m r e p r e s e n t s t h e n u m b e r o f u n -

    s u c c e s s f u l r u n s , a l s o c o n r m s t h i s c o n c l u s i o n . T h i s i s

    e n c o u r a g i n g b e c a u s e i t s h o w s t h a t t h e g a t i n g n e t w o r k

    d o e s l e a r n t h e d e c o m p o s i t i o n o f t h e t a s k a n d h o w t o

    a s s i g n d i e r e n t e x p e r t n e t w o r k t o r e s p o n d t o v a r i o u s

    s t a t e s p a c e s .

    I n o r d e r t o w a t c h h o w t h e t h e g a t i n g n e t w o r k a s -

    s i g n s d i e r e n t e x p e r t n e t w o r k s t o v a r i o u s i n p u t s t a t e

    s p a c e , w e i n v e s t i g a t e d t h e o u t p u t s o f t h e g a t i n g n e t -

    w o r k . W e f o u n d t h a t o u t o f 3 0 r u n s , 1 3 r e s u l t e d i n 1

    e x p e r t n e t w o r k b e i n g a l l o c a t e d , 1 4 r e s u l t e d i n 2 n e t -

    w o r k s a l l o c a t e d , 3 r e s u l t e d i n 3 n e t w o r k s , a n d n o r u n s

    r e s u l t e d i n 4 n e t w o r k s . S o s o m e t i m e s t h e m o d u l a r

    n e t w o r k j u s t r u n s l i k e a s i n g l e n e t w o r k . O t h e r e x p e r t

    n e t w o r k s a r e n o t i n u s e . B u t t h e r e a r e s t i l l 1 4 r u n s

    i n w h i c h t h e r e a r e t w o n e t w o r k s a l l o c a t e d . I n m o s t

    o f t h e s e r u n s , t h e c a r t ' s v e l o c i t y w a s u s e d t o a l l o c a t e

    t h e e x p e r t n e t w o r k s , w h i c h m a t c h e s t h e r e s u l t s t h a t

    w e g o t f r o m t h e t r a i n i n g w i t h 2 e x p e r t n e t w o r k s a n d a

    x e d g a t i n g n e t w o r k . O n e w o r k s o n t h e p o s i t i v e c a r t ' s

    v e l o c i t y a n d a n o t h e r w o r k s o n t h e n e g a t i v e c a r t ' s v e -

    l o c i t y . T h e r e a r e t h r e e r u n s t h a t a l l o c a t e t h r e e e x p e r t

    n e t w o r k s . N o r u n a l l o c a t e s a l l f o u r e x p e r t n e t w o r k s .

    O t h e r e x p e r t n e t w o r k s a c t u a l l y a r e n o t i n u s e .

    3 D i s c u s s i o n a n d C o n c l u s i o n

    C o m p a r e d w i t h t h e t r a i n i n g o n t h e s a m e p r o b l e m

    w i t h s i n g l e n e u r a l n e t w o r k , t h e r e s u l t s s h o w t h a t t h e

    m o d u l a r n e u r a l n e t w o r k d o e s n o t s u r p a s s t h e p e r f o r -

    m a n c e o f t h e s i n g l e n e t w o r k s . W i t h t h e s a m e v a l u e s

    o f

    h

    , a n d

    , a n e x p e r i m e n t w i t h t h e s i n g l e n e t -

    w o r k s u c c e e d e d i n b a l a n c i n g t h e p o l e c a r t s y s t e m f o r

    2 9 r u n s a n d t h e a v e r a g e n u m b e r o f f a i l u r e b e f o r e b a l -

    a n c e i s 2 5 3 2 w i t h o u t c o u n t i n g t h e f a i l u r e r u n .

    T h i s w o r k h a s s h o w n t h a t Q - l e a r n i n g c a n b e

    a d a p t e d f o r a m o d u l a r n e t w o r k a r c h i t e c t u r e a n d a p -

    p l i e d t o d y n a m i c c o n t r o l p r o b l e m s . H o w e v e r , o u r p r e -

    l i m i n a r y r e s u l t s s h o w t h a t t h e m o d u l a r n e t w o r k s d o

    n o t p e r f o r m b e t t e r t h a t a s i n g l e n e t w o r k a r c h i t e c t u r e .

    T h i s m i g h t b e r e l a t e d t o t h e s y m m e t r y o f t h e p o l e -

    b a l a n c i n g p r o b l e m , w h i c h r e s u l t s i n a f a i r l y s i m p l e ,

    s i n g l e - n e t w o r k s o l u t i o n . F o r e x a m p l e , t h e c o n t r o l s i g -

    n a l m a y b e n e g a t e d w h e n t h e c a r t o r t h e p o l e g o e s

    f r o m l e f t t o r i g h t . T h e p o l e - b a l a n c i n g p r o b l e m i s n o t

    a t y p i c a l c o n t r o l p r o b l e m i n w h i c h d i e r e n t l o c a l c o n -

    t r o l m o d e l s a r e r e q u i r e d . A g l o b a l c o n t r o l m o d e l c a n

    p e r f o r m a s w e l l a s t w o l o c a l c o n t r o l m o d e l s .

    P o s s i b l e e x t e n s i o n s o f t h i s r e s e a r c h a r e t o t r y d i e r -

    e n t a c t i v a t i o n f u n c t i o n s f o r t h e h i d d e n l a y e r i n t h e e x -

    p e r t n e t w o r k s , t o t e s t m o r e p a r a m e t e r - v a l u e c o m b i n a -

    t i o n s , a n d t o a p p l y s u c h a n a r c h i t e c t u r e a n d l e a r n i n g

    a l g o r i t h m t o a d y n a m i c p r o b l e m w i t h a m o r e c o m p l e x

    i n p u t s t a t e s p a c e .

    R e f e r e n c e s

    1 C . W . A n d e r s o n . S t r a t e g y l e a r n i n g w i t h m u l t i l a y e r

    c o n n e c t i o n i s t r e p r e s e n t a t i o n s . T e c h n i c a l R e p o r t

    T R 8 7 - 5 0 9 . 3 , G T E L a b o r a t o r i e s , W a l t h a m , M A ,

    1 9 8 7 . R e v i s i o n o f a r t i c l e t h a t w a s p u b l i s h e d i n

    P r o c e e d i n g s o f t h e F o u r t h I n t e r n a t i o n a l W o r k s h o p

    o n M a c h i n e L e a r n i n g , p p . 1 0 3 1 1 4 , J u n e , 1 9 8 7 .

    2 C h a r l e s W . A n d e r s o n . Q - l e a r n i n g w i t h h i d d e n -

    u n i t r e s t a r t i n g . I n S t e p h e n J o s e H a n s o n , J a c k D .

    C o w a n , a n d C . L e e G i l e s , e d i t o r s , A d v a n c e s i n

    N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s 5 , p a g e s

    8 1 8 8 . M o r g a n K a u f m a n n P u b l i s h e r s , S a n M a t e o ,

    C A , 1 9 9 3 .

    3 A . G . B a r t o . C o n n e c t i o n i s t l e a r n i n g f o r c o n t r o l :

    A n o v e r v i e w . I n W . T . M i l l e r , R . S . S u t t o n , a n d

    P . J . W e r b o s , e d i t o r s , N e u r a l N e t w o r k s f o r C o n -

    t r o l , c h a p t e r 1 , p a g e s 5 5 8 . M I T P r e s s , C a m b r i d g e ,

    M A , 1 9 9 0 .

    4 J u s t i n A . B o y a n . M o d u l a r n e u r a l n e t w o r k s f o r

    l e a r n i n g c o n t e x t - d e p e n d e n d g a m e s t r a t e g i e s . M a s -

    t e r ' s t h e s i s , U n i v e r s i t y o f C a m b r i d g e , 1 9 9 2 .

    5 R . A . J a c o b s a n d M . I . J o r d a n . A m o d u l a r c o n n e c -

    t i o n i s t a r c h i t e c t u r e f o r l e a r n i n g p i e c e w i s e c o n t r o l

    s t r a t e g i e s . I n P r o c e e d i n g s o f t h e 1 9 9 1 A m e r i c a n

    C o n t r o l C o n f e r e n c e , 1 9 9 1 .

    6 C . W a t k i n s . L e a r n i n g w i t h D e l a y e d R e w a r d s . P h D

    t h e s i s , C a m b r i d g e U n i v e r s i t y P s y c h o l o g y D e p a r t -

    m e n t , 1 9 8 9 .

    7 W h i t l e y , D o m i n i c , D a s , a n d A n d e r s o n . G e n e t i c

    r e i n f o r c e m e n t l e a r n i n g f o r n e u r o c o n t r o l p r o b l e m s .

    T e c h n i c a l R e p o r t C S 9 2 - 1 0 2 , C S U , 1 9 9 2 .