comp 4180: intelligent mobile robotics reinforcement learning

COMP 4180: Intelligent Mobile Robotics Reinforcement Learning Jacky Baltes Department of Computer Science University of Manitoba Email: [email protected] http://www4.cs.umanitoba.ca/~jacky/... Teaching/Courses/COMP_4180- IntelligentMobileRobotics/current/index.php

Upload: others

Post on 30-Oct-2021

3 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

COMP 4180: Intelligent Mobile Robotics

Reinforcement Learning

Jacky BaltesDepartment of Computer Science

University of Manitoba

Email: [email protected]

http://www4.cs.umanitoba.ca/~jacky/...Teaching/Courses/COMP_4180-

IntelligentMobileRobotics/current/index.php

Page 2: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Outline

● Reinforcement Learning Problem– Dynamic Programming– Control learning– Control policies that choose optimal actions– Q Learning– Convergence

● Monte-Carlo Methods● Temporal Difference Learning

Page 3: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Control Learning

Page 4: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Example: TD-Gammon

Page 5: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Reinforcement Learning Problem

Page 6: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Markov Decision Processes

Page 7: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Agent's Learning Task

Page 8: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

State Value Function

Page 9: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Bellman Equation(Deterministic Case)

Page 10: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Example

Page 11: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Example

Page 12: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Iterative Policy Evaluation

Page 13: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Iterative Policy Evaluation

Page 14: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

What to learn?

Page 15: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Q (Action-Value) Function

Page 16: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Q (Action-Value) Function

Page 17: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Page 18: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Bellman EquationDeterministic Case

Page 19: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Optimal Value Functions

Page 20: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Policy Improvement

Page 21: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Example

Page 22: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Example

Page 23: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Generalized Policy Iteration

Page 24: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Value IterationQ-Learning

Page 25: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Non-deterministic Case

Page 26: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Bellman EquationsNon-deterministic Case

Page 27: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Value IterationQ-Learning

Page 28: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Example

Page 29: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Example

Reinforcement Learning

Monte-Carlo MethodsPolicy Evaluation

Page 32: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Monte Carlo MethodPolicy Evaluation

Page 33: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Temporal Difference (TD) Learning

Page 34: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

TD(0): Policy Evaluation

Page 35: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

TD(0): Policy Evaluation

Page 36: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

e-Greedy Policy

Page 37: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

SARSA Policy Iteration

Page 38: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

SARSA Example

Page 39: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

SARSA Example V(s)

Page 40: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

SARSA ExampleQ(s,a)

Page 41: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Rotational Inverted Pendulum

Rotational Inverted Pendulum Stablization Demo, Tor Aarnodthttp://www.eecg.utoronto.ca/~aamodt/BAScThesis/RLsim.htm

Page 42: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Q-Learning (Off-Policy TD)

Page 43: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Q-Learning (Off Policy Iteration)

Page 44: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

TD vs Monte Carlo

Page 45: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Temporal Difference Learning

Page 46: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Monte Carlo Method

Page 47: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

N-Step return

Page 48: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

TD() Learning

Page 49: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Eligibility Traces

Page 50: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

On-line TD()

Page 51: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Function Approximation

Page 52: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Function Approximation

Page 53: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Stochastic Gradient Descent

Page 54: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Convergence

Page 55: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

Subtleties and Ongoing Research

● Replace Q^ table with neural net or other generalizer

● Handle cases where the state is only partially observable

● Design optimal exploration strategies● Extend to continuous action, state● Learn and use delta^: S x A -> S● Relationship to dynamic programming

Page 56: COMP 4180: Intelligent Mobile Robotics Reinforcement Learning

References

● Reinforcement Learning: An Introduction. Richard S. Sutton, Andrew G. Barto. MIT Press 1998. http://www-anw.cs.umass.edu/~rich/book/the-book.html

● Neuro-Dynamic Programming, Dimitri Bertsekas, John Tsitsiklis, Athena Scientific, 1996.

● Reinforcement Learning: A Tutorial. M. Harmon, S. Harmon.● Reinforcement Learning: A Survey, L. Kaebling et al., Journal of Aritificial

Intelligence Research, Vol 4, pp. 237-285● How to Make Software Agents Do the Right Thing: An Introduction to

Reinforcement Learning, S. Singh, P. Norvig, D. Cohn.● Reinforcement Learning Software:

– http://www-anw.cs.umass.edu/~rich/software.html– http://www.cse.msu.edu/rlr/domains.html

● Reinforcement Learning for Humanoid Robots–

● Frank Hoffman. http://www.nada.kth.se/kurser/kth/2D1431/02/index.html

http://www-anw.cs.umass.edu/~rich/book/the-book.html

http://www-anw.cs.umass.edu/~rich/software.html

http://www.cse.msu.edu/rlr/domains.html

Webinar-Comp Foundations: Total Comp Report

Generalization in Reinforcement Learning: Successful ...papers.nips.cc/paper/1109-generalization-in-reinforcement-learning... · Generalization in Reinforcement Learning: Successful

1 4180 and 4181 Precision Infrared Calibrators Sales Presentation Measure With Confidence New 4180 Series IR Calibrators

4180 Polo Towers Condominium Association Meeting

for high ReinfoRcement systems - kotaca.cz · ReinfoRcement systems rEiNforcEmENt systEm PyraPlEx ... and DBV data sheet "Reinforcement system steel and ... suant to EC2 6.2.2 and

Unbenannt-1 - AUDIUM · Test Report comp comp 3 , ! , comp 3 Air, , comp 3 Air Super AV 1-157

Skinner’s Behavioral Reinforcement Theory Positive Reinforcement Negative Reinforcement PunishmentExtinction Person repeats desired behaviors to gain a

Reinforcement Bridges2

Schedules of reinforcement. Schedules of Reinforcement Continuous reinforcement refers to reinforcement being administered to each instance of a response

index [] · index p 02—09 comp. 175 p 10—19 comp. 176 p 20—25 comp. 177 p 26—31 comp. 178 p 32—37 comp. 179 p 38—43 comp. 180 p 44—49 comp. 181 p 50—55 comp. 182 p

Optimized Path Planning in Reinforcement Learning by ... · Optimized Path Planning in Reinforcement Learning by Backtracking. Curr Tr Comp Sci & App 1(4)- 2019. CTCSA.MS.ID.000116

Week 4 Accounting Columbia University GSAS BIOT 4180

Bayesian Reinforcement Learning - mlg.eng.cam.ac.ukmlg.eng.cam.ac.uk/rowan/files/BayesianReinforcementLearning.pdf · Introduction Bayesian Reinforcement Learning Bayesian Reinforcement

Introduction to Technical Style TECM 4180 Dr. Lam

KM 100, KM 100 R, KM 110 R - M-Jardin.fr · 12 4180 025 1600 2 Ventilfeder Valve spring Ressort de soupape 13 4180 025 3000 2 Federteller Spring retainer plate Agrafe de ressort

Model 4180-12/4180EC Control/CommunicatorNo. 4180=12/4180EC . Control/Communicator ... Supplementary Connections for Grade A ... ture required for an effectii household fife/burglary

ECE.4180 Final Design

partsela.nethouse.ru3911 4010 270 430 18000 4180 5990 / 690 1890 2290 23X9 - 10 10

B2641B1D-0837-4180-A478-65452526A32C31200241_ZF_Powershift Trans_4 WG-92-98 TSC

4180 overcomers 2014 (f) lowres r r r

Scanned Image - spitalzalau.ro · Comp. hematologie Comp. Gatoenterologie Comp. Diabet Cardiologie dn care: Comp. Cardiologie TI Neonatologie din care Comp. Prematuri Comp. Tl Boli

Entrepreneurship in Biotechnology Columbia University Graduate School of Arts and Sciences BIOT 4180 Columbia University GSAS BIOT 4180

Reinforcement Learning Lecture Inverse Reinforcement Learningipvs.informatik.uni-stuttgart.de/mlr/wp-content/uploads/2017/07/09... · Reinforcement Learning Inverse Reinforcement

1067-4180-1-PB (1).pdf

Reinforcement learning (COMP-767) › ~dprecup › courses › RL › Lectures › 1-intro … · • Training experience: unlabelled data • What to learn: interesting associations

4180, 4181assets.fluke.com/manuals/418x____rgeng0000.pdf · 4180, 4181 Precision Infrared Calibrator ii Limited Warranty & Limitation of Liability Each product from Fluke Corporation,

ITIS/CS 4180/5180 Mobile App. Developmentsite.iugaza.edu.ps/wp-content/uploads/listview_customizedlistview.pdf · Mohamed Shehab, ITIS/CS 4180/5180 Simple ListView • The Android

Reinforcement Learning or Active Inference?karl/Reinforcement Learning or Active... · Reinforcement Learning or Active Inference? ... From the point of view of reinforcement learning

Sorø Hallen, Ringstedvej 20, 4180 Sorø Denmark - Weeblyoec-htm-freestyle.weebly.com/uploads/9/7/4/3/97430796/katalog... · Sorø Hallen, Ringstedvej 20, 4180 Sorø Denmark 22nd

Guide to Historical Reinforcement - SRIA Concrete 2017 Historical Reinforcement... · Guide to Historical Reinforcement ... reinforcement material properties to use when checking

Blue – comp red - ext. blue – comp red - ext blue – comp red - ext

Case No COMP/M.4180 – Gaz de France/Suez REGULATION (EC

GO Comp Comp

Continuous hoops for transverse reinforcement of ... · Continuous hoops for transverse reinforcement of ... transverse reinforcement details for the ... Fig. 1 Transverse reinforcement

Final Image Queationnaire. 4180 20839