[强化学习] 基本概念与常用表达

本文阅读量:   次

水一下基本概念,顺便记一下各种函数和符号。


I. 基本概念

一、强化学习的基本要素

1. 策略 Policy

policy 决定了 agent 在面对观测到的 state 时将如何决定 action

2. 奖励 Reward

3. 估值 Value

4. 环境 Environment