强化学习-族谱新闻-族谱网

强化学习

2020-10-16

出处：族谱网

作者：阿族小谱

浏览:598次

转发:0次

评论:0

导论基本的强化学习模型包括：环境状态的集合S{displaystyleS};动作的集合A{displaystyleA};在状态之间转换的规则；规定转换后“即时奖励”的规则；描述主体能够观察到什么的

导论

基本的强化学习模型包括：

环境状态的集合S{\displaystyle S};

动作的集合A{\displaystyle A};

在状态之间转换的规则；

规定转换后“即时奖励”的规则；

描述主体能够观察到什么的规则。

规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中，主体被假设为可以观察现有的环境状态，这种情况称为“完全可观测”（full observability），反之则称为“部分可观测”（partial observability）。有时，主体被允许的动作是有限的（例如，你使用的钱不能多于你所拥有的）。

强化学习的主体与环境基于离散的时间步长相作用。在每一个时间t{\displaystyle t}，主体接收到一个观测ot{\displaystyle o_{t}}，通常其中包含奖励rt{\displaystyle r_{t}}。然后，它从允许的集合中选择一个动作at{\displaystyle a_{t}}，然后送出到环境中去。环境则变化到一个新的状态st+1{\displaystyle s_{t+1}}，然后决定了和这个变化(st,at,st+1){\displaystyle (s_{t},a_{t},s_{t+1})}相关联的奖励rt+1{\displaystyle r_{t+1}}。强化学习主体的目标，是得到尽可能多的奖励。主体选择的动作是其历史的函数，它也可以选择随机的动作。

将这个主体的表现和自始自终以最优方式行动的主体相比较，它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动，主体必须根据它的长时间行动序列进行推理：例如，要最大化我的未来收入，我最好现在去上学，虽然这样行动的即时货币奖励为负值。

因此，强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用，包括机器人控制、电梯调度、电信通讯、双陆棋和西洋跳棋。

强化学习的强大能来源于两个方面：使用样本来优化行为，使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中：

模型的环境未知，且解析解不存在；

仅仅给出环境的模拟模型（模拟优化方法的问题）

从环境中获取信息的唯一办法是和它互动。前两个问题可以被考虑为规划问题，而最后一个问题可以被认为是genuine learning问题。使用强化学习的方法，这两种规划问题都可以被转化为机器学习问题。

免责声明：以上内容版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。感谢每一位辛勤著写的作者，感谢每一位的分享。

——— 没有了 ———