族谱网 头条 人物百科

强化学习

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:598
转发:0
评论:0
导论基本的强化学习模型包括:环境状态的集合S{displaystyleS};动作的集合A{displaystyleA};在状态之间转换的规则;规定转换后“即时奖励”的规则;描述主体能够观察到什么的

导论

基本的强化学习模型包括:

环境状态的集合S{\displaystyle S};

动作的集合A{\displaystyle A};

在状态之间转换的规则;

规定转换后“即时奖励”的规则;

描述主体能够观察到什么的规则。

规则通常是随机的。主体通常可以观察即时奖励和最后一次转换。在许多模型中,主体被假设为可以观察现有的环境状态,这种情况称为“完全可观测”(full observability),反之则称为“部分可观测”(partial observability)。有时,主体被允许的动作是有限的(例如,你使用的钱不能多于你所拥有的)。

强化学习的主体与环境基于离散的时间步长相作用。在每一个时间t{\displaystyle t},主体接收到一个观测ot{\displaystyle o_{t}},通常其中包含奖励rt{\displaystyle r_{t}}。然后,它从允许的集合中选择一个动作at{\displaystyle a_{t}},然后送出到环境中去。环境则变化到一个新的状态st+1{\displaystyle s_{t+1}},然后决定了和这个变化(st,at,st+1){\displaystyle (s_{t},a_{t},s_{t+1})}相关联的奖励rt+1{\displaystyle r_{t+1}}。强化学习主体的目标,是得到尽可能多的奖励。主体选择的动作是其历史的函数,它也可以选择随机的动作。

将这个主体的表现和自始自终以最优方式行动的主体相比较,它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动,主体必须根据它的长时间行动序列进行推理:例如,要最大化我的未来收入,我最好现在去上学,虽然这样行动的即时货币奖励为负值。

因此,强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用,包括机器人控制、电梯调度、电信通讯、双陆棋和西洋跳棋。

强化学习的强大能来源于两个方面:使用样本来优化行为,使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中:

模型的环境未知,且解析解不存在;

仅仅给出环境的模拟模型(模拟优化方法的问题)

从环境中获取信息的唯一办法是和它互动。前两个问题可以被考虑为规划问题,而最后一个问题可以被认为是genuine learning问题。使用强化学习的方法,这两种规划问题都可以被转化为机器学习问题。


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 学习
词源学习最早可追溯至孔子在《论语》中所言:“学而时习之,不亦说乎?”意思是,学了之后及时、经常地进行温习和实习,不是一件很愉快的事情吗?很明显,学习这一复合名词,就是出自孔子的这一名言。按照孔子和其他中国古代教育家的看法,“学”就是闻、见与模仿,是获得信息、技能,主要是指接受感官信息(图像信息、声音信息及触觉味觉等等信息)与书本知识,有时还包括思想的含义。“学”是自学或有人教你学。“习”是巩固知识、技能的行为,一般有三种含义:温习、实习、练习。“学”偏重于思想意识的理论领域,“习”偏重于行动实习的实践方面。学习就是获得知识,形成技能,获得适应环境改变环境的能力的过程。实质上就是学、思、习、行的总称。学是指知识和经验的累积,习是指知识和经验的实践。学属知,习属行。中国大儒王阳明曾提倡知行合一。荀子在《劝学》中写,“君子曰:学不可以已。”意思是,学习不可以停止,一定要持之以恒。行为主义心理学的...
· 秋未龟鳖卵强化孵化和稚龟速养
甲鱼、鳄龟、巴西龟、中国乌龟等两栖类,一般8月份以前所产卵为有效卵。9月份以后所产卵由于自然界气温、干湿度变化无常,秋后天敌活动增强,多数夭折死亡。这批龟卵占全年产卵量的20%左右,弃之损失太大。利用温室饲养青虾捕捞后的空池,把当年9月份所产龟鳖卵收集起来强化孵化出稚龟鳖,只用一年时间就能把这批晚弱稚龟强化孵化养大,收到在自然环境中饲养三年才能达到的效益。一、收集后期卵,强化孵化考虑到孵化过程中对温湿度要求比较严,孵化须用温室,最好用恒温箱。恒温恒湿箱采用规格为65x65x65(CHl)、功率为440瓦,温度控制在33±1℃,相对湿度保持在81%-89%。箱内安置4-5层隔板,在每层隔板上放置一个搪瓷盘作为孵化盘。在盘内铺垫4-5cm厚沙于。约经50-70天时间(如龟卵孵化积温达到4.2万℃时),稚龟即可破壳而出。在出壳前两天,将孵化盘移至温室内,让其自然出壳,能获得较好孵化效果。二、搭建...
· 细说历史——强化皇权与统治政策的转变
?武帝是一个权力欲望极强的人,大臣汲黯曾形容武帝“内多欲而外施仁义”。要想实现远大的抱负,武帝必须确保至高无上的权力,他的命令也必须得到贯彻执行。汉初,丞相对皇权起到很大制约作用。从元朔年间开始,武帝任命出身低微、才能平庸的人出任丞相,使丞相无法干预皇帝的决策。但在制度层面,丞相仍然拥有很大权力,依然对皇权构成威胁。武帝决心收夺丞相权力,想到的办法是利用内朝官来分散丞相的职权。汉代的官僚可以划分为两大系统。其中一类官员主要为皇帝的日常起居服务,具有很强的私属性质,这些官员大多供职于宫廷,故被称为“内朝官”。另外一类官员主要负责国家的行政管理,由丞相领导,在宫廷外的衙署办公,被称为“外朝官”。在内朝官少府的属吏中,有一类专门负责皇帝生活起居事务的官员,他们的官职均带有“尚”字,如尚食、尚卧、尚浴、尚衣等等,统称为“六尚”。其实这类官职远不止六种,六尚只是一种泛称,这与“九卿”的称法十分类似。...
· 学习曲线
参考文献参见经验学习曲线学习人口自然增长率
· 学习书法

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信