用于强化学习的排列不变神经网络:本文证明了强化学习具有这一特点感官替代
事实证明,大脑中的神经系统有能力改变其结构,以适应外部环境的变化大脑中突触和神经元之间的联系,在学习和经验的影响下,可以建立新的联系
因此,感官替代的天赋也存在于人类技能树中例如,一些天生失明的人可以通过将图像转换成声音来学习感知人体轮廓形状的能力
如果人工智能有这种能力,它也可以像蝙蝠和海豚一样用耳朵通过声音和回声进行交流参见我们周围的世界
最近,一篇来自谷歌大脑的题为作为变压器的感觉神经元:用于强化学习的排列不变神经网络:本文证明了强化学习具有这一特点,感官替代能力
此外,即使输入序列在一个事件中随机排列了几次,系统仍然可以执行其任务。
1.认证过程
现代深度学习系统通常不能适应感觉输入的随机重新排序,除非模型被重新训练或者用户为模型校正输入顺序可是,元学习技术可以帮助模型适应这种变化例如自适应权重,Hebbian学习和基于模型的方法
在本地接收信息的同时,这些独立的感觉神经网络模块也在不断地广播和输出信息参照Set Transformer架构,一种注意力机制将这些信息组合成一个全局潜在代码,然后将其转换成代理的动作空间注意机制可以看作是神经网络自适应加权的一种形式在这种情况下,它允许以任何随机顺序处理任何数量的感官输入
如上所示,即使以重新排列的顺序给了pong agent一小部分屏幕,它也可以继续工作。
另一方面,鼓励系统学习的被替换的观察空间的一致表示将使政策更加稳健和更加一般化研究表明,即使添加了含有噪声或冗余信息的其他输入通道,系统也可以继续运行,而无需额外的训练在视觉环境中,即使只给它从屏幕中随机选择的少量块,当它被测试时,如果给它更多的块,系统可以使用额外的信息来更好地执行
注释:方法概述。
上图中的AttentionNeuron是一个独立的层,其中每个感觉神经元只能访问乱观察一部分结合智能体之前的动作,每个神经元使用一个共享函数,然后独立生成信息
注释:符号列表。
注: carpoleswangupharder中的替换不变量代理。
在上面的演示中,用户可以随时重新排列五个输入的顺序,并观察代理如何适应新的输入顺序。
注释:汽车操纵杆测试。
注:替换不变输出。
注:处理数量不明的额外噪声通道。
在没有额外训练的情况下,代理接收15个输入信号,按照重排后的顺序排列,其中10个是纯高斯噪声,另外5个是来自环境的实际观察结果像前面的演示一样,用户可以重新排列15个输入的顺序,并观察代理如何适应新的输入顺序
注:测试场景中注意神经元层输出的二维嵌入。
卡拉辛的基本任务,修改后的洗屏任务。
左边的是人类的视觉观察到的人类会发现用重新排列观察的方式驾驶是非常困难的,因为人类没有经常接触到这样的任务,就像前面提到的 "倒骑自行车 "的例子
2. 讨论以及未来
在展开的工作中重新梳理观测结果
通过打乱agent排序,甚至是不完整的观测信息,可以驱动它解释每个局部感觉输入的意义以及它们与全局的关系,这在目前的许多应用中都有实际用途例如,当被应用于机器人时,可以避免由于交叉布线或复杂的动态输入—输出映射而产生的错误类似于CartPole实验的设置,加上额外的噪声通道,可以使一个收到成千上万的噪声输入通道的系统识别出具有相关信息的小的通道子集
另一个限制是,排列组合不变的特性只适用于输入,而不适用于输出虽然观测结果的排序可以以再次打乱,但行动的排序却不能为了使置换不变的输出发挥作用,每个环节都需要来自环境的反馈以便学习自身和环境之间的关系,包括奖励信息
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。