当前位置:网站首页 > 探索 > 模块化主体:拥有“多重自我”帮助探索和适应复杂多变的世界 | PNAS速递

模块化主体:拥有“多重自我”帮助探索和适应复杂多变的世界 | PNAS速递

模块化主体:拥有“多重自我”帮助探索和适应复杂多变的世界 | PNAS速递强化学习模拟自适应主体

斑图链接:

在不断变化的环境中满足各种相互冲突的需求对于任何适应性主体都是一个基本挑战。近日发表于 PNAS 的这篇文章展示了以模块化的方式将主体设计为子主体的集合,每个子主体专门应对一种独立的需求,从而有力地增强了主体满足总体需求的能力。

作者们使用深度强化学习来研究一个生物学相关的多目标任务:持续维持一组生理变量的稳态。然后在各种环境中进行模拟,并比较模块化主体相对于标准的单一主体(即,旨在使用单一的总体成功度量以综合方式满足所有需求的主体)的表现。

模拟显示,模块化主体 a)表现出一种内在的和涌现的探索形式,而不是由外在强加的探索;b)对非平稳环境中的变化具有强大的鲁棒性,c)随着相互冲突的目标数量的增加,其维持稳态的能力可优雅地扩展。支持性分析表明,对不断变化的环境和日益增加的需求的鲁棒性,来自于模块化体系结构所提供的内在探索和表征高效性。

这些结果表明,行为主体适应复杂变化环境的规范性原则,也可以解释为什么人类长期以来被描述为由“多重自我”组成。

discovery探索下载_探索和_探索星球

图1. 模块化与单一主体的对比示意图。c展示了自适应主体维持稳态的任务,主体在网格世界中移动,搜索可以补充其内部统计信息,获得不同资源的密度(黄色),之后每个模块分别给出行动建议。

discovery探索下载_探索星球_探索和

图2. 具有固定资源位置的环境中单一主体与多模块主体的在维持稳态上的性能对比。a)随着时间推移,主体随机移动的步长下降;b)单一主体可以通过学习实现动态平衡;c)使用四个退火方案进行测试;d)单一主体与模块化主体学子过程中的平均状态曲线,插图对应了不同区域状态值与设定值的差,可以看到模块化主体更快的收敛到定点,说明其维持稳态的能力更好;e)不同退火步骤时的稳态差值,模块化主体表现更好;f)消融实验( ablation experiment)测试的结果,内在探索影响模块化主体,其中行动只有当某个特定模块采取其首选操作发生改变。这使得模块化主体依赖于退火,表明内在探索是作为外在探索被重新引入的。

编译|郭瑞东

AI+Science 读书会

详情请见:

上一篇: 南极冰盖最高点上的科研故事
下一篇: 专题十中外近代化探索历程.ppt 11页

为您推荐

发表评论