摘 要:动态三维迷宫是较为困难的、具有不确定性和不完全信息的强化学习任务环境,使用常规奖励函数在此环境中训练任务,速度缓慢甚至可能无法完成。为解决利用强化学习在动态迷宫中寻找多目标的问题,提出一种基于事(试读)...