摘 要:强化学习能够在动态复杂环境中实现自主学习,这使其在法律、医学、金融等领域有着广泛应用。但强化学习仍面临着全局状态空间不可观测、对奖励函数强依赖和因果关系不确定等诸多问题,导致其可解释性弱,严重影(试读)...