我在翻译强化学习的文章时,发现training 被翻译器翻译成培训。
比如这篇文章的摘要:
We propose a method for meta-learning reinforcement learning algorithms by searching over the space of computational graphs which compute the loss function for a value-based model-free RL agent to optimize. The learned algorithms are domain-agnostic and can generalize to new environments not seen during training. Our method can both learn from scratch and bootstrap off known existing algorithms, like DQN, enabling interpretable modifications which improve performance. Learning from scratch on simple classical control and gridworld tasks, our method rediscovers the temporal-difference (TD) algorithm. Bootstrapped from DQN, we highlight two learned algorithms which obtain good generalization per- formance over other classical control tasks, gridworld type tasks, and Atari games. The analysis of the learned algorithm behavior shows resemblance to recently pro- posed RL algorithms that address overestimation in value-based methods.
在没有语料库的情况下被翻译成:
我们提出了一种元学习强化学习算法的方法,通过搜索计算图的空间来计算基于值的无模型RL智能体的损失函数来进行优化。学习的算法是领域不可知论,可以概括到新的环境,没有看到在培训。我们的方法既可以从头开始学习,也可以引导现有的算法(如DQN), 支持可解释的修改,从而提高性能。从零开始学习简单的经典控制和网格世界任务,我们的方法重新发现了时差(Td)算法。从DQN出发,重点介绍了两个学习的算法,它们比其他经典的控制任务、网格世界型任务和Atari游戏具有良好的泛化性能。对学习的算法行为的分析表明,与最近提出的解决基于值方法中过高估计的RL算法相似。
程序把training翻译成培训,导致这段话“The learned algorithms are domain-agnostic and can generalize to new environments not seen during training.”翻译有问题:学习的算法是领域不可知论,可以概括到新的环境,没有看到在培训。
我把"training | 训练" 平行词汇加到我创建的语料库之后,就得到了如下结果。
我们提出了一种元学习强化学习算法,通过搜索计算图的空间,计算基于值的无模型RL Agent的损失函数来进行优化。所学习的算法与域无关,可以推广到训练期间未见的新环境中。我们的方法既可以从零开始学习,也可以从已知的现有算法(如DQN)中进行引导,从而实现可解释的修改 ,从而提高性能。从零开始学习简单的经典控制和网格世界任务, 我们的方法重新发现了时差(TD)算法。我们从DQN出发,重点介绍了两种学习算法,它们比其他经典控制任务(网格世界型任务和Atari游戏)获得了良好的泛化性能。对学习算法行为的分析表明,与最近提出的解决基于值方法中过高估计的RL算法相似。
这段话的最终结果为:所学习的算法与域无关,可以推广到训练期间未见的新环境中。
真的很厉害!