Gumbel MuZero和 MuZero在不同模拟次数下,在四个环境(PongNoFrameskip-v4, MsPacmanNoFrameskip-v4, Gomoku和 LunarLanderContinuous-v2)上的基线结果: Stochastic MuZero和 MuZero在具有不同随机性程度的2048环境(num_chances=2/5) 上的基线结果: 以下是关于 MCTS ...