非常感谢作者们的杰出工作,但阅读论文后有些疑问,希望作者能给出解答。 1.有没有尝试更多专家情况?论文中表明理论上K<<E会更好,但是实际实验最佳配置中只是E=4,K=2。 2.另外表8中的config 5,MoE权重还是1.5吗,从表格上来看感觉0.5或1.0可能会更好?是否是填写错误呢?