Skip to content

咨询专家数量 #5

@xauat-liushipeng

Description

@xauat-liushipeng

非常感谢作者们的杰出工作,但阅读论文后有些疑问,希望作者能给出解答。

1.有没有尝试更多专家情况?论文中表明理论上K<<E会更好,但是实际实验最佳配置中只是E=4,K=2。
2.另外表8中的config 5,MoE权重还是1.5吗,从表格上来看感觉0.5或1.0可能会更好?是否是填写错误呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions