你好!欢迎访问od体育app官网下载ios-平台登录入口官方网站!

7*24小时咨询热线15931709220

od体育app官网下载ios-平台登录入口为客户提供全面、可靠、实用的全自动吹瓶设备及解决方案

OD体育网页在线
联系我们
联系人: 杨经理
电    话: 0317-7696987
传    真: 杨经理
邮    编: 061600
邮    箱: 1002168888@qq.com
服务热线: 0317-7696987
OD体育网页在线
您所在的位置:首页 > OD体育网页在线
月之暗面Kimi推出Moonlight:30 亿160 亿参数混合专家模型
更新时间:2025-04-20 02:09:10 作者: od体育app官网下载ios

  IT之家 2 月 24 日音讯,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 练习”的新技能陈述,并宣告推出“Moonlight”:一个在 Muon 上练习的 30 亿 / 160 亿参数混合专家模型(MoE)。运用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下完成了更好的功能,然后提升了帕累托功率鸿沟。

  月之暗面称,团队发现 Muon 优化器可通过增加权重衰减、细心调整每个参数的更新起伏等技能进行扩展,并具有如下亮点:

  这些技能使得 Muon 可以在大规模练习中开箱即用,无需进行超参数调优。扩展规律试验标明,与核算最优练习的 AdamW 比较,Muon 完成了约 2 倍的核算功率。

  咱们的模型不只打破了当时的 Pareto 前沿,还在练习所需的 FLOP 数大起伏削减的情况下,达到了比以往模型更优的功能。 咱们开源了一个分布式版别的 Muon 完成,它在内存运用和通讯功率上都进行了优化。一起,咱们也发布了预练习模型、通过指令调优的模型以及中心练习检查点,旨在为未来的研讨供给支撑。