标签 MuP 下的文章 - 科学空间|Scientific Spaces

21 Oct

MuP之上：1. 好模型的三个特征

By 苏剑林 | 2025-10-21 | 17541位读者 | 引用

不知道大家有没有发现一个有趣的细节，Muon和MuP都是“Mu”开头，但两个“Mu”的原意完全不一样，前者是“MomentUm Orthogonalized by Newton-Schulz”，后者是“Maximal Update Parametrization”，可它们俩之间确实有着非常深刻的联系。也就是说，Muon和MuP有着截然不同的出发点，但最终都走向了相同的方向，甚至无意间取了相似的名字，似乎真应了那句“冥冥中自有安排”。

言归正传。总之，笔者在各种机缘巧合之下，刚好同时学习到了Muon和MuP，这大大加深了笔者对模型优化的理解，同时也让笔者开始思考关于模型优化更本质的原理。经过一段时间的试错，算是有些粗浅的收获，在此跟大家分享一下。

写在前面

按照提出时间的先后顺序，是先有MuP再有Muon，但笔者的学习顺序正好反过来，先学习了Muon然后再学习MuP，事后来看，这也不失为一个不错的学习顺序。

点击阅读全文...

分类：信息时代标签：优化, 优化器, 尺度定律, MuP 阅读全文 2 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

MuP之上：1. 好模型的三个特征

写在前面

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接