归档

2025年 (共14篇)

11月19日: Muon优化器指南：快速上手与关键细节 (18)
11月03日: 流形上的最速下降：5. 对偶梯度下降 (4)
09月15日: 重新思考学习率与Batch Size（三）：Muon (0)
08月21日: 流形上的最速下降：4. Muon + 谱球面 (4)
08月08日: 流形上的最速下降：3. Muon + Stiefel (5)
08月06日: 流形上的最速下降：2. Muon + 正交 (2)
07月12日: QK-Clip：让Muon在Scaleup之路上更进一步 (60)
06月23日: 通过msign来计算奇异值裁剪mclip（下） (0)
06月13日: msign的导数 (7)
06月07日: 通过msign来计算奇异值裁剪mclip（上） (0)
06月05日: msign算子的Newton-Schulz迭代（下） (7)
05月11日: msign算子的Newton-Schulz迭代（上） (9)
03月24日: 高阶MuP：更简明但更高明的谱条件缩放 (18)
02月27日: Muon续集：为什么我们选择尝试Muon？ (55)

2024年 (共1篇)

12月10日: Muon优化器赏析：从向量到矩阵的本质跨越 (55)

你也许还对下面的内容感兴趣

8695416

October 13th, 2018

写一篇BERT的？应该很多人都想弄明白…

回复评论

苏剑林发表于 October 13th, 2018

BERT是什么？

回复评论

丁鹏发表于 October 13th, 2018

BERT是谷歌最新发表的论文，横扫11项NLP任务记录，苏神赶紧解读一下。论文地址：https://arxiv.org/pdf/1810.04805.pdf

回复评论

苏剑林发表于 October 13th, 2018

刚看到新闻，没觉得有什么好写的。就是原来是attention模型，层数加深，预训练做得更充分了...

就好比前几天的BigGAN，效果也很火爆，也没有什么好说的，基本是硬件堆起来的。

回复评论

coderaBruce

July 19th, 2025

苏神，你的订阅功能好像bug啦

回复评论

苏剑林发表于 July 19th, 2025

怎么个bug法？我好像没测出来...

回复评论

gaoyiming 发表于 September 4th, 2025

点进去之后是一堆乱码。

回复评论

苏剑林发表于 September 5th, 2025

你是指xml代码？那不是乱码，feed就是xml格式，你要自己找工具订阅。

回复评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

归档

2025年 (共14篇)

2024年 (共1篇)

你也许还对下面的内容感兴趣

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接