归档
2025年 (共14篇)
- 11月19日: Muon优化器指南:快速上手与关键细节 (18)
- 11月03日: 流形上的最速下降:5. 对偶梯度下降 (4)
- 09月15日: 重新思考学习率与Batch Size(三):Muon (0)
- 08月21日: 流形上的最速下降:4. Muon + 谱球面 (4)
- 08月08日: 流形上的最速下降:3. Muon + Stiefel (5)
- 08月06日: 流形上的最速下降:2. Muon + 正交 (2)
- 07月12日: QK-Clip:让Muon在Scaleup之路上更进一步 (60)
- 06月23日: 通过msign来计算奇异值裁剪mclip(下) (0)
- 06月13日: msign的导数 (7)
- 06月07日: 通过msign来计算奇异值裁剪mclip(上) (0)
- 06月05日: msign算子的Newton-Schulz迭代(下) (7)
- 05月11日: msign算子的Newton-Schulz迭代(上) (9)
- 03月24日: 高阶MuP:更简明但更高明的谱条件缩放 (18)
- 02月27日: Muon续集:为什么我们选择尝试Muon? (55)
2024年 (共1篇)
- 12月10日: Muon优化器赏析:从向量到矩阵的本质跨越 (55)










October 13th, 2018
写一篇BERT的?应该很多人都想弄明白…
BERT是什么?
BERT是谷歌最新发表的论文,横扫11项NLP任务记录,苏神赶紧解读一下。论文地址:https://arxiv.org/pdf/1810.04805.pdf
刚看到新闻,没觉得有什么好写的。就是原来是attention模型,层数加深,预训练做得更充分了...
就好比前几天的BigGAN,效果也很火爆,也没有什么好说的,基本是硬件堆起来的。
July 19th, 2025
苏神,你的订阅功能好像bug啦
怎么个bug法?我好像没测出来...
点进去之后是一堆乱码。
你是指xml代码?那不是乱码,feed就是xml格式,你要自己找工具订阅。