MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • 滑动平均视角下的权重衰减和学习率
  • 生成扩散模型漫谈(三十一):预测数...
  • Muon优化器指南:快速上手与关键细节
  • AdamW的Weight RMS的...
  • n个正态随机数的最大值的渐近估计
  • 流形上的最速下降:5. 对偶梯度下降
  • 低精度Attention可能存在有...
  • MuP之上:1. 好模型的三个特征
  • 随机矩阵的谱范数的快速估计
  • DiVeQ:一种非常简洁的VQ训练方案

COMMENTS

  • Iris_16: 了解了,感谢回答
  • 董振晨: 大佬您好,想和您交流下meanflow的推理效果
  • Zhancun: Get! 最近Vincent Sitzmann对video g...
  • 苏剑林: 我知道,但你pretrain不是已经反超了吗,所以算是正常了。...
  • Mornmirror: 实验3关闭了warmup,但还是很奇怪
  • Mornmirror: pretrain的实验是from scratch的
  • baolinzheng: 不好意思,写错了,是后向。
  • karma: 双向注意力在理论上可能不满秩(如所有行相同),但在实际模型中,...
  • zzh_felix: 非常感谢苏老师的精彩讲解!请问在递归生成的时候,\sigma_...
  • wednesday: 谢谢老师~这里懂了,有时候逻辑上知道,但对应到数学就老是不知道...

USERLOGIN

  • 登录
科学空间|Scientific Spaces
  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

归档

2025年 (共14篇)

  • 11月19日: Muon优化器指南:快速上手与关键细节 (18)
  • 11月03日: 流形上的最速下降:5. 对偶梯度下降 (4)
  • 09月15日: 重新思考学习率与Batch Size(三):Muon (0)
  • 08月21日: 流形上的最速下降:4. Muon + 谱球面 (4)
  • 08月08日: 流形上的最速下降:3. Muon + Stiefel (5)
  • 08月06日: 流形上的最速下降:2. Muon + 正交 (2)
  • 07月12日: QK-Clip:让Muon在Scaleup之路上更进一步 (60)
  • 06月23日: 通过msign来计算奇异值裁剪mclip(下) (0)
  • 06月13日: msign的导数 (7)
  • 06月07日: 通过msign来计算奇异值裁剪mclip(上) (0)
  • 06月05日: msign算子的Newton-Schulz迭代(下) (7)
  • 05月11日: msign算子的Newton-Schulz迭代(上) (9)
  • 03月24日: 高阶MuP:更简明但更高明的谱条件缩放 (18)
  • 02月27日: Muon续集:为什么我们选择尝试Muon? (55)

2024年 (共1篇)

  • 12月10日: Muon优化器赏析:从向量到矩阵的本质跨越 (55)

科学空间

微信打赏

科学空间

支付宝打赏

因为网站后台对打赏并无记录,因此欢迎在打赏时候备注留言。
你还可以点击这里或在下方评论区留言来告知你的建议或需求。

你也许还对下面的内容感兴趣

  • HSIC简介:一个有意思的判断相关性的思路
  • 月全食刚过...
  • BN究竟起了什么作用?一个闭门造车的分析
  • 我是一个费曼迷
  • Tiger:一个“抠”到极致的优化器
  • 重温SSM(二):HiPPO的一些遗留问题
  • 旋转的弹簧将如何伸长(2)?
  • 从费马大定理谈起(十一):有理点与切割线法
  • [问题解答]双曲线上的最短距离
  • 线性Attention的探索:Attention必须有个Softmax吗?
8695416

October 13th, 2018

写一篇BERT的?应该很多人都想弄明白…

回复评论
苏剑林 发表于 October 13th, 2018

BERT是什么?

回复评论
丁鹏 发表于 October 13th, 2018

BERT是谷歌最新发表的论文,横扫11项NLP任务记录,苏神赶紧解读一下。论文地址:https://arxiv.org/pdf/1810.04805.pdf

回复评论
苏剑林 发表于 October 13th, 2018

刚看到新闻,没觉得有什么好写的。就是原来是attention模型,层数加深,预训练做得更充分了...

就好比前几天的BigGAN,效果也很火爆,也没有什么好说的,基本是硬件堆起来的。

回复评论
coderaBruce

July 19th, 2025

苏神,你的订阅功能好像bug啦

回复评论
苏剑林 发表于 July 19th, 2025

怎么个bug法?我好像没测出来...

回复评论
gaoyiming 发表于 September 4th, 2025

点进去之后是一堆乱码。

回复评论
苏剑林 发表于 September 5th, 2025

你是指xml代码?那不是乱码,feed就是xml格式,你要自己找工具订阅。

回复评论
取消回复

1. 可以使用LaTeX代码,点击“预览效果”可查看效果;
2. 可以通过点击评论楼层编号来引用该楼层;
3. 网站可能会有点卡,如非确认评论失败,请不要重复点击提交。

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前32岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 网站 梯度 概率 矩阵 转载 优化器 微分方程 分析 天象 深度学习 积分 python 扩散 力学 无监督 几何 节日 生活 文本生成 数论

    随机文章

    • 意犹未尽——继续光学曲线
    • 【理解黎曼几何】3. 测地线
    • SquarePlus:可能是运算最简单的ReLU光滑近似
    • 抛开约束,增强模型:一行代码提升albert表现
    • 对齐全量微调!这是我看过最精彩的LoRA改进(一)
    • 【NASA每日一图】春分时刻的土星
    • 注意力和Softmax的两点有趣发现:鲁棒性和信息量
    • 《新理解矩阵3》:行列式的点滴
    • 【翻译】星空之夜:夏季恒星的色彩
    • 费曼积分法(5):欧拉数学的传承

    最近评论

    • Iris_16: 了解了,感谢回答
    • 董振晨: 大佬您好,想和您交流下meanflow的推理效果
    • Zhancun: Get! 最近Vincent Sitzmann对video generation的分享(知乎上...
    • 苏剑林: 我知道,但你pretrain不是已经反超了吗,所以算是正常了。目前不正常的是sft,我猜是不是...
    • Mornmirror: 实验3关闭了warmup,但还是很奇怪
    • Mornmirror: pretrain的实验是from scratch的
    • baolinzheng: 不好意思,写错了,是后向。
    • karma: 双向注意力在理论上可能不满秩(如所有行相同),但在实际模型中,应该总是满秩的吧
    • zzh_felix: 非常感谢苏老师的精彩讲解!请问在递归生成的时候,\sigma_t是不是可以自己调整呢?
    • wednesday: 谢谢老师~这里懂了,有时候逻辑上知道,但对应到数学就老是不知道到底要什么,尤其是概率分布这一块...

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • Mathor's blog
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • EAI猩球
    • 文举的博客
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2025 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。