MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • msign的导数
  • 通过msign来计算mclip(奇...
  • msign算子的Newton-Sc...
  • 等值振荡定理:最优多项式逼近的充要条件
  • 生成扩散模型漫谈(三十):从瞬时速...
  • MoE环游记:5、均匀分布的反思
  • msign算子的Newton-Sc...
  • Transformer升级之路:2...
  • 一道概率不等式:盯着它到显然成立为止!
  • SVD的导数

COMMENTS

  • rpsun: 老师您好,最近在自己的任务上尝试了muon,甚至只修改了学习率...
  • 盏一: 我之前做的笔记:Q: 公式 (14) 的理解.A: 首先基于 ...
  • 盏一: 哦哦哦 你是说 $\exp nB$ 是正交矩阵! 并不是说 B.
  • 盏一: 呃, 是我脑子乱了... 忘了 $\exp(0) = I$. ...
  • 盏一: 苏神, 请教一下> 并且还可以证明它一定是正交矩阵是怎么证明的...
  • sk: 请问公式14是怎么得出来的?
  • tll1945tll1937: 真心实意的向大家请教问题:看了文章“对齐全量微调!这是我看过最...
  • oYo_logan: [comment=27017]苏剑林[/comment]苏神,...
  • z123: 在参数矩阵较多的CNN小模型上,Muon会明显慢于Adam,这...
  • dry: 苏神好,一直有个疑问,ReFlow构建的ODE是$dx_t/d...

USERLOGIN

  • 登录

科学空间|Scientific Spaces

  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

找不到相关内容。


你也许对下面的内容感兴趣

  • 人不能忘本|我的数学竞赛题
  • 钱学森:人生书写时代
  • WGAN的成功,可能跟Wasserstein距离没啥关系
  • 费曼路径积分思想的发展(四)
  • 从费马大定理谈起(八):艾森斯坦整数
  • 【中文分词系列】 1. 基于AC自动机的快速分词
  • 逻辑推理:拿了多少分(PuzzleUp)
  • 费曼讲座视频分享
  • 首次报名参加天文竞赛,期待中...
  • Performer:用随机投影将Attention的复杂度线性化

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前32岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 网站 概率 梯度 转载 微分方程 矩阵 天象 分析 深度学习 积分 python 优化器 力学 无监督 扩散 几何 节日 生活 文本生成 数论

    随机文章

    • 让人惊叹的Johnson-Lindenstrauss引理:理论篇
    • 你所没有思考过的平行线问题
    • 【语料】2500万中文三元组!
    • 为节约而生:从标准Attention到稀疏Attention
    • [欧拉数学]素数倒数之和
    • 【中文分词系列】 2. 基于切分的新词发现
    • 植物拯救了地球,阻止寒冷灭绝之灾!
    • 科学空间添加新域名kexue.fm
    • OCR技术浅探:7. 语言模型
    • 最小熵原理(二):“当机立断”之词库构建

    最近评论

    • rpsun: 老师您好,最近在自己的任务上尝试了muon,甚至只修改了学习率,同时不加区分地对所有二维以上的...
    • 盏一: 我之前做的笔记:Q: 公式 (14) 的理解.A: 首先基于 [定理 5](https://b...
    • 盏一: 哦哦哦 你是说 $\exp nB$ 是正交矩阵! 并不是说 B.
    • 盏一: 呃, 是我脑子乱了... 忘了 $\exp(0) = I$. 所以只要 $\Vert B^T+...
    • 盏一: 苏神, 请教一下> 并且还可以证明它一定是正交矩阵是怎么证明的. 我本来以为隐式利用了 $\V...
    • sk: 请问公式14是怎么得出来的?
    • tll1945tll1937: 真心实意的向大家请教问题:看了文章“对齐全量微调!这是我看过最精彩的LoRA改进(二)”,我实...
    • oYo_logan: [comment=27017]苏剑林[/comment]苏神,想请教一下,我理解在一个batc...
    • z123: 在参数矩阵较多的CNN小模型上,Muon会明显慢于Adam,这方面有什么优化提速的方案吗?
    • dry: 苏神好,一直有个疑问,ReFlow构建的ODE是$dx_t/dt=x_1-x_0$,为什么这并...

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • ph4ntasy 饭特稀
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • Mathor's blog
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • Blog by Eacls
    • EAI猩球
    • 文举的博客
    • 用代码打点酱油
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2025 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。