MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • 让炼丹更科学一些(二):将结论推广...
  • 滑动平均视角下的权重衰减和学习率
  • 生成扩散模型漫谈(三十一):预测数...
  • Muon优化器指南:快速上手与关键细节
  • AdamW的Weight RMS的...
  • n个正态随机数的最大值的渐近估计
  • 流形上的最速下降:5. 对偶梯度下降
  • 低精度Attention可能存在有...
  • MuP之上:1. 好模型的三个特征
  • 随机矩阵的谱范数的快速估计

COMMENTS

  • 岁月如书: qwen团队的gated attention看上去对这个max...
  • Yifan GUO: 我打脸了,写了代码快速验证了一下,softmax对应的effi...
  • Yifan GUO: 《Efficient Attention: Attention...
  • 岁月如书: muon怎么就丢了奇异值,奇异值用来做weight decay...
  • Yifan GUO: Oh,我貌似理解了,或许我可以这样给自己解释: 如果分母的作用...
  • Yifan GUO: "其中分母的作用主要是保持数值稳定性,另外就是如果我们给O加上...
  • 苏剑林: 嗯,类似的观点我们在 https://kexue.fm/arc...
  • 苏剑林: KL散度希望$p(Z|X)$的log_var接近于0,但由于重...
  • 苏剑林: $p(Z)$是标准正态分布,我们才能从标准正态分布中随机采样生成。
  • 苏剑林: 原则上不必要

USERLOGIN

  • 登录

科学空间|Scientific Spaces

  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

找不到相关内容。


你也许对下面的内容感兴趣

  • 均匀球状星团内恒星的运动
  • 文本情感分类(三):分词 OR 不分词
  • 用狄拉克函数来构造非光滑函数的光滑近似
  • 从变分编码、信息瓶颈到正态分布:论遗忘的重要性
  • 基于DGCNN和概率图的轻量级信息抽取模型
  • 高斯型积分的微扰展开(三)
  • 行星密度与其公转周期(更新)
  • 关于“微分”的理解
  • 当生成模型肆虐:互联网将有“疯牛病”之忧?
  • 从JL引理看熵不变性Attention

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前32岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 网站 梯度 概率 矩阵 转载 优化器 微分方程 分析 天象 深度学习 积分 python 扩散 力学 无监督 几何 节日 生活 文本生成 数论

    随机文章

    • 第100篇文章了
    • 深度学习的互信息:无监督提取特征
    • 当Bert遇上Keras:这可能是Bert最简单的打开姿势
    • 怎么会这么巧!背后的隐藏信息
    • (原创)切抛物线法解方程
    • 三味Capsule:矩阵Capsule与EM路由
    • 函数图像旋转公式(“想当然”的教训)
    • 高维空间的叉积及其几何意义
    • 2010年广东省高中学生化学竞赛试题和答案
    • VQ的又一技巧:给编码表加一个线性变换

    最近评论

    • 岁月如书: qwen团队的gated attention看上去对这个maxlogit会比较有用。毕竟他们都...
    • Yifan GUO: 我打脸了,写了代码快速验证了一下,softmax对应的efficient attn这样妙用so...
    • Yifan GUO: 《Efficient Attention: Attention with Linear Com...
    • 岁月如书: muon怎么就丢了奇异值,奇异值用来做weight decay没有可行性么
    • Yifan GUO: Oh,我貌似理解了,或许我可以这样给自己解释: 如果分母的作用确实只是保持数值稳定性的话,那这...
    • Yifan GUO: "其中分母的作用主要是保持数值稳定性,另外就是如果我们给O加上RMSNorm,那么分母也会自动...
    • 苏剑林: 嗯,类似的观点我们在 https://kexue.fm/archives/11126 也分享了。
    • 苏剑林: KL散度希望$p(Z|X)$的log_var接近于0,但由于重构项的存在,无法达到这个目标,所...
    • 苏剑林: $p(Z)$是标准正态分布,我们才能从标准正态分布中随机采样生成。
    • 苏剑林: 原则上不必要

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • EAI猩球
    • 文举的博客
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2025 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。