标签秩下的文章 - 科学空间|Scientific Spaces

12 Dec

注意力机制真的可以“集中注意力”吗？

By 苏剑林 | 2023-12-12 | 36783位读者 | 引用

之前在《Transformer升级之路：3、从Performer到线性Attention》、《为什么现在的LLM都是Decoder-only的架构？》等文章中，我们从Attention矩阵的“秩”的角度探讨了Attention机制，并曾经判断线性Attention不如标准Attention的关键原因正是“低秩瓶颈”。然而，这一解释对于双向的Encoder模型或许成立，但却难以适用于单向的Decoder模型，因为Decoder的Attention矩阵的上三角部分是被mask掉的，留下的下三角矩阵必然是满秩的，而既然都是满秩了，那么低秩瓶颈问题似乎就不复存在了。

所以，“低秩瓶颈”并不能完全解释线性Attention的能力缺陷。在这篇文章中，笔者试图寻求另一个角度的解释。简单来说，与标准Attention相比，线性Attention更难“集中注意力”，从而难以准确地定位到关键token，这大概是它效果稍逊一筹的主要原因。

点击阅读全文...

分类：信息时代标签：熵, 稀疏, attention, 秩阅读全文 8 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

huayi: 按照拟人的图像理解这个角度，VAR的那种Next-Scale的自回归是不是更优美一点？
笑雨: 请问神经网络的参数，多大的变动会处于将崩溃又未崩溃的极限点呀？不知道这个波动范围是不是有限的，...
笑雨: 请忽略这个提问。https://kexue.fm/archives/6051 这里写有
笑雨: 还是神经网络大病缠身了才找lipschitz条件，小感冒的时候只需要它哥哥就行了；如果自己扛过...
笑雨: 除了GAN，不知道对其他训练网络有没有好处
笑雨: 苏神，几乎每个神经网络都希望对x的邻域的各种输入，保持几乎同样的输出，抗噪声，是否我们只要训一...
asdasf: emmm我又多测了几次，在非方阵下，看起来矩阵越大，重建误差的差距越小。也符合文中的越稀疏越优...
笑雨: 苏神，我觉得momentum，adamW里头都有冲量，或者历史平均数。我想这些都是为了让模型的...
刘太臣: 按照这个思路，魔改flash-attention估计不太行，head_size的维度变为(51...
asdasf: 苏神，我仿照你的代码试了一下非方阵的monarch(评论里发不了代码，所以临时贴了一下。htt...