标签几何下的文章 - 科学空间|Scientific Spaces

16 Jan

从几何视角来理解模型参数的初始化策略

By 苏剑林 | 2020-01-16 | 81072位读者 | 引用

对于复杂模型来说，参数的初始化显得尤为重要。糟糕的初始化，很多时候已经不单是模型效果变差的问题了，还更有可能是模型根本训练不动或者不收敛。在深度学习中常见的自适应初始化策略是Xavier初始化，它是从正态分布$\mathcal{N}\left(0,\frac{2}{fan_{in} + fan_{out}}\right)$中随机采样而构成的初始权重，其中$fan_{in}$是输入的维度而$fan_{out}$是输出的维度。其他初始化策略基本上也类似，只不过假设有所不同，导致最终形式略有差别。

标准的初始化策略的推导是基于概率统计的，大概的思路是假设输入数据的均值为0、方差为1，然后期望输出数据也保持均值为0、方差为1，然后推导出初始变换应该满足的均值和方差条件。这个过程理论上没啥问题，但在笔者看来依然不够直观，而且推导过程的假设有点多。本文则希望能从几何视角来理解模型的初始化方法，给出一个更直观的推导过程。

信手拈来的正交

前者时间笔者写了《n维空间下两个随机向量的夹角分布》，其中的一个推论是

推论1：高维空间中的任意两个随机向量几乎都是垂直的。

点击阅读全文...

分类：数学研究标签：模型, 概率, 几何, 优化阅读全文 34 评论

1 Dec

级联抑制：提升GAN表现的一种简单有效的方法

By 苏剑林 | 2019-12-01 | 30107位读者 | 引用

昨天刷arxiv时发现了一篇来自星星韩国的论文，名字很直白，就叫做《A Simple yet Effective Way for Improving the Performance of GANs》。打开一看，发现内容也很简练，就是提出了一种加强GAN的判别器的方法，能让GAN的生成指标有一定的提升。

作者把这个方法叫做Cascading Rejection，我不知道咋翻译，扔到百度翻译里边显示“级联抑制”，想想看好像是有这么点味道，就暂时这样叫着了。介绍这个方法倒不是因为它有多强大，而是觉得它的几何意义很有趣，而且似乎有一定的启发性。

正交分解

GAN的判别器一般是经过多层卷积后，通过flatten或pool得到一个固定长度的向量$\boldsymbol{v}$，然后再与一个权重向量$\boldsymbol{w}$做内积，得到一个标量打分（先不考虑偏置项和激活函数等末节）：
\begin{equation}D(\boldsymbol{x})=\langle \boldsymbol{v},\boldsymbol{w}\rangle\end{equation}
也就是说，用$\boldsymbol{v}$作为输入图片的表征，然后通过$\boldsymbol{v}$和$\boldsymbol{w}$的内积大小来判断出这个图片的“真”的程度。

点击阅读全文...

分类：信息时代标签：几何, GAN, 生成模型阅读全文 4 评论

11 Nov

JoSE：球面上的词向量和句向量

By 苏剑林 | 2019-11-11 | 57748位读者 | 引用

这篇文章介绍一个发表在NeurIPS 2019的做词向量和句向量的模型JoSE（Joint Spherical Embedding），论文名字是《Spherical Text Embedding》。JoSE模型思想上和方法上传承自Doc2Vec，评测结果更加漂亮，但写作有点故弄玄虚之感。不过笔者决定写这篇文章，是因为觉得里边的某些分析过程有点意思，可能会对一般的优化问题都有些参考价值。

优化目标

在思想上，这篇文章基本上跟Doc2Vec是一致的：为了训练句向量，把句子用一个id表示，然后把它也当作一个词，跟句内所有的词都共现，最后训练一个Skip Gram模型，训练的方式都是基于负采样的。跟Doc2Vec不一样的是，JoSE将全体向量的模长都归一化了（也就是只考虑单位球面上的向量），然后训练目标没有用交叉熵，而是用hinge loss：
\begin{equation}\max(0, m - \cos(\boldsymbol{u}, \boldsymbol{v}) - \cos(\boldsymbol{u}, \boldsymbol{d}) + \cos(\boldsymbol{u}', \boldsymbol{v}) + \cos(\boldsymbol{u}', \boldsymbol{d})\label{eq:loss}\end{equation}

点击阅读全文...

分类：信息时代标签：几何, 自然语言处理, 词向量, NLP 阅读全文 20 评论

7 Nov

【外微分浅谈】6. 微分几何

By 苏剑林 | 2016-11-07 | 41386位读者 | 引用

终于开始谈到重点了，就是这部分内容促使我学习外微分的。用外微分可以方便地推导微分几何的一些内容，有时候还能方便计算。其主要根源在于：外微分本身在形式上是微分的推广，因此微分几何的东西能够使用外微分来描述并不出奇；然后，最重要的原因是，外微分把$dx^{\mu}$看成一组基，因此相当于在几何中引入了两组基，一组是本身的向量基（用张量的语言，就是逆变向量的基），这组基可以做对称的内积，另外一组基就是$dx^{\mu}$，这组基可以做反对称的外积。因此，当外微分引入几何时，微分几何就拥有了微分、积分、对称积、反对称积等各种“理想装备”，这就是外微分能够加速微分几何推导的主要原因。

标架的运动

前面已经得到
$$\begin{aligned}&\omega^{\mu}=h_{\alpha}^{\mu}dx^{\alpha}\\
&d\boldsymbol{r}=\hat{\boldsymbol{e}}_{\mu} \omega^{\mu}\\
&ds^2 = \eta_{\mu\nu} \omega^{\mu}\omega^{\nu}\\
&\langle \hat{\boldsymbol{e}}_{\mu}, \hat{\boldsymbol{e}}_{\nu}\rangle = \eta_{\mu\nu}\end{aligned} \tag{45} $$

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何, 外微分阅读全文 4 评论

6 Nov

【外微分浅谈】5. 几何意义

By 苏剑林 | 2016-11-06 | 63397位读者 | 引用

对于前面所述的外微分，包括后面还略微涉及到的微分形式的积分，都是纯粹代数定义的内容，本身不具有任何的几何意义。但是，我们可以将某些公式或者定义，与一些几何内容对应起来，使我们更深刻地理解它，并且更灵活运用它。但是，它仅仅是一种对应，而且取决于我们的诠释。比如，我们说外微分公式
$$\int_{\partial D} Pdx+Qdy = \int_{D} \left(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y}\right)dx\land dy \tag{32} $$
对应于格林公式
$$\int_{\partial D} Pdx+Qdy = \int_{D} \left(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y}\right)dxdy \tag{33} $$
。这是没问题的，但它们并不等价，它们仅仅是形式上刚好一样。因为格林公式是描述闭合曲线的积分跟面积分的联系，而外微分的公式是一种纯粹的代数运算。因为你完全可以将$dx\land dy$对应于$-dxdy$而不是$dxdy$，这样就得到另外一种几何的对应。

更深刻的问题是：为什么恰好有这个对应？也就是说，为什么经过一些调整和诠释后，就能够得到与积分公式的对应？首先要明确的是外积与普通的数的乘积，除了反对称性之外，是没有任何区别的，因此不少性质得以保留；其次，还应该要回到反对称本身来考虑，矩阵的行列式代表着矩阵所对应的向量组张成的$n$维立体的体积，然而行列式是反对称的，这就意味着反对称运算跟体积、积分等有着先天的联系。当然，更细致的认识，笔者也还没做到。

此外，我们说寻求微分形式的几何意义，通常只是针对不超过3维的空间来讨论的，更高维的几何图像我们很难想象出来，尤其是高维的曲面积分，一般只是类比，但类比是否成立，有时还需要进一步商榷。因此，这种情况下，倒不如干脆点，说微分形式描述的东西就是几何，而不再去寻找所谓的几何意义了。也就是说，反过来，将微分形式和外微分作为公理式的第一性原理来定义几何。

甚至，你可以只将外微分当作是一种记忆各种微分、积分公式的有效途径，比如现在我要大家默写三维空间中的斯托克斯公式，大家估计会乱，因为不一定记得是哪个减哪个。但是在外微分框架下，可以很快地将它推导一遍。好比式$(11)$，如果非要寻求几何解释，那就是开普勒第二定律：单位时间内扫过的面积相等；然而没有几何解释，你依旧可以把方程解下去。

点击阅读全文...

分类：数学研究标签：积分, 几何, 外微分阅读全文 9 评论

2 Nov

【理解黎曼几何】8. 处处皆几何 (力学几何化)

By 苏剑林 | 2016-11-02 | 53760位读者 | 引用

黎曼几何在广义相对论中的体现和应用，虽然不能说家喻户晓，但想必大部分读者都有所听闻。一谈到黎曼几何在物理学中的应用，估计大家的第一反应就是广义相对论。常见的观点是，广义相对论的发现大大推动了黎曼几何的发展。诚然，这是事实，然而，大多数人不知道的事，哪怕经典的牛顿力学中，也有黎曼几何的身影。

本文要谈及的内容，就是如何将力学几何化，从而使用黎曼几何的概念来描述它们。整个过程事实上是提供了一种框架，它可以将不少其他领域的理论纳入到黎曼几何体系中。

黎曼几何的出发点就是黎曼度量，通过黎曼度量可以通过变分得到测地线。从这个意义上来看，黎曼度量提供了一个变分原理。那反过来，一个变分原理，能不能提供一个黎曼度量呢？众所周知，不少学科的基础原理都可以归结为一个极值原理，而有了极值原理就不难导出变分原理（泛函极值），如物理中就有最小作用量原理、最小势能原理，概率论中有最大熵原理，等等。如果有一个将变分原理导出黎曼度量的方法，那么就可以用几何的方式来描述它。幸运的是，对于二次型的变分原理，是可以做到的。

点击阅读全文...

分类：数学研究,物理化学标签：力学, 几何, 作用量, 黎曼几何阅读全文 6 评论

21 Oct

【理解黎曼几何】7. 高斯-博内公式

By 苏剑林 | 2016-10-21 | 35782位读者 | 引用

令人兴奋的是，我们导出黎曼曲率的途径，还能够让我们一瞥高斯-博内公式（ Gauss–Bonnet formula）的风采，真正体验一番研究内蕴几何的味道。

高斯-博内公式是大范围微分几何学的一个经典的公式，它建立了空间的局部性质和整体性质之间的联系。而我们从一条几何的路径出发，结合一些矩阵变换和数学分析的内容，逐步导出了测地线、协变导数、曲率张量，现在可以还可以得到经典的高斯-博内公式，可见我们在这条路上已经走得足够远了。虽然过程不尽善尽美，然而并没有脱离这个系列的核心：几何直观。本文的目的，正是分享黎曼几何的一种直观思路，既然是思路，以思想交流为主，不以严格证明为目的。因此，对于大家来说，这个系列权当黎曼几何的补充材料吧。

形式改写

首先，我们可以将式$(48)$重写为更有几何意义的形式。从

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何阅读全文抢沙发

19 Oct

【理解黎曼几何】6. 曲率的计数与计算(Python)

By 苏剑林 | 2016-10-19 | 49636位读者 | 引用

曲率的独立分量

黎曼曲率张量是一个非常重要的张量，当且仅当它全部分量为0时，空间才是平直的。它也出现在爱因斯坦的场方程中。总而言之，只要涉及到黎曼几何，黎曼曲率张量就必然是核心内容。

已经看到，黎曼曲率张量有4个指标，这也意味着它有$n^4$个分量，$n$是空间的维数。那么在2、3、4维空间中，它就有16、81、256个分量了，可见，要计算它，是一件相当痛苦的事情。幸好，这个张量有很多的对称性质，使得独立分量的数目大大减少，我们来分析这一点。

首先我们来导出黎曼曲率张量的一些对称性质，这部分内容是跟经典教科书是一致的。定义
$$R_{\mu\alpha\beta\gamma}=g_{\mu\nu}R^{\nu}_{\alpha\beta\gamma} \tag{50} $$
定义这个量的原因，要谈及逆变张量和协变张量的区别，我们这里主要关心几何观，因此略过对张量的详细分析。这个量被称为完全协变的黎曼曲率张量，有时候也直接叫做黎曼曲率张量，只要不至于混淆，一般不做区分。通过略微冗长的代数运算（在一般的微分几何、黎曼几何或者广义相对论教材中都有），可以得到
$$\begin{aligned}&R_{\mu\alpha\beta\gamma}=-R_{\mu\alpha\gamma\beta}\\
&R_{\mu\alpha\beta\gamma}=-R_{\alpha\mu\beta\gamma}\\
&R_{\mu\alpha\beta\gamma}=R_{\beta\gamma\mu\alpha}\\
&R_{\mu\alpha\beta\gamma}+R_{\mu\beta\gamma\alpha}+R_{\mu\gamma\alpha\beta}=0
\end{aligned} \tag{51} $$

点击阅读全文...

分类：数学研究标签：几何, 曲率, python, 黎曼几何, 排列组合阅读全文 3 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从几何视角来理解模型参数的初始化策略

信手拈来的正交

级联抑制：提升GAN表现的一种简单有效的方法

正交分解

JoSE：球面上的词向量和句向量

优化目标

【外微分浅谈】6. 微分几何

标架的运动

【外微分浅谈】5. 几何意义

【理解黎曼几何】8. 处处皆几何 (力学几何化)

【理解黎曼几何】7. 高斯-博内公式

形式改写

【理解黎曼几何】6. 曲率的计数与计算(Python)

曲率的独立分量

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接