91 免费视频 Bengio精简了传统RNN，性能可与Transformer失色

发布日期：2024-10-05 21:59 点击次数：131

深度学习三巨头之一的Yoshua Bengio91 免费视频，刚刚发布了一篇兴味的新论文——

RNN 就是所需的沿途吗？

Were RNNs All We Needed?

不仅论文的名字有兴趣，其论断更是精彩。

探究标明，精简十几年前的 RNN 们，性能上不错与最近序列模子（如 Transformer 等）相失色！

具体而言，Bengio 等东谈主重新疑望了诸如 LSTM（1997）和 GRU（2014）这些传统的 RNN，认为这些模子的舛误是由于需要时代反向传播（BPTT）而导致速率较慢。

是以他们告成大刀阔斧地移除了 LSTM 和 GRU 中的荫藏气象依赖，让它们不再需要 BPTT，从而不错高效地并行测验。

而精简修订版的 RNN 们，名字区分叫作念minLSTM和minGRU。

它们和传统 RNN 比较，不仅测验时所需的参数目大幅减少，而况十足可并行化。

嗯，是颇有一种大路至简的嗅觉了。

那么 Bengio 等东谈主具体又是怎么斥逐的？咱们不竭往下看。

精简版 RNN

Transformer 和它的变体们不错说是近几年大热的架构，但与此同期舛误亦然较为瓦解，那即是在处理长序列时的酌量复杂度问题。

具体来说，Transformer 模子在序列长度上的酌量复杂度是二次方的，这使得它在处理长序列时资源的阔绰就比较高。

因此就需要大概在测验时灵验地处理长序列，同期在推理时保捏高效性能的替代决策——简化版的 RNN。

这个经过的枢纽即是荫藏气象依赖，让它们不再需要 BPTT，让后果告成飙升。

minGRU

领先咱们来看下 Bengio 团队对 GRU 的处理，即minGRU，悉数分为 2 步。

第一步，去除之前荫藏气象的依赖。

在传统的 GRU 模子中，更新门 zt 和候选荫藏气象 h~t 的酌量依赖于前一时代的荫藏气象 ht-1。这导致模子在测验时无法斥逐并行处理，因为每个时代步的酌量齐依赖于前一个时代步的斥逐。

为了处置这个问题，minGRU 对 GRU 进行了修改，使更新门和候选荫藏气象的酌量仅依赖于刻下时代的输入 xt，而不依赖于 ht-1：

通过这种神志，minGRU 的每一时代的酌量不错寂寥于其他时代并行本质。

第二步，去除候选气象的界限罢休。

在第一步中，候选荫藏气象 h~t 仍然使用双曲正切函数（tanh）来罢休其值的界限在 [ − 1，1 ] [ − 1，1 ] 之间。固然这有助于模子的踏实性，但它并不是并行化所必需的。

minGRU 进一步简化模子，去除了对 h~t 的界限罢休，将其替换为一个无需激活函数的线性变换：

这么，候选荫藏气象的酌量变得愈加浅显，而况莫得任何界限罢休。

在这种结构下，minGRU 不仅减少了模子参数，而且不错诓骗并行扫描算法在测验时斥逐并行化，从而显贵提升了处理长序列的速率。

此外，minGRU 的输出模范在时代上是寂寥的，这有助于优化经过中的数值踏实性。合座变化如下：

minLSTM

接下来，咱们再来看下 Bengio 团队对 LSTM 的处理，即minLSTM，共分为三步。

在传统的 LSTM 模子中，淡忘门 ft、输初学 it 和候选细胞气象 c~t 的酌量依赖于前一时代的荫藏气象 ht-1。

这导致模子在测验时无法斥逐并行处理，因为每个时代步的酌量齐依赖于前一个时代步的斥逐。

为了处置这个问题，minLSTM 对 LSTM 进行了修改，使淡忘门、输初学和候选细胞气象的酌量仅依赖于刻下时代的输入 xt，而不依赖于 ht-1：

通过这种神志，minLSTM 的每一时代的酌量不错寂寥于其他时代并行本质。

在第一步中，候选细胞气象 c~t 仍然使用双曲正切函数（tanh）来罢休其值的界限在 [ − 1，1 ] [ − 1，1 ] 之间。固然这有助于模子的踏实性，但它并不是并行化所必需的。

minLSTM 进一步简化模子，去除了对 c~t 的界限罢休，将其替换为一个无需激活函数的线性变换：

这么，候选细胞气象的酌量变得愈加浅显，而况莫得任何界限罢休。

第三步，确保输出在时代上是寂寥的。

在好多序列建模成就中（举例文本生成），优化标的 / 输出在时代上是寂寥的。

为了确保 LSTM 的输出在时代上是寂寥的，minLSTM 对淡忘门和输初学进行了归一化，确保它们的和为 1，而况细胞气象的模范在时代上是寂寥的：

通过这种神志，minLSTM 确保了其输出在时代上是寂寥的，这有助于优化经过中的数值踏实性。

minLSTM 的最终步地为：

大奶

Were RNNs All We Needed?

在精简了 RNN 们之后，Bengio 团队也展示了实验斥逐。

举例下图露出了 minGRU、minLSTM 和 Mamba 模子在测验后果方面的比较，具体包括测验运转时代、加快比和内存占用。

这些方针是在 T4 GPU 上，以 64 的批次大小进行测量的：

以及鄙人图中，还展示了在 Shakespeare 言语建模任务中，不同模子的学习弧线。

这个任务使用字符级生成抵挡测验，方针是评估模子在文本生成任务中的施展，简化 RNN 模子在处理言语建模任务时具有较好的灵验性和高后果（相配是在需要快速测验和部署的应用场景中）：

一言以蔽之，Bengio 团队认为，经过简化的 RNN 可能仍然是处理长序列任务的理思聘用，尤其是在资源有限的场景下，因此也提倡了问题 " Were RNNs All We Needed? "

华东谈主一作

在这项探究中，作家除了 Bengio 除外，还有少许值得珍惜，那即是一作是一位华东谈主，Leo Feng。

从公开的个东谈主网站来看，Leo Feng 师从 Bengio，当今是蒙特利尔大学的博士生，当今正在 Borealis AI 进行探究实习。

Leo Feng 的探究界限包括元学习和高效模子的想象，其本科毕业于牛津大学。

那么你合计精简版 RNN 这项探究怎么？接待在驳斥区留言究诘。

论文地址：

https://arxiv.org/abs/2410.0120191 免费视频

91 免费视频 Bengio精简了传统RNN，性能可与Transformer失色

热点资讯

相关资讯