序列计算中,传统的RNN在预测下一个符号(token)的时候,会对以往的历史信息有很强的依赖,使得难以充分地并行化,也无法很好地加深网络的层级结构。而对于传统的基于CNN的神经机器翻译模型,两个任意输入与输出位置的信号关联所需要的运算数量与它们的位置距离成正比,Facebook提出的CNNl NMT为线性增长。这两种常见的结构使得学习较远位置的依赖…
Google的Transformer模型 编码器,解码器 传统的注意力机制及Multi-head attention 基于位置的单词编码,及词向量,输出层 可视化multi-head attention Transformer与RNN和CNN神经翻译模型的对比 Google模型的训练细节 优化器选择 正则化 label smoothing 实战演示…