机器翻译 – 李又懂的极客空间

分类：机器翻译

2 篇文章

2023-9-24 1:59

122

406 字

2 分钟

序列计算中，传统的RNN在预测下一个符号（token）的时候，会对以往的历史信息有很强的依赖，使得难以充分地并行化，也无法很好地加深网络的层级结构。而对于传统的基于CNN的神经机器翻译模型，两个任意输入与输出位置的信号关联所需要的运算数量与它们的位置距离成正比，Facebook提出的CNNl NMT为线性增长。这两种常见的结构使得学习较远位置的依赖…

long-term dependency Multi-Head Attention RNN self-attention 注意力机制自注意机制

来自Google的Transformer模型

2023-9-24 1:56

机器翻译,自然语言处理

133 字

1 分钟内

Google的Transformer模型编码器，解码器传统的注意力机制及Multi-head attention 基于位置的单词编码，及词向量，输出层可视化multi-head attention Transformer与RNN和CNN神经翻译模型的对比 Google模型的训练细节优化器选择正则化 label smoothing 实战演示…

RNN 可视化注意力机制词向量

分类： 机器翻译

分类：机器翻译