迪迦奥特曼 发表于 2023-10-31 14:48:11

Transformer架构的优势

请教一个问题,Transformer原始论文里说:传统的Encoder-Decoder架构在训练过程中,下一个时刻的计算过程会依赖于上一个时刻的输出,
这种固有的属性限制了模型不能并行方式进行计算。所以提出了新的Transformer框架。我理解为像LSTM这种架构是不是已经能用到局部和全局的信息了,除了架构不一样,Transformer最大的优势在哪呢?

微信用户 发表于 2023-10-31 15:00:19

没错,LSTM 已经能用到局部和全局信息了,但它不能并行,它只能“一个一个地看”,transformer 的优势在于可以并行计算,它可以“同时看到”前面所有的信息,然后去预测下一个。

上述架构的不同,使得 transformer 具有了并行的优势;除此之外,LSTM 由于只能“一个一个地看”,会容易看后面忘前面。而 transformer 直接看所有的,可以自动学习到哪些内容要重点看,在一定距离内(比如2000 tokens)可以抓重点,不会看后面忘前面。
页: [1]
查看完整版本: Transformer架构的优势