Transformer架构的优势
请教一个问题,Transformer原始论文里说:传统的Encoder-Decoder架构在训练过程中,下一个时刻的计算过程会依赖于上一个时刻的输出,这种固有的属性限制了模型不能并行方式进行计算。所以提出了新的Transformer框架。我理解为像LSTM这种架构是不是已经能用到局部和全局的信息了,除了架构不一样,Transformer最大的优势在哪呢?
没错,LSTM 已经能用到局部和全局信息了,但它不能并行,它只能“一个一个地看”,transformer 的优势在于可以并行计算,它可以“同时看到”前面所有的信息,然后去预测下一个。
上述架构的不同,使得 transformer 具有了并行的优势;除此之外,LSTM 由于只能“一个一个地看”,会容易看后面忘前面。而 transformer 直接看所有的,可以自动学习到哪些内容要重点看,在一定距离内(比如2000 tokens)可以抓重点,不会看后面忘前面。
页:
[1]