介绍经典的transformer架构以及attention的原理和计算。

阅读全文 »