论文《Attention Is All You Need》提出Transformer架构。该架构成为后续大模型核心基础。
2017年,Google Brain团队发布Transformer论文,以自注意力机制替代循环结构,显著提升并行训练效率。该架构在机器翻译任务中取得优秀结果。后续语言模型与多模态模型大多基于其思想演进。