Transformer模型是由谷歌的八位研究人员提出的,他们分别是Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser和Illia Polosukhin。他们于2017年在论文《Attention Is All You Need》中首次提出了这一架构。
Transformer模型的核心思想是利用“自注意力(Self-Attention)”机制来捕捉输入数据中的内在关系,而无需依赖传统的循环神经网络(RNN)或卷积神经网络(CNN)结构。这种机制使得模型能够同时处理输入序列中的所有元素,并捕捉它们之间的复杂关系。
这八位研究人员最初的想法是改进谷歌的机器翻译技术。他们希望通过让机器通读整个句子,分析其所有部分,而不是单个单词逐个翻译,从而获得更好的上下文理解。这一想法经过讨论和碰撞后,最终形成了“Transformer”架构的概念起点——“自我注意力(self-attention)”。
论文《Attention Is All You Need》于2017年12月发表,标志着人工智能领域的一个重要转折点。这篇论文不仅推动了自然语言处理技术的发展,也为后续的研究者和开发者提供了新的工具和思路,极大地扩展了人工智能的应用范围。
如今,Transformer模型不仅嵌入在谷歌搜索和谷歌翻译中,还驱动着几乎所有大型语言模型(LLMs),如ChatGPT和Bard。此外,它还被应用于图像生成、代码生成等领域。
OpenAI 是 gpt-3 的工程实现,这儿可能提的是 attention is all you need
btw, BERT 也是 google 提出来的。
这些 encoder & decoder 各种架构在学术上可以说是非常领先的,而且直接咣咣砸论文,确实牛逼。