一号热搜榜,为您提供最新的热搜资讯,热搜榜信息!

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」 深度学习范式变革

国内热搜 作者:爱范儿 热度:622

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」 深度学习范式变革

马斯克下场点赞!Kimi这篇论文撬动了大模型的「祖传地基」深度学习范式变革!同样的算力,同样的数据,为什么效果会不同?大多数人认为是模型更大、数据更好或工程师更厉害。然而,Kimi提出了一个令人惊讶的答案。

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」 深度学习范式变革

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」 深度学习范式变革

3月16日,Kimi 发布了一项名为《Attention Residuals》的技术报告。这项技术对几乎所有现代大模型使用的残差连接结构进行了改进,并在实验中证明,用同样多的算力,新方法训练出的模型效果相当于基线模型花费1.25倍算力才能达到的效果。

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」 深度学习范式变革

报告发布后,得到了许多硅谷顶尖AI专家的认可。马斯克通过社交媒体表示这是“令人印象深刻的工作”。OpenAI的主要发明者Jerry Tworek称其为“深度学习2.0”的开端。前OpenAI联合创始人Andrej Karpathy也指出,我们还没有完全理解“注意力就是一切”这句话的真正含义。

过去十年里,几乎没有人动过残差连接这个基础结构。现代大模型通常由很多层神经网络叠加而成,信息从底部输入,逐层传递和加工。然而,随着网络层数增加,训练难度也随之增大。2015年何恺明团队提出的残差连接解决了深层网络难以训练的问题,但这种方式在信息聚合上较为粗暴,导致很多中间层实际上贡献有限。

标签: 范式     地基     下场