“木头姐”谈DeepSeek启示创新训练方法启发思考

2025-02-01 16:10:26 国内热搜作者：网易热度：149

大家好，我是很帅的狐狸。最近几天DeepSeek的消息引起了广泛关注。这家公司以极低成本训练出一个名为R1的模型，其性能甚至可以媲美OpenAI的顶级推理模型o1。这一消息导致英伟达股价下跌，市场开始质疑训练AI是否真的需要大量资金投入。

让我感到最有趣的是DeepSeek的训练方法。R1不同于普通的大语言模型，它具有一定的推理能力，可以通过增加“思维链”来提高答案质量，特别是在理工科题目上。传统上，要让大语言模型具备这种能力，通常是在基础模型上通过监督微调（SFT）来实现，类似于学生通过大量练习和参考答案学习解题方法。

然而，DeepSeek在训练R1-Zero时采用了强化学习（RL）的方法。这种方法更像婴儿的学习过程：通过不断的互动和反馈，逐渐学会新知识。例如，教婴儿识别颜色时，通过不断提问和反馈，婴儿最终能理解并记住颜色的概念。

强化学习一般用于游戏策略等复杂任务，因为它没有标准答案，有时会产生非常有创意的解决方案。2016年AlphaGo与李世石对战时，就下出了连职业棋手都看不懂的一手棋，这体现了强化学习的创造力。

标签： DeepSeek 训练方法启示

上一篇：河南多家景区恢复开园冬日限定景观待客来

下一篇：独行侠不敌活塞客场失利差距明显

“木头姐”谈DeepSeek启示 创新训练方法启发思考