364元就能开发DeepSeek模型？假的 AI领域新警钟

访客 2025-02-08 09:18:43 6744

默认

摘要： 364元就能开发DeepSeek模型！近日，一则关于AI的新闻在全球范围内引起了广泛关注。斯坦福大学和华盛顿大学的研究人员发表了一篇论文，展示了他们以不到50美元（约364元）的云...

364元就能开发DeepSeek模型！近日，一则关于AI的新闻在全球范围内引起了广泛关注。斯坦福大学和华盛顿大学的研究人员发表了一篇论文，展示了他们以不到50美元（约364元）的云计算费用训练出的一款名为S1的推理模型。该模型在数学和编码能力测试中表现优异，与OpenAI的o1和DeepSeek的R1不相上下。

然而，这并不意味着AI领域出现了重大突破。实际上，S1模型并不是从零开始训练的，而是基于阿里通义千问Qwen2.5-32B开源模型进行开发，在16块H100 GPU上进行了26分钟的监督微调，最终形成了新模型S1-32B。此外，研究人员还通过蒸馏技术从谷歌的AI推理模型Gemini 2.0中提取了推理能力。

有大模型厂商的研发人员指出，S1模型本质上是在前人研究的基础上复制了推理能力，并没有实现真正的创新。尽管如此，S1模型的出现还是给头部大模型厂商带来了警示。如果头部厂商投入大量资源训练出来的模型可以被他人用极少的资源复制并达到相似效果，那么这些厂商的竞争优势将面临挑战。

标签：模型厂商