DeepSeek 版 o1,有消息了。
还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当。
注意了,这不是在 DeepSeek 官方 App 已经能试玩的 DeepSeek-R1-Lite-Preview(轻量预览版)。
而是摘掉了轻量版的帽子,称为 DeepSeek-R1-Preview(预览版),意味着替换了规模更大的基础模型。
LiveCodeBench 团队透露,他们正在与 DeepSeek 合作评估新模型的能力,在合作过程中,DeepSeek 团队还帮他们找出并解决了评分系统的一些 bug。
与此同时,他们还晒出了目前仅有的一张 DeepSeek-R1-Preview 的思考过程。
鉴于 DeepSeek 此前已宣布 R1 模型将开源,有网友表示,与 OpenAI o1 编程能力相当的开源模型即将发布,2025 年的编程就只剩下按 Tab 键了。
DeepSeek 推理大模型满血版
两个月前,DeepSeek 在官网上线 DeepSeek-R1-Lite-Preview 时曾透露:
DeepSeek-R1-Lite-Preview 使用强化学习训练,推理含大量反思和验证,遵循新的 Scaling Laws——推理越长,表现越强。
在 AIME 测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview 表现出稳定的得分提升。
DeepSeek-R1-Lite 推理的特点在网友们的后续测试中也得到了验证:
在某些情况下,模型似乎能够在生成推理步骤时自我纠正,表现出类似原生“自我反思”的能力。不过,没有训练数据、模型架构和技术报告 / 论文的细节,很难确认这一点。
期待未来的开源模型和 API!
摘掉 Lite 的帽子,变成 DeepSeek-R1-Preview,意味着换了更大的基础模型。
之前 Lite 版就在难度较高数学和代码任务上超越 o1-preview,大幅领先 GPT-4o。