科技流网
您的位置:科技流网 > 业界

昆仑万维开源7B和32B最强数学代码推理模型,同规模下性能超越阿里QwQ

阅读量:7462   添加时间:2025-12-21 11:14   内容来源:中国网   

继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后,昆仑万维天工团队在此基础上持续迭代优化,4月13日,重磅推出全新升级的Skywork-OR1系列模型。

该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时,Skywork-OR1全面开放、免费使用,以完全开源的形式回馈开发者社区,坚定践行天工团队在推动AI技术发展上的开源路线。

此次开源涵盖三款高性能模型,包括:

1.Skywork-OR1-Math-7B:聚焦数学领域的专项模型,同时也具有较强的代码能力。

2.Skywork-OR1-7B-Preview:融合数学与代码能力、兼具通用性与专业性的通用模型。

3.Skywork-OR1-32B-Preview:面向更高复杂度任务、具备更强推理能力的旗舰版本。

此次发布的Skywork-OR1系列采用业界最高透明度的开源策略:不同于其他前沿开源推理模型仅开放模型权重,我们全面开源了模型权重、训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台。

配套的技术博客已发布于Notion平台,详细阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现的实践参考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力还在持续提升,在两周内我们还会发布两个模型的正式版本,同时也会推出更为系统详尽的技术报告,进一步分享我们在推理模型训练中的经验与洞察。我们相信,这种全方位的开源策略将有助于推动整个AI社区在推理能力研究上的共同进步。

在评测方面,Skywork-OR1系列模型引入了avgk作为核心评估指标,用于衡量模型在进行k次尝试时成功解决问题的平均表现。相较于传统的passk指标仅关注是否“至少一次成功”,avgk能更细致地捕捉模型在多轮生成过程中的稳定性与整体推理能力,从而更全面反映其真实性能水平与实用价值。

在数学推理任务中:

1.通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24与AIME25数据集上均实现了同参数规模下的最优表现,展现出强大的数学推理能力。

2.针对数学场景深度优化的专项模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分别取得69.8与52.3的高分,远超当前主流7B级别模型,充分验证了其在高阶数学推理任务中的专业优势。

3.Skywork-OR1-32B-Preview在所有benchmark上均实现了对QwQ-32B的超越,并在更难的AIME25上基本与R1持平。

在竞赛编程任务中:

1.通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench数据集上均取得了同等参数规模下的最优性能。

2.Skywork-OR1-32B-Preview表现尤为突出,其代码生成与问题求解能力已接近DeepSeek-R1,在大幅压缩模型体量的同时实现了卓越的性价比,充分展现出天工团队训练策略的先进性。

其中Skywork-OR1-Math-7B表现尤为亮眼,作为一个专注于数学推理能力的7B参数模型,通过多阶段GRPO训练在复杂数学问题上实现了卓越表现,同时在代码任务上也有较强的泛化能力。下图是该模型在AIME24上的训练准确率曲线,清晰呈现了多阶段训练过程中性能的稳定提升轨迹。

Skywork-OR1-Math-7B最终模型在AIME24和AIME24上分别达到69.8%和52.3%,超越了OpenAI-o3-mini ,达到了当前尺寸SOTA性能。值得注意的是,尽管该模型训练过程中未专门针对代码能力进行优化,但在代码评测基准上Livecodebench从37.6%提升到43.6%,相比基线模型的显著提升,这也表明我们的训练方法具有较好的领域泛化性。

自2023年以来,昆仑万维坚定地开源大模型回馈开发者和行业。2025年开源的Skywork-R1V多模态视觉推理模型、SkyReels-V1面向AI短剧创作的视频生成模型、Skywork-o1推理模型以及2024年开源的Skywork-Reward奖励模型,不仅在Hugging Face上下载数据表现亮点,开发者讨论度和模型热度依然居高不下。

当前,全球人工智能领域的竞争日趋激烈,竞赛的焦点正逐步从基础模型能力扩展到推理能力的比拼。AI大模型能否有效模仿人类的思维过程、具备逻辑推理和复杂任务的求解能力,已成为衡量技术先进性与通用智能潜力的关键指标。

在此背景下,为打破科技巨头对核心AI大模型技术的垄断壁垒,推动技术自主可控发展,中国多家企业纷纷投身于开源大模型生态的建设。未来,昆仑万维仍继续秉持“All in AGI 与 AIGC”战略、“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,持续加大在通用大模型、开源框架和推理能力提升等方向的研究投入,力求在全球AI技术浪潮中抢占先机、塑造竞争优势。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

推荐内容
  • 果然就是战未来!锐龙5 9600X新补丁对比测试:14款游戏

    一、前言:新KB5041587补丁到底可以提升多少游戏性能!Zen5可以说是AMD多年来底层架构变化最大的处理器。根据AMD的说法,在制程工艺不变的情况,IPC提升幅度接近20%,游戏帧率也有10%左右的提升。不过等到锐龙9000处理器正式...

  • 140至186万元,红旗金葵花在北京展“国雅”风貌

    继广州车展正式上市后,红旗金葵花国雅的区域上市陆续进行,这次来到了北京。早在今年4月的北京车展上,红旗汽车发布了全新品牌——金葵花,并带来四款“国字号”产品:国礼、国雅、国耀、国悦,其中作为国产顶尖大型豪华轿车的金葵花国雅备受瞩目。随后在1...

  • 花10万块买一台手机值吗?华为Mate XT非凡大师三折叠全

    一、前言:花10万块买一台手机值吗?在这篇评测接近完稿的时候,我瞅了一眼华为官网的预约人数,已经超过了685万人。早先供应链多个渠道透露,华为MateXT非凡大师的备货量大约为100万台(首批)。这也意味着,9月20日10:08分正式开售之...

  • 稳定7100MB/s!雷克沙ARES 8TB SSD评测:机

    一、前言:机械硬盘在电脑中还有位置吗?如今的笔记本几乎全部默认预装SSD,大多数人装机也首选SSD,但对于有着大容量数据、稳健存储需求的用户而言,一块大容量机械硬盘仍是第一选择,毕竟其单位容量的成本远低于SSD。如今的SSD主流容量才1-2...

  • 23小时续航创造历史!华硕灵耀14 Air+酷睿Ultra

    一、前言:能效为王的酷睿Ultra200V系列处理器ARM平台的功耗远低于X86平台,ARM处理器笔记本(比如MacBookAir)的续航远高于X86+Windows笔记本!在我们看来,这些似乎就是理所当然、天经地义的事情,毕竟几十来年一直...

  • 600TB残酷写入测试!忆恒创源PBlaze7 7A40评测

    一、前言:性能全面领先的国产企业级PCIe5.0SSD一年前,我们曾测试过忆恒创源PBlaze779406.4TB,它是当时最强的企业级PCIe5.0SSD,不仅率先实现了10GB/s的顺序写性能,高达14GB/s的顺序读取速度也几乎完全榨...