推理水平对标OpenAI o1!阿里云开源首个AI推理模型QwQ:数学、编程尤为出色
11月28日消息,推理推理今天,水平首个Q数色阿里云通义团队宣布推出并同步开源了全新的对标AI推理模型——QwQ-32B-Preview。
评测显示,开源预览版本的模型QwQ(Qwen with Questions)在科学推理能力上展现出研究生水平,尤其在数学和编程领域表现卓越,学编其整体推理能力可与OpenAI的程尤o1相媲美。
据介绍,为出QwQ是推理推理通义千问Qwen大模型最新推出的实验性研究模型,也是水平首个Q数色阿里云首个开源的AI推理模型。
阿里云通义千问团队研究发现,对标当模型有足够的开源时间思考、质疑和反思时,模型其对数学和编程的学编理解就会深化,基于此QwQ取得了解决复杂问题的程尤突破性进展。
在衡量科学问题解决能力的GPQA评测集中,QwQ达到了65.2%的准确率,显示出其研究生水平的科学推理能力;在AIME评测中,QwQ以50%的胜率证明了其解决数学问题的能力。
在MATH-500评测中,QwQ以90.6%的高分超越了o1-preview和o1-mini。在评估高难度代码生成的LiveCodeBench评测中,QwQ答对了一半的题目,在编程竞赛题场景中也有出色表现。
不仅如此,QwQ在面对复杂问题时,能够进行深度自省,质疑自身假设,并通过深思熟虑的自我对话,仔细审视其推理过程的每一步。
例如,在解决经典智力题“猜牌问题”时,QwQ通过梳理对话和推演,像个擅长思考的人一样,并最终得出正确答案。
目前,QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源,发布短短几小时,引起全球开发者热情体验。
有开发者认为该模型“是完全没有预料到的疯狂的跃进”、“今年开源领域最重大的突破”、“让中国在开源大模型和AI推理上占据先机”。
不过通义团队也表示,虽然QwQ展现了强大的分析能力,但其仍是个供研究的实验型模型,存在不同语言的混合使用、偶有不恰当偏见、对专业领域问题不了解等局限,未来随着研究深入模型迭代,这些问题将逐步得到解决。
相关文章:
相关推荐:
- 内维尔:阿诺德的传球能力在英超历史上都很少有,这是完美的助攻
- C罗退出争冠集团❓胜利已落后榜首11分,联合&新月双雄争霸
- 张晓峰:赛季最后一场球队准备得比较充分,在主场全力以赴
- [流言板]什么情况?姆巴佩作为法国队队长,未参加FIFA最佳投票
- 快手2025全年放假安排出炉:春节可连休9天
- 接手曼联前滕哈赫胜率74%+场均2.76球+6冠阿莫林71%+2.20球+5冠
- 现身价7000万!考文垂21年120万买约克雷斯,2年后2400万卖给葡体
- 五大联赛近3赛季有4位后卫进球助攻均上双,迪马尔科在列
- 天玑8400支持AI作曲家应用 用端侧AI实现每一个人的音乐梦!
- 专家谈邹市明儿子注射生长激素:需专业诊治 应慎重
- 2024年Steam发布近1.9万款游戏创新纪录!平均每天51款
- 小米米家空调中国漠河
- 伊斯科:让我们看看塞巴略斯是否会很快回归,他在这里很受欢迎
- 极速450km/h!CR450复兴号原型车露面:车头极其科幻
- ROG绝梦25 Pro显示器上线:380Hz Fast IPS面板、0.3ms响应
- 斯帕莱蒂:迪巴拉是一名顶级球员,如果罗马留住他会是很好的选择
- 红牛CEO:和克洛普的合同谈判非常容易,他答应时我扇了自己一下
- ESPN:奥斯卡和家人原本决定不回巴西,但假期回国后情况发生变化
- 再练练吧🙈加纳乔外脚背传中质量太低被没收,自己都尴尬挠头
- 红果短剧回应被广电约见:逐一排查平台所有剧集 违规内容立即下线