「神秘 QwQ-32B 横空出世,挑战 DeepSeek R1 统治地位!」
3月6日消息,研究显示,强化学习能大幅增强模型的推理能力。比如,DeepSeek-R1通过结合冷启动数据和多阶段训练,达到了最前沿的性能水平,使其具备了深度思考与复杂推理的能力。
阿里云通义千问今日宣布推出了最新的推理模型QwQ-32B。这款模型拥有320亿参数,在性能上可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1相媲美。这一突破性的进展不仅展示了阿里云在人工智能领域的强大研发能力,也标志着中国在大模型领域取得了显著的进步。QwQ-32B的发布无疑将为行业带来新的动力,推动更多创新应用的发展。同时,这也反映出国内企业在超大规模预训练模型上的持续投入和探索,未来有望在全球范围内产生更为深远的影响。
这项研究进一步证明了利用强化学习优化大型预训练模型的有效性。通过在推理模型中加入与智能体相关的功能,系统不仅能够更加高效地使用各种工具,还能在复杂的环境中进行更深层次的分析和判断。这种方法为人工智能的发展开辟了新的道路,使得机器不仅能完成特定任务,还具备了一定的适应性和灵活性。这表明未来的AI系统可能更加接近人类的思维方式,能够更好地应对多变的现实世界挑战。
目前,QwQ-32B已经在HuggingFace(https://huggingface.co/Qwen/QwQ-32B)和ModelScope(https://modelscope.cn/models/Qwen/QwQ-32B)上正式开源,并采用了Apache2.0许可证。这一举措无疑为人工智能领域注入了新的活力,使得更多开发者能够参与到这个项目的改进与应用中来。用户现在也可以通过QwenChat(https://chat.qwen.ai/?models=Qwen2.5-Plus)直接体验到这一技术的魅力。开放源代码不仅促进了技术创新,还极大地推动了人工智能领域的知识传播和技术普及。希望未来能看到更多类似的开源项目,让科技的力量惠及更广泛的人群。
性能方面,阿里云近期对QwQ-32B进行了全面评估,涵盖数学推理、编程能力和通用能力等多个方面。同时,阿里云还展示了QwQ-32B与一些顶级模型的性能对比,其中包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini以及原始的DeepSeek-R1。从结果来看,QwQ-32B在多个测试中表现出色,尤其是在解决复杂问题和逻辑推理方面。这不仅体现了其强大的技术实力,也显示了阿里云在人工智能领域的持续投入和创新。通过这些测试,我们可以看到QwQ-32B在实际应用中的潜力,特别是在需要高度智能和灵活处理能力的任务上。这也预示着未来AI技术的发展方向,即向着更高效、更智能的方向迈进。
在AIME24数学能力测试集和LiveCodeBench代码能力评估中,千问QwQ-32B的表现与DeepSeek-R1相当,但在这些评测中均远超o1-mini及相同尺寸的R1蒸馏模型。在由Meta首席科学家杨立昆主导的LiveBench、谷歌等机构推出的IFEval指令遵循能力评测集,以及加州大学伯克利分校等单位制定的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。
阿里云表示,通过Qwen在大规模强化学习(RL)领域迈出的第一步,我们不仅看到了RL技术的巨大潜力,还意识到在预训练语言模型中仍有许多未被充分探索的机会。这一进展表明,通过持续的研究和创新,我们可以进一步提升机器的推理能力,并为未来的应用开辟新的可能性。这样的进步无疑将推动人工智能技术向更深层次的发展,带来更加智能化和自动化的解决方案。
在致力于开发下一代Qwen的过程中,阿里云计划将更强大的基础模型与依托大规模计算资源的强化学习(RL)技术相结合,从而使其更接近实现人工通用智能(AGI)。此外,阿里云正积极探索将智能体与RL集成,以实现长时推理。这一举措有望通过增强推理能力来释放更高的智能水平,我们期待看到这一技术突破带来的更多可能性。 这一消息显示了阿里云在人工智能领域的持续投入和创新。通过结合更强大的基础模型和大规模计算资源,Qwen有望在理解和生成自然语言方面取得显著进展。同时,将智能体与强化学习技术集成,不仅能够提升系统的自主学习和适应能力,还可能为未来的智能应用开辟新的道路。这无疑是一个令人振奋的发展方向,值得业界和技术爱好者共同关注。