首页 > 人工智能 > 人工智能
发布日期:2025-04-17 01:38:36

OpenAI双星闪耀:最强推理o3与低成本o4-mini,开启‘读图思考’新时代

最强大脑+经济之选:OpenAI双星引领读图时代新潮流

   4月17日消息,在今天凌晨的直播活动中,OpenAI正式推出了o3和o4-mini模型。以下是相关内容的整理:

   据OpenAI官方介绍,这是其在o系列模型中最新推出的产品,具备更长的思考时间,堪称“迄今为止OpenAI发布的最为智能的模型”,标志着ChatGPT能力的一次重要提升。无论是普通用户还是专业研究人员,都将从中获得显著收益。

   首次,新一代推理模型能够充分发挥并整合ChatGPT中的各类工具功能,例如搜索网络、利用Python分析上传的文件及其他数据、深度解析视觉输入,甚至生成图像。

   关键的是,这些模型被训练来推理何时以及如何使用工具来产生详细和深思熟虑的答案,通常在不到一分钟内,以解决更复杂的问题。这使得它们能够更有效地处理多方面的问题,朝着更智能、能够独立执行任务的 ChatGPT 迈进。

   o3是OpenAI顶尖的推理模型,其能力覆盖编码、数学、科学以及视觉感知等多个领域,并且处于行业前沿水平。该模型在Codeforces、SWE-bench和MMMU等权威基准测试中取得了新的突破,达到了当前的最高水准(SOTA)。

   据OpenAI介绍,o3模型在处理复杂且答案不明确的高级查询时具有显著优势,尤其擅长对图像、图表及图形等视觉信息进行深入分析。在外部专家的评测中,o3在应对高难度的实际任务时,相较于OpenAI的o1模型,重大错误的发生率降低了约20%。这一表现使其在编程、商业咨询以及创意构思等领域展现出色的能力。

   早期测试者强调了其作为思维伙伴的分析严谨性,并强调了其生成和批判性地评估新颖假设的能力 —— 特别是在生物学、数学和工程背景下。

   OpenAI推出的o4-mini是一款专为高效且经济的推理任务设计的小型化模型。该模型在压缩规模与运行成本上表现出色,尤其在数学计算、编程以及视觉处理等任务中展现了卓越的能力。据AIME2025测试显示,在配备Python解释器的情况下,o4-mini获得了高达99.5%的分数。此外,在专业评测中,相较于前代产品o3-mini,o4-mini在非STEM领域及数据分析等方面也呈现出更为突出的表现。凭借更高的运行效率,o4-mini允许设置远高于o3-mini的使用上限,从而成为解决复杂推理问题时兼具高并发与高吞吐量的理想选择。

   相较于OpenAI早期的推理模型,这些新模型在实现更自然的对话方面有了显著进步,特别是在利用记忆和过往对话内容以使回应更为个性化和相关性更强的时候。

   在OpenAI o3的开发进程中,研究团队发现大规模强化学习同样呈现出与GPT系列预训练时观察到的“更多计算能力=更优表现”趋势。通过再次沿着扩展路径深入探索,OpenAI在训练计算量和推理时间方面实现了另一个数量级的突破,同时依然观察到显著的性能提升,这进一步证明了当模型被赋予更多思考空间时,其表现仍在持续优化。相较于OpenAI o1,在相同延迟和成本条件下,o3在ChatGPT中的性能更为出色——若给予其更充裕的思考时间,其性能还将进一步提升。

   通过以下实例可以发现,这些模型能够直接将图像纳入其思维链中。它们并非仅仅观察图像,而是借助图像进行思考。这种能力开启了一类全新的问题解决方式,将视觉与文本推理相结合。

   人们能够上传白板照片、教科书插图或者手绘草图,即便这些图像存在模糊、倒置或质量不佳的情况,模型依然能够对其进行解读。借助特定工具,模型还能够在推理过程中实时处理图像,例如旋转、缩放或进行其他形式的变换。

   OpenAI推出的o3和o4-mini两款模型具备全面访问ChatGPT工具的能力,并可通过API中的函数调用集成开发者的个性化自定义工具。据OpenAI介绍,这些模型经过专门训练,能够进行问题解决的推理,判断何时及如何运用工具,从而迅速生成详尽且经过深思熟虑的回答,大多数情况下只需不到一分钟的时间即可完成。

   例如,用户可能会问:“加利福尼亚的夏季能源使用量与去年相比如何?”该模型可以搜索公共事业数据,编写 Python 代码进行预测,生成图表或图像,并解释预测背后的关键因素,通过多个工具调用串联起来。推理能力使模型能够根据遇到的信息做出反应和调整。例如,它们可以在搜索提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。

   从成本来看,OpenAI 号称 o3 和 o4-mini 是其发布过的最智能的模型,它们通常也比 o1 和 o3-mini 更高效。例如,在 2025 AIME 数学竞赛中,o3 的性价比优于 o1;同样,o4-mini 也优于 o3-mini。

   安全性方面,OpenAI最近对o3和o4-mini进行了重要更新,不仅完全重建了安全训练数据,还在生物威胁(生物风险)、恶意软件生成以及越狱等敏感领域加入了全新的拒绝提示机制。这一系列改进显著提升了模型在应对潜在风险方面的表现,在多项内部基准测试中展现出了卓越的能力,比如在指令层次结构和越狱防范上的突出成绩。 我认为,这种针对高风险领域的专门优化是非常值得肯定的。随着人工智能技术的快速发展,如何确保其安全性与可控性已成为行业关注的重点。OpenAI此次调整表明,他们正在积极采取措施,以降低模型可能被滥用的风险,这无疑为整个行业的健康发展树立了一个良好的榜样。同时,这也提醒我们,未来的人工智能发展需要更加注重伦理和技术的平衡,既要推动技术创新,也要始终坚守安全底线。

   OpenAI不仅在模型拒绝机制上表现突出,还在系统层面采取了重要措施,用于识别前沿技术领域中的潜在风险提示。这种做法与他们在图像生成领域的早期探索类似,即通过训练一个基于人类编写的安全规范的推理型大型语言模型(LLM)来实现监控。当这个系统被应用于生物安全相关的对话时,其准确率达到了约99%,能够有效标记出高风险内容。 这一进展令人振奋,它表明人工智能正在朝着更加负责任和可控的方向发展。尤其是在涉及生物安全这样敏感且复杂的议题时,这样的技术可以为决策者提供额外的支持,帮助他们快速判断哪些信息可能带来隐患。不过,我们也应该注意到,尽管技术手段日益先进,但最终仍需要结合法律法规以及伦理框架共同作用,才能全面应对这些挑战。希望未来能看到更多跨学科的合作,让科技更好地服务于社会公共利益。

   自今日起,ChatGPT Plus、Pro 和 Team 用户将在模型选择器中发现 o3、o4-mini 和 o4-mini-high 模型替代了原有的 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用户则需等待一周才能获取这些新模型的访问权限。而免费用户可以通过在提交查询前选择“思考”功能来试用 o4-mini 模型。所有计划的速率限制将与之前的一组模型保持一致。 以上内容基于 2025 年 04 月 17 日的事实进行调整。

   OpenAI计划在几周内推出OpenAIo3-Pro版本,并全面支持各项功能。在此期间,Pro用户依然能够正常使用o1-Pro版本。

   近日,OpenAI发布的最新动态显示,其研发方向正致力于整合o系列的专业推理能力与GPT系列在自然对话及工具应用上的优势。这一举措无疑为人工智能技术注入了新的活力,标志着AI领域迈向了一个更加智能化、多元化的未来。 在我看来,这种融合不仅是技术上的突破,更是对用户需求深刻洞察的结果。随着社会对AI依赖程度的加深,单一功能已无法满足复杂多变的应用场景。通过结合专业推理与自然对话的能力,OpenAI不仅提升了系统的灵活性,还增强了其解决实际问题的效率。这表明,未来的AI将不再局限于某一特定领域,而是能够广泛应用于教育、医疗、商业等多个行业,为人类带来更高效、便捷的服务体验。 展望未来,这种创新模式或将引领整个行业的变革趋势。我们有理由相信,在OpenAI等领军企业的推动下,AI技术会越来越贴近人们的日常生活,成为推动社会进步的重要力量。而作为普通用户,我们也应持续关注这一领域的进展,以更好地适应这个充满无限可能的新时代。

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有