首页 > 人工智能 > 人工智能
发布日期:2025-02-04 19:26:36

揭秘DeepSeek/o3的致命弱点:三心二意,抓错又改错,技术革新危机!

深度搜索引擎的致命弱点:技术抉择胶着,一步错步步错!

   在DeepSeek和O1/O3等强大的推理大模型不断带来惊喜之时,有人开始探索它们的不足之处。

揭秘DeepSeek/o3的致命弱点:三心二意,抓错又改错,技术革新危机!

   最新研究揭示:

揭秘DeepSeek/o3的致命弱点:三心二意,抓错又改错,技术革新危机!

   在面对复杂难题时,推理大模型可能会像“三心二意的学生”一样频繁转换解题策略,但由于未能进行深入分析而屡次受挫——这种现象被研究者定义为Underthinking(欠思考)。

揭秘DeepSeek/o3的致命弱点:三心二意,抓错又改错,技术革新危机!

   研究团队来自腾讯AI实验室、苏州大学和上海交通大学,专注于开源的DeepSeek-R1和QwenQwQ系列模型的研究工作。

揭秘DeepSeek/o3的致命弱点:三心二意,抓错又改错,技术革新危机!

   通过研究AI的错误答案,研究人员发现目前的推理大模型往往在初期就找到了正确的思路,但却容易“浅尝辄止”,很快转向其他方向,使得之后生成的数千个token对于解决问题并无帮助。

揭秘DeepSeek/o3的致命弱点:三心二意,抓错又改错,技术革新危机!

   这种“无效努力”不仅浪费了宝贵的计算资源,还明显拖累了最终答案的准确度。 在当前的信息技术领域,“无效努力”的现象似乎愈发普遍。这种无效率的行为不仅消耗了大量计算资源,使得本可以用于其他重要任务的资源被白白占用,同时也显著降低了工作的质量与准确性。面对这一问题,我们需要更加审慎地规划和分配计算资源,同时提高算法和程序的优化水平,以确保每一单位的计算能力都能得到最有效的利用。只有这样,我们才能在保证工作效率的同时,提升结果的可信度和精确性。

揭秘DeepSeek/o3的致命弱点:三心二意,抓错又改错,技术革新危机!

   “三心二意”是罪魁祸首

   这种现象在解答数学竞赛题等更复杂的任务时表现得尤为突出。

   为了系统分析,团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上,对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

   根据最新研究显示,在对比正确与错误回答时发现,类o1模型在错误回答中使用的token数量平均增加了225%,而思维切换的频率也显著上升了418%。这一现象表明,当模型产生错误答案时,其处理过程变得更加复杂,需要更多的计算资源来完成任务。这不仅对模型的设计者提出了更高的要求,也提醒我们在评估和应用这些模型时需要更加谨慎,确保它们能够在实际应用中提供准确可靠的服务。

   为了深入剖析这一现象,研究团队设计了一套评估体系,旨在判断那些被舍弃的推理路径是否实际上能够引导出正确的解答。

   结果观察到,许多模型在开始时的分析思路是正确的,但未能进一步深入进行完整的推理过程。 在这个信息爆炸的时代,我们常常看到各种数据分析和预测模型在最初阶段能够准确捕捉到问题的核心。然而,遗憾的是,这些模型往往止步于表面的洞察,未能继续深入挖掘背后更深层次的原因和关联。这不仅限制了我们对复杂现象的理解,也使得决策制定过程中可能忽略了一些关键因素。因此,在利用模型进行分析时,我们不仅要注重其初期的准确性,还要鼓励更全面和深入的研究,以确保我们的理解和决策建立在更加坚实的基础上。

   超过70%的错误回答中至少包含一个正确的思路。此外,在超过50%的错误回答中,有10%以上的部分是完全正确的。 这个发现表明,尽管很多答案可能整体上存在错误,但其中仍然蕴含着有价值的正确信息。这提醒我们在评估信息时,不仅要关注其结论是否正确,还要细致分析其内容,以便更好地理解问题的复杂性,并从不同的角度获取知识。这种对细节的关注和批判性思维的培养,对于提高公众的信息素养至关重要。

   如下图所示的例子,例如,Thought 1通过识别给定方程类似于以(0,0)和(20,11)为中心的椭圆方程,启动了正确的解释。

   将两个表达式设为相等,是寻找满足这两个方程的公共点(x, y)的有效方法。

   然而,模型在处理问题时,并没有集中精力深入挖掘这一合理的思路,而是频繁地转换解题方向,进行了大量的代数操作和优化尝试。这不仅耗费了约7270个token,但最终仍然未能得出正确的答案。这样的处理方式显得有些不够专注和高效,或许在初期就应该更坚定地沿着最初认为有潜力的方向进行探索,这样可能会取得更好的结果。

   最终,它得出一个缺乏扩展COT过程支持的猜测答案。

   基于这些观察,研究人员提出了一个用于量化Underthinking程度的指标(Underthinking Metric)。

   这个指标通过测量错误答案中的token使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的token数量与总token数量的比值。

   实验结果显示,所有测试的O1模型均表现出明显的认知局限。不同数据集上,模型的精确度与这些认知局限之间的关联性各不相同。

   在MATH500-Hard和GPQA Diamond数据集上,性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时,其UT得分也更高,表明错误回答中存在更多思维不足。

   这意味着,虽然模型的整体能力更为强大,但在面对不确定性时可能会产生更长且效率较低的推理过程。这可能是由于模型探索了多条错误的推理路径,却无法有效地收敛到正确的解答。

   相反,在AIME2024测试集中,DeepSeek-R1-671B模型不仅取得了更高的准确率,还表现出较低的UT得分,反映出较少的思维不足和更高的token效率。

   这显示了模型在处理此类任务时,即使未能给出准确的答案,其推理过程仍然表现出高度的专注性和效率。研究团队认为,这可能是因为模型的设计更贴近AIME2024所要求的问题类型和推理过程。 这样的表现说明,尽管模型有时会遇到一些挑战,但它在处理特定类型的复杂问题时,依然能够保持清晰和高效的逻辑思维。这种特性不仅增强了我们对该模型能力的信任,也提示我们在未来开发类似系统时,应更加注重模型与具体应用场景之间的匹配度,以进一步提升其解决问题的能力。

   理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。

   如何让AI学会“一心一意”

   如何让模型像优秀学生一样“沉下心来钻研”?

   研究者们从人类考试策略中汲取灵感,提出了一种名为“思路切换惩罚机制”(ThoughtSwitchingPenalty,简称TSP)的新方法。这种机制旨在减少在解决问题时频繁改变思考方向所带来的负面影响,从而提高整体的工作效率与准确性。通过引入这一机制,研究人员希望能够在复杂任务处理上取得显著的进步,同时也有助于更好地理解人类思维模式在应对挑战时的行为特征。 这种创新的方法不仅为解决实际问题提供了新的视角,还可能在未来的研究中激发更多关于认知科学和人工智能领域的灵感。它提醒我们在设计算法或制定策略时,应该更加关注人类思维的特点和局限性,以便开发出更高效、更人性化的解决方案。

   在当今快节奏的信息时代,许多人发现自己在处理复杂问题时容易分心。一种有效的策略是借鉴考试时的做法:给自己设定规则,比如先专注于当前的方法,至少尝试10分钟后再考虑更换思路。这种方法不仅有助于提高解决问题的效率,还能增强个人的专注力和耐心。通过这样的自我约束,人们可以更好地管理时间,避免因频繁切换任务而分散注意力,从而提升工作或学习的成效。 这种做法提醒我们,在面对挑战时,有时候坚持与耐心比快速寻找捷径更为重要。尤其是在信息过载的时代,学会如何有效地集中精力,逐步深入地分析问题,对于达成目标具有重要意义。

   技术细节上,TIP会对导致思路转换的关键词进行惩罚,减少这些词在解码过程中出现的概率,促使模型在现有路径上进行更深入的探索。

   例如,当模型开始写“Alternatively, we can consider…”时,TIP会通过调整参数(惩罚系数α和持续时间β),来抑制这种过早的切换倾向。

   实验结果显示,加入TIP能让模型在数学测试上的准确率上升,同时UT Score下降,说明既减少了无效切换,又提高了答案质量。

   在AIME2024数学竞赛测试上,TIP的QwQ-32B-Preview模型的准确率从41.7%提升到了45.8%,然而UTScore却从72.4降至了68.2。这一变化显示出该模型在提高预测准确性方面取得了显著进步,但同时也带来了一些意料之外的负面影响。这可能意味着该模型在某些特定领域的表现有所下降,或者是在其他方面的性能有所牺牲。无论如何,这样的结果都提醒我们,在追求更高的准确率时,需要综合考虑多个维度的影响,以确保模型能够在实际应用中发挥最佳效果。

   这种“无痛升级”方式不仅简化了操作流程,还大大节省了时间和成本,因为只需调整解码策略而无需重新训练模型。这一改进无疑为相关技术的应用提供了更大的便利性和灵活性,使得在实际操作中能够更加高效地应对各种需求变化。 此方法展示了其在实际应用中的巨大潜力,特别是在需要频繁更新或优化模型性能的场景下,它能够有效减少停机时间,提高系统的整体可用性。此外,这也意味着企业或研究机构可以在不牺牲现有系统性能的前提下,快速响应市场和技术的变化,从而保持竞争优势。

   One More Thing

   UC Berkeley教授Alex Dimakis几乎同时分享了类似的观察,

   对于DeepSeek-R1及所有推理模型,错误的回答通常更为冗长,而正确的回答则简短许多。

   基于此,他们提出了一种简便的解决方案,称之为“精简解码”(Laconicdecoding)。

   并行运行5次模型,从答案中选择tokens最少的。

   初步实验结果显示,简洁解码在AIME2024测试上能够提升6%-7%的准确率,这一表现不仅优于ConsensusDecoding,而且处理速度更快。这项进步无疑为相关技术领域带来了新的希望,特别是在追求高效和高精度的场景中,简洁解码展现出了其独特的优势。未来,我们期待看到更多基于此类技术的应用实例,以验证其在实际操作中的可靠性和适用性。

   论文地址:https://arxiv.org/abs/2501.18585

   参考链接:

   [1]https://x.com/tuzhaopeng/status/1885179412163027406

   [2]https://x.com/AlexGDimakis/status/1885447830120362099

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有