首页 > 人工智能 > 人工智能
发布日期:2025-02-18 09:21:40

揭秘月球背面:长思维链验证一年前就完成,成本高昂却值得!

揭秘月球背面:科技巨头背后的长思维链

   2月18日上午消息,月之暗面研究员FloodSung近日分享了k1.5模型背后的完整思考过程,并透露称,2024年9月12日OpenAI发布的震撼效果,让他开始反思Long-CoT的有效性。因为早在一年多前,月之暗面Kimi联合创始人Tim周昕宇就已验证过,使用较小的模型,通过训练模型进行几十位的加减乘除运算,并将细粒度的运算过程合成成长的CoT数据进行SFT,可以获得非常理想的效果。

   FloodSung回忆起当时看到那个效果时的震撼,公司确实意识到了LongContext的重要性,并且率先投入资源来扩展上下文长度。然而,对于Long-CoT的关注却相对不足,主要原因在于成本控制的问题。LongContext通过引入Prefill预填充和Mooncake技术,不仅能够处理长文本输入,还能保证成本和速度在可接受范围内。相比之下,Long-CoT涉及长文本输出,这不仅需要更高的成本,而且处理速度也较慢。因此,在这种权衡之下,将输出文本变长并没有成为优先考虑的选项。 这段内容反映了公司在技术创新与成本控制之间的平衡考量。虽然技术的进步带来了新的可能性,但实际应用中仍需综合考虑各种因素,包括经济成本和技术实现的可行性。这也提醒我们,任何新技术的推广都不仅仅是技术层面的问题,还需要全面评估其经济效益和社会影响。

   FloodSung反思道,“但还有什么比Performance(性能)更为关键呢?成本和速度遵循摩尔定律,持续下降,只要提升了Performance,其他问题便不再是主要障碍。”因此,我们需要关注Long-CoT,追求o1。“总而言之,我们的目标是训练模型能够像人类一样思考,自由地思考。”FloodSung表示。

   在月之暗面Kimi官网上,最近发布了一篇由FloodSung撰写的长达万字的文章,详细解密了o1的破解过程。这不仅揭示了公司在技术领域的新突破,也预示着公司对o1的关注,并开始对标这一技术进行深入研究。这一动向表明,公司可能即将在相关领域取得重要的进展,值得业界持续关注。 从这篇文章可以看出,公司正积极寻求技术创新和突破,以应对当前市场上的挑战。这样的举措不仅能够提升公司的竞争力,也可能推动整个行业的发展。未来,我们或许可以看到更多基于此类技术的应用和服务,为用户带来更加丰富和便捷的体验。

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有