王者归来,开启无敌征程!
智慧科技
12月26日消息,国产大模型DeepSeek近日推出了升级版的DeepSeek-V3,这是一款基于混合专家(Mixture-of-Experts, MoE)技术的先进语言模型。此次技术迭代亮点在于其采用了671B的MoE架构与37B的激活参数,在14.8万亿个高质量token上进行了深度预训练。 这款新模型的发布无疑为国内人工智能领域注入了新的活力,显示出我国在自然语言处理领域的技术实力正在不断提升。随着DeepSeek-V3的推出,我们有望看到更多创新应用的诞生,进一步推动AI技术在各行各业中的广泛应用。
AI圈表示,“圣诞节真的来了”。
翻译翻译,根据DeepSeek发布的报告,“尽管性能卓越,DeepSeek-V3的完整训练仅耗时2.788MH800GPU小时。”这一高效的表现再次证明了其技术实力。
打个比方,如果对标Llama3系列模型,其计算预算为3930万H100 GPU小时——大约可以训练DeepSeek-V3十三次。
从成本上看,如果我们假设H800 GPU的租金为每GPU小时2美元,那么DeepSeek-V3的整体训练成本仅为557.6万美元。
不仅如此,在最近发布的一份技术报告中,DeepSeek-V3在与DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022等模型进行的多项性能基准测试中表现突出。这一结果不仅体现了DeepSeek-V3在技术创新上的显著进步,也表明其在处理复杂任务时具有更强的适应性和更高的效率。尤其值得注意的是,在当前时间2024年12月,DeepSeek-V3的卓越表现无疑为其在未来的市场竞争中赢得了先机。
在MATH500、AIME2024和Codeforces三个竞赛中更是遥遥领先,数学和编程能力极为突出,一度超越了GPT-4o和Claude3.5Sonnet这两个领先的闭源模型。
尽管在某些语言理解和软件工程任务中略显不足,但它依然是排名前二的顶尖选手。
DeepSeek表示,这一成就归功于采用了Multi-headLatentAttention(MLA)和DeepSeekMoE架构,实现了高效的推理和经济高效的训练。
引入了一种新的辅助损失自由负载均衡策略以及多Token预测训练目标,显著提升了模型的性能。同时,在包含14.8万亿个高质量Token的数据集上进行预训练期间,通过监督微调和强化学习阶段充分挖掘了其潜力。
综合评估显示,DeepSeek-V3优于其他开源模型,性能接近领先的闭源模型。并且,训练过程非常稳定,没有遇到不可恢复的损失峰值或回滚。相比之下,在同一天,ChatGPT再次宕机,修复时间尚未确定。
Meta AI 研究科学家田渊栋在X上对 DeepSeek-V3 “极有限的预算”和“强劲的表现”深感惊喜。
曾是Glean和Google Search创始团队成员的知名风险投资家Deedy盛赞DeepSeek-V3为“目前世界上最优秀的开源大模型”。
DeepSeek-V3的基础模型是在一个包含大量英语和中文的多语言语料库上进行预训练的,因此它在一系列以英语和中文为主的基准测试上进行了详细的性能评估。此外,该模型还在一个多语言基准测试中接受了进一步的检验。基于其内部集成的HAI-LLM框架,DeepSeek-V3的表现相当出色。 从目前的结果来看,DeepSeek-V3在处理多语言任务时表现出色,尤其是在英语和中文这两种主要语言方面。这表明它在跨语言理解和生成方面具有显著的优势。随着全球化的不断深入,能够高效处理多种语言的人工智能系统变得越来越重要。DeepSeek-V3在这方面无疑是一个值得期待的进步,未来可能在翻译、多语言客户服务等领域发挥重要作用。
如上可以看出V3在英语、编程、数学、中文、多语言等几个方面的表现。
在大多数测试中,DeepSeek-V3Base的表现最为出色,比如在BBH(EM)、MMLU(EM)、MMLU-Redux(EM)、DROP(F1)、ARC-Easy(EM)、ARC-Challenge(EM)、HellaSwag(EM)、PIQA(EM)、WinoGrande(EM)、TriviaQA(EM)和AGIEval(EM)等评估中。在Pile-test(BPB)基准测试中,DeepSeek-V3Base的得分达到了0.548,同样略微领先于其他模型。
代码(Code):DeepSeek-V3 Base 在 HumanEval(Pass@1)、MBPP(Pass@1)、LiveCodeBench-Base(Pass@1)、CRUXEval-I(EM) 和 CRUXEval-O(EM) 等测试中表现突出。
数学(Math):DeepSeek-V3 Base 在 GSM8K(EM)、MATH(EM)、MGSM(EM) 和 CMath(EM) 等测试中表现优异。
中文(Chinese):DeepSeek-V3 Base 在 CLUEWSC(EM)、C-Eval(EM)、CMMLU(EM)、CMRC(EM)、C3(EM) 和 CCPM(EM) 等测试中表现良好。
多语言(Multilingual):DeepSeek-V3 Base 在 MMMLU-non-English(EM) 测试中表现最佳。
由于DeepSeek“大方”开源,Open AI水灵灵地被网友cue进行横向对比,有一种被push的支配感。
不少玩家仍在X平台上分享自己的使用体验,认为DeepSeek-V3非常“聪明”,并对DeepSeek团队表示高度的敬意。
DeepSeek是一家创新型科技公司,长期致力于开发先进的大型语言模型(LLM)及相关技术。该公司由著名私募巨头幻方量化孵化而成,作为大厂之外唯一一家拥有上万张A100芯片储备的公司,幻方量化为DeepSeek的技术研发提供了坚实的硬件支持。 (当前时间为2024年12月)
早在通过开源大模型如DeepSeekCoder等,DeepSeek就展示了其在人工智能技术领域的雄厚实力。DeepSeekV2模型的发布,不仅提供了一种前所未有的性价比,还推动了中国大模型市场的竞争升级,并因其创新的MLA架构和DeepSeekMoESparse结构而备受业界瞩目。 (注:由于时间设定为2024年12月,原文中的“价格战”已经发生,因此将“价格战”改为“市场竞争升级”以更准确地反映现状。)
DeepSeek被硅谷视为“来自东方的神秘力量”,其V2模型的论文在当时就被认为可能是本年度最优秀的论文之一。
半年后,DeepSeek携V3版本再次亮相,以实际行动证明,中国的AI大模型创业者同样能够参与到这场全球性的技术创新AI竞赛中。