超越想象力,探索未来科技界的新视界
智慧科技
英伟达老黄,成了今年的圣诞老黄。
AI芯片大礼包刚刚曝光:
GPU新核弹B300,以及附带CPU的超级芯片GB300。
高算力,在产品层面上相比B200在FLOPS上提高50%
大显存,从192GB提升到288GB,也是提高了50%。
△Grok AI绘图
包含72块GB300的“新一代计算单元”GB300NVL72,被誉为“在高batchsize条件下,能够让OpenAIo1/o3推理大模型的思维链长度达到10万tokens的唯一解决方案”。
这与今年3月份“AI春晚”发布的B200系列只隔了几个月。
据SemiAnalysis报道,自第三季度起,众多AI领军企业已将订单从B200转向了B300(仅微软在第四季度还继续采购了一部分B200)。
有不少网友感叹,更新速度实在太快了!
既解决了之前传闻中B200因设计缺陷导致的延期问题,又回应了隔壁AMD MI300系列后续产品计划在2025年增加显存容量的消息。
又一款AI核弹
既然都是Blackwell架构没有跨代,B300的算力提高来自哪里呢?
根据这次爆料,主要有三部分:
工艺节点,与B200使用同样的台积电4NP,但是全新流片
增加功率,GB300和B300 HGX的TDP分别达到1.4KW、1.2KW,相比之下B200系列分别提高0.2KW
架构微创新,例如在CPU和GPU之间动态分配功率
除了更高FLOPS之外,B300系列的显存也做了升级:
从8层堆叠的HBM3E升级到12层(12-Hi HBM3E)
显存容量从192GB升级到288GB
显存带宽保持不变,仍为8TB/s
此外产品交付层面还有一个大变化:
GB200系列提供了完整的BiancaBoard,这其中包括两颗GPU、一颗CPU以及CPU的内存等所有组件,全部集成在一块PCB板上。
△GB200概念图
GB300系列将仅提供参考设计(ReferenceDesign),其中包括两颗B300 GPU和一颗Grace CPU以及HMC(Hybrid Memory Cube)。至于LPCAMM内存模块等其他组件,客户需要自行购买。
这给供应链上的OEM和ODM制造商带来了新的机会。
为推理大模型打造
显存的提升对于OpenAI的GPT-1/GPT-3等大型推理模型来说非常重要,因为推理过程中的思维链长度会增加,从而影响KVCache的使用,进而影响batchsize和延迟。
以一个GB300NVL72“计算单元”为单位考虑时,它能使72个GPU以极低的延迟协同处理相同的问题,并共享显存。
在此基础上从GB200升级到GB300,还可以带来许多好处:
每个思维链的延迟更低
实现更长的思维链
降低推理成本
在处理相同问题时,可以通过搜索更多的实例,进而最终提升模型的能力。
为了解释这些提升,SemiAnalysis举了个更为直观的例子。
下图展示了在不同的批量处理大小下,采用H100和H200两种GPU处理长序列时,Llama 3.1405B模型在FP8精度下的处理速度。从图中可以看出,H200 GPU在所有测试条件下均表现出更优的性能。这一结果表明,在处理大规模语言模型时,H200 GPU不仅能显著提高效率,还能更好地应对长序列任务的挑战。这无疑为研究人员提供了更强大的工具,有助于加速AI研究进程,并可能推动更多创新成果的诞生。此外,这也意味着在实际应用中,选择合适的硬件平台可以极大地提升工作效率和成果质量。
输入设置为1000个token、输出19000个token,由此模拟OpenAI o1和o3模型中的思维链。
从H100升级到H200,有两个显著改进。
在所有可比较的Batch Size中,H200的内存带宽更高(H200为4.8TB/s,H100为3.35TB/s),这使得处理效率普遍提升了43%。
二是H200可运行更高的batch size,这使得其每秒可以生成的token数量增加了3倍,相应地,成本也减少了约3倍。
内存增加所带来的效益远不止表面上的这些。
众所周知,优化推理模型的响应时间通常能显著提升用户体验和增加使用频率。
而且内存升级实现了三倍的性能提升,同时成本减少了三分之二,这一提升速度远远超过了摩尔定律的预期。
除此之外,SemiAnalysis观察到,那些功能更强大且具备显著差异化特性的模型能够获得更高的价格溢价。这表明市场愿意为技术上的显著进步支付更多费用,同时也反映出消费者对于创新产品有着较高的接受度。 这种现象说明,持续的技术研发和创新能力在当今竞争激烈的市场环境中显得尤为重要。企业如果能够在技术上保持领先,并开发出能够满足甚至超越用户期望的产品,那么他们不仅能够赢得市场份额,还能实现更高的利润率。这也鼓励了更多的公司投入到尖端技术研发中,从而推动整个行业的进步和发展。
前沿模型的毛利率超过70%,相比之下,那些仍在与开源模型激烈竞争的次一级模型的毛利率却不足20%。 这种巨大的毛利率差距凸显了市场上的两极分化现象。一方面,领先的模型凭借其独特优势和较高的技术壁垒,能够获取高额利润;另一方面,处于竞争劣势的模型则面临更大的盈利压力。这不仅反映了技术差异带来的市场分层,也暗示了行业未来发展的方向可能会更加集中于少数几家具有核心技术优势的企业。
当然,英伟达并非唯一能够提升内存的芯片制造商,然而英伟达还掌握着NVLink这一王牌技术。
One More Thing
英伟达消费级显卡方面,RTX5090的PCB板也首次曝光了~
就在昨天,一张RTX 5090 PCB照片在网上疯转。
特点就是超超超大号。
根据之前的爆料,5090显卡可能会配备32GB的大显存,这使得它有望支持8K超高清游戏,并实现60fps的流畅游戏体验。
网友们直接坐不住。
关于5090的发布时间,许多人猜测可能会在1月6日的老黄CES演讲期间公布。考虑到英伟达通常会在这样的大型活动中推出新产品,这个时间点似乎非常合理。当然,具体发布时间还需等待官方确认,但这一猜测确实引发了众多科技爱好者的期待与讨论。
参考链接:
[1]https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/
[2]https://x.com/mark_k/status/1871864813913330003
[3]https://www.gamesradar.com/platforms/pc-gaming/rtx-5090-will-seemingly-come-armed-with-32gb-vram-and-id-be-surprised-if-8k-gaming-isnt-a-thing-this-generation/