首页 > 人工智能 > 人工智能
发布日期:2025-02-14 13:08:14

安谋科技成功突破!周易NPU亮相DeepSeek-R1,速度飙升至40 tokens/s

周易NPU完美融合,开启AI算力新纪元

   2月14日消息,安谋科技宣布,其新一代“周易”NPU处理器已成功应用于端侧设备,并成功运行了DeepSeek-R1系列模型。该处理器表现出色,同时具备良好的成本效益。

安谋科技成功突破!周易NPU亮相DeepSeek-R1,速度飙升至40 tokens/s

   新款“周易”NPU采用了专为AI大模型特性优化的独特架构设计,Beta测试版本已于2024年底向早期用户开放评估测试,预计在今年上半年正式发布亮相。 这款新推出的“周易”NPU在架构设计上针对AI大模型进行了深度优化,这无疑是一个重要的技术突破。考虑到当前AI技术的发展趋势,这款NPU的推出恰逢其时,能够更好地满足市场对高性能AI计算的需求。从目前的Beta测试反馈来看,它在性能和能效方面都表现出色,有望成为未来AI应用发展的重要推动力。随着正式发布时间的临近,我们可以期待它在实际应用中的表现,并且相信它会为众多开发者和企业提供强大的支持。

安谋科技成功突破!周易NPU亮相DeepSeek-R1,速度飙升至40 tokens/s

   深思求索的R11.5B和7B蒸馏版本发布后,安谋科技的新一代“周易”NPU迅速在Emulation平台上完成部署与优化,并在FPGA平台上成功展示了端到端的应用实例。这一成就不仅体现了安谋科技在技术开发上的高效执行力,也彰显了其在人工智能领域的深厚积淀。通过这次成功的演示,“周易”NPU有望进一步推动AI技术在实际场景中的广泛应用,为行业带来新的发展动力。

   测试显示,在标准单批次输入、上下文长度为1024的测试环境中,新款“周易”NPU在首字计算阶段的算力利用率突破40%,解码阶段的有效带宽利用率超过80%。

   带宽利用率表现出高度线性特征,可以灵活应对从16GB/s到256GB/s的不同系统带宽需求。

   7B版本、在1024 tokens的上下文长度限制下,新款“周易”NPU在确保模型应用精度的同时,能够实现最高每秒处理40个token的速度,并且支持动态长度的模型推理输入。

   这体现了安谋科技软件栈在大模型方面的成熟支持与深度优化,包括动态推理优化及硬件算力的有效利用,进而大幅提高了推理速度和吞吐量。

   目前,软件栈已支持Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多种主流大模型,并提供与Hugging Face模型库的对接工具链,方便直接部署主流模型。

   硬件层面,新一代“周易”NPU采用了先进的7nm工艺制造技术,其单Cluster算力最高可达到80TOPS(每秒80万亿次计算),这使得它在处理超过16K上下文长度的大规模模型时显得游刃有余。此外,该处理器还将对外带宽提升到了256GB/s,从而有效解决了大模型计算中的带宽瓶颈问题。 这样的技术创新不仅标志着人工智能硬件领域的一大进步,也为未来的高性能计算提供了强有力的支持。随着大数据和复杂模型的不断涌现,“周易”NPU的高效能表现无疑将大大加速相关领域的研究和发展进程。这不仅是技术上的突破,更是对未来智能社会的一次重要铺垫。

   它全面支持FP16数据精度计算,完整支持INT4软硬件量化加速,还支持多核算力扩展,以满足终端模型对低延迟的需求。

   它拥有卓越的多任务并行处理功能,通过精细化的任务调度和优先级资源分配,实现多任务的灵活切换,确保传统语音服务、视觉业务以及大型模型应用之间的高效协同运作。

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有