寒武纪发布新款AI训练卡MLU370-X8

MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。

  3月21日,寒武纪正式发布新款训练加速卡MLU370-X8。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link?多芯互联技术,主要面向训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中, 8卡计算系统的并行性能平均达到350W RTX GPU的155%。
寒武纪发布新款AI训练卡MLU370-X8
  ▲ 寒武纪训练加速卡MLU370-X8
  双芯思元370架构
  MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。
  MLU-Link™多芯互联技术
  MLU370-X8智能加速卡支持MLU-Link?多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。
  训推一体的Cambricon NeuWare交付优秀训练性能
  Cambricon NeuWare支持FP32、FP16混合精度、BF16混合精度和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理、搜索推荐和自动驾驶等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
  在Cambricon NeuWare SDK上实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和Cambricon NeuWare CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。
寒武纪发布新款AI训练卡MLU370-X8
  ▲MLU370-X8 单机8卡部署配置
寒武纪发布新款AI训练卡MLU370-X8
  ▲单卡MLU370-X8性能对比
寒武纪发布新款AI训练卡MLU370-X8
  ▲8卡MLU370-X8性能对比
  测试环境
  250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0
  350W GPU:Supermicro AS-4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2
  MLU370-X8补全思元370系列产品线
  寒武纪长期秉承“云边端一体、训推一体、软硬件协同”的技术理念。MLU370-X8提供两倍思元370的内存带宽,结合MLUarch03架构和MLU-Link多芯互联技术,将思元370芯片在训练任务的优势充分发挥。MLU370-X8定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式;并与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同,形成完整的云端训练、推理产品组合。
  MLU370-X8加速卡与国内主流服务器合作伙伴的适配工作已经完成,并已对客户实现小规模出货。
  浪潮信息人工智能和高性能产品线副总经理张强表示:“浪潮跟寒武纪目前在思元370系列产品上合作顺利,携手在互联网、金融、制造等领域逐步落地;MLU370-X8的性能优异,我们期待双方可以继续加强合作,为更多的行业和客户带来优秀的人工智能计算力。”
  寒武纪用产品向客户印证自己的初心与决心:为人工智能技术的大爆发提供卓越的AI芯片产品,让机器更好地理解和服务人类。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 北京君正拟调整方案 加力争夺北京矽成

    不久,北京君正于11月20日收到了深交所关于公司收购北京矽成过半股权事项的问询函,深交所要求北京君正就标的公司是否进行了备案和批准、能否控制标的公司、公司控制权是否稳定等方面进行了问询。

    2025年11月21日
  • 卓视智通联合寒武纪发布“车路协同道路精准感知MEC解决方案”

    “车路协同”是通过先进的通信技术、自动控制技术和计算技术,实现人-车、车-车、车-路之间信息交互,即在出行者、智能车载单元与路侧单元之间实时、高效地信息交互,为交通参与者提供全方位可靠的交通信息。

    2025年11月21日
  • 睿创微纳发布全球第一款8μm红外热成像探测器芯片

    这是全球首款8微米像元间距红外热成像探测器芯片,突破了低噪声读出电路、高均匀性氧化钒薄膜、亚波长光学吸收结构、小像元自加热效应补偿等一系列核心技术,能够实现更高的空间分辨率,提升运动目标捕捉能力,是非制冷红外焦平面探测器技术发展史上的一个重要里程碑。

    2025年11月20日
  • 思必驰旗下深聪智能发布新一代人工智能芯片TH2608

    思必驰作为国内专业的对话式人工智能平台公司,不断推进着AI技术的研发与应用,思必驰旗下芯片公司深聪智能于2019年推出了AI芯片太行TH1520,搭载思必驰全链路人工智能语音技术,低功耗算法的优势使其广泛地应用于智能家居白电、黑电以及智能车载领域,推进传统行业的规模化和智能化升级。

    2025年11月20日
  • 寒武纪首份年报发布 亏损4个多亿 营收在增长

    从年报披露来看,2020年尽管受到疫情及终端智能处理器IP授权收入减少等不利情况影响,寒武纪2020年营业收入同比小幅增长,主要是公司云端智能芯片及加速卡和智能计算集群收入实现增长的同时,2020年度新产品包括边缘端智能芯片及加速卡、基础系统软件等投入市场,取得较好的营收。

    2025年11月20日
  • 上海发布首批人工智能创新中心 寒武纪、商汤等上榜

    上海市经济信息化委12月11日发布通知,部署建设首批上海市人工智能创新中心。根据通知,7家公司获准为上海市人工智能创新中心,分为产业创新中心和应用创新中心两种类型。

    2025年11月20日