寒武纪发布新款AI训练卡MLU370-X8

MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。

  3月21日,寒武纪正式发布新款训练加速卡MLU370-X8。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link?多芯互联技术,主要面向训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中, 8卡计算系统的并行性能平均达到350W RTX GPU的155%。
寒武纪发布新款AI训练卡MLU370-X8
  ▲ 寒武纪训练加速卡MLU370-X8
  双芯思元370架构
  MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。
  MLU-Link™多芯互联技术
  MLU370-X8智能加速卡支持MLU-Link?多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。
  训推一体的Cambricon NeuWare交付优秀训练性能
  Cambricon NeuWare支持FP32、FP16混合精度、BF16混合精度和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理、搜索推荐和自动驾驶等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
  在Cambricon NeuWare SDK上实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和Cambricon NeuWare CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。
寒武纪发布新款AI训练卡MLU370-X8
  ▲MLU370-X8 单机8卡部署配置
寒武纪发布新款AI训练卡MLU370-X8
  ▲单卡MLU370-X8性能对比
寒武纪发布新款AI训练卡MLU370-X8
  ▲8卡MLU370-X8性能对比
  测试环境
  250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0
  350W GPU:Supermicro AS-4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2
  MLU370-X8补全思元370系列产品线
  寒武纪长期秉承“云边端一体、训推一体、软硬件协同”的技术理念。MLU370-X8提供两倍思元370的内存带宽,结合MLUarch03架构和MLU-Link多芯互联技术,将思元370芯片在训练任务的优势充分发挥。MLU370-X8定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式;并与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同,形成完整的云端训练、推理产品组合。
  MLU370-X8加速卡与国内主流服务器合作伙伴的适配工作已经完成,并已对客户实现小规模出货。
  浪潮信息人工智能和高性能产品线副总经理张强表示:“浪潮跟寒武纪目前在思元370系列产品上合作顺利,携手在互联网、金融、制造等领域逐步落地;MLU370-X8的性能优异,我们期待双方可以继续加强合作,为更多的行业和客户带来优秀的人工智能计算力。”
  寒武纪用产品向客户印证自己的初心与决心:为人工智能技术的大爆发提供卓越的AI芯片产品,让机器更好地理解和服务人类。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 高频芯片将超越现行网络传输极限

    由加州大学戴维斯分校电气和计算器工程系助理教授Omeed Momeni和博士生Hossein Jalili合作,使用相控数组天线系统(phased array antenna system)设计了高频芯片。相控数组系统将来自多个源的能量引入单个光束,该光束可以被严密地导向并定向到特定的位置。

    2024年5月8日
  • 社区视频监控红外功能亟需普及

    虽然这些住宅小区装有摄像头以提高“安全系数”,但由于没有红外功能,摄像头在天黑后就成了“睁眼瞎”。对此,有物业管理人员在接受采访时认为,并非所有的摄像头都需要红外功能,平时他们也会组织人员开展巡逻。

    2024年5月15日
  • 广东出台治理校园欺凌方案 鼓励构建校园安防平台体系

    《实施办法》鼓励学校利用互联网技术构建校园安全防控平台体系,教育及公安部门应加快推进将校园视频监控系统、紧急报警装置等接入公安机关、教育部门监控与报警平台,逐步建立校园安全网上巡查机制。

    2024年1月31日
  • 辽宁联通召开“视频安防”产品发布会

    “视频安防”是辽宁联通创新互联网+视频安防的新模式,它基于视频监控、物联网、云计算、虚拟专网技术,利用联通“视频安防”云平台,能够提供一站式综合性安防监控、联网服务。

    2024年1月29日
  • 需求渐增 印度安防市场每年增长超30%

    度电子安防市场在政府资助和国际合作下不断演变。印度国内安防行业寻求自我发展以降低对国外厂商的依赖,经济改革伴随法律,税收政策,市场监管和市场需求的变化不断调整。印度电子安防市场未来潜力很大程度会受到这些变革的影响,同时它也能改变政府经济,财政和货币政策的效率。

    2024年4月24日
  • 山东:指挥调度系统全面升级 实现监控资源共享

    近日,山东高速股份济青分公司指挥调度系统全面升级。据了解,济青高速全线有济南、淄博、潍坊、青岛四个管理处,原来各管理处只能调度自己辖区范围内的监控摄像头。升级后,各管理处可通过调度辖区范围外的监控摄像头查看全线范围内的交通状况。

    2024年5月16日