安谋科技发布NPU IP周易X3，革新驱动架构重塑端侧AI定义

访客 2025-11-17 11:23:31 47254

默认

安谋科技发布最新NPU IP——“周易”X3，引领端侧AI驱动架构革新，此次发布标志着公司在人工智能领域取得重要突破，为端侧AI性能的提升带来全新定义，X3以其强大的计算能力和优化性能，将推动AI技术在各领域的广泛应用，助力实现智能化转型。

2025年11月13日，安谋科技Arm China在上海隆重发布新一代NPU IP周易X3。作为专为大模型时代打造的尖端产品，采用革命性的DSP+DSA混合架构，具备全面精度支持与多项自研硬件加速技术，致力于为智能汽车、移动终端、智能物联网等关键领域注入强大AI算力，提升端侧计算效率，推动边缘AI规模化部署。

一、架构革新：专为大模型而生，开启浮点计算新纪元

周易X3的核心突破在于其底层架构的彻底革新。它采用了专为应对复杂大模型计算挑战而设计的最新DSP+DSA架构，实现了从传统定点计算向高性能浮点计算的关键跨越。该架构支持灵活的算力配置，单计算集群Cluster可提供高达8-80 FP8 TFLOPS的算力，同时单核心Core带宽飙升至256GB/s，为数据密集型的大模型应用提供了坚实的数据吞吐保障。

尤为关键的是，周易X3原生支持了端侧高效运行大模型所必需的W4A8与W4A16计算加速模式。通过对模型权重进行低比特量化，有效大幅降低了内存带宽消耗，打通了云端大模型向资源受限的端侧设备高效迁移的技术路径。

二、性能飞跃：算力密度与效率双提升，大模型能力激增十倍

得益于架构的根本性升级，周易X3在性能上实现了质的飞跃。官方数据显示，相较于前代周易X2，新一代周易X3在处理广泛应用的CNN模型时，性能提升高达30%至50%。更为惊人的是，在相同算力规格下，其AIGC大模型处理能力实现了10倍级的跨越式增长。这一惊人表现，源于其16倍的FP16 TFLOPS算力提升、4倍的计算核心带宽增长，及超过10倍的Softmax和LayerNorm关键运算性能强化。实测标明，多核协同工作的算力线性度达到了优异的70%-80%，确保了算力的高效利用。

在实际大模型推理测试中，周易X3的表现同样耀眼。在运行Llama2 7B等主流大模型时，其预填充Prefill阶段的算力利用率高达72%，而在关键的解码Decode阶段，在安谋科技自研解压硬件WDC的加持下，有效带宽利用率更是突破了100%，远超行业平均水平，充分释放了硬件的潜在算力，为大模型在端侧的流畅运行提供了极致性能保障。

三、关键技术突破：四大核心引擎，精准破解端侧AI难题

周易X3并非简单的性能堆砌，而是通过一系列集成化的硬件创新，精准解决了端侧部署AI大模型面临的带宽、调度、精度适配等核心难题。

周易X3搭载自研解压硬件WDC，创新性地集成了权重解压硬件单元，支持对大模型权重进行软件无损压缩后直接硬件解压，带来约15%的等效带宽提升，有效缓解了内存墙压力。同时，集成的AI专属硬件引擎AIFF与专用硬化调度器，将CPU负载降至0.5%以下，并显著降低了任务调度延迟。这使得NPU在并行处理多路AI任务时，即使在高优先级任务需即时响应的复杂场景下，仍能保持系统流畅高效运行。

周易X3还支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32等多精度融合计算与强浮点运算能力。凭借其全面的整数与浮点计算支持，该NPU IP能够无缝适配从传统CNN模型到前沿Transformer大模型的多样化计算需求，在智能手机边缘推理、AI PC、智能汽车等不同应用中实现性能与能效的精准平衡。此外，新增的端侧大模型必备W4A8/W4A16计算加速模式，可对模型权重进行低比特量化，大幅降低带宽消耗，有效支持云端大模型向端侧的高效迁移。

写在最后

安谋科技Arm China 周易X3 NPU IP的发布，标志着端侧AI计算能力迈上了一个全新台阶。其兼具高性能、高能效与高灵活性的特点，将直接赋能智能汽车、移动终端、智能物联网、基础设施等领域。配合其成熟易用的周易NPU Compass AI软件平台，构成了一个完整的软硬件一体化解决方案，将极大降低开发门槛，推动创新AI应用在各行各业的快速孵化和部署。

标签：周易模型