海力士判断：内存与算力失衡，Accelerator-in-Memory 正在成为必然

发布时间：2025-12-30 来源：芯联汇

当 LLM 推理被内存墙与能耗成本锁死，把最耗带宽的计算下沉到内存，正在成为现实解法

最近小编系统看了一份来自 SK hynix 海力士的技术材料，题目是《AI-Specific Computing Memory Solution：From AiM Device to Heterogeneous AiMX-xPU System for Comprehensive LLM Inference》。

在真正读完之前，小编对 LLM 推理的直觉判断，其实很简单：模型大了，算力不够，那就继续堆 GPU。

但把这份材料从头到尾消化完之后，小编反而越来越确定一件事：

LLM 推理真正卡住的，已经不是算力上限，而是内存墙叠加能耗墙。

SK hynix 海力士在材料中先做了一件非常重要的事：把 Transformer 推理阶段的计算拆开来看。

尤其是 Multi-Head Attention（MHA），几乎始终是 GEMV

而 GEMV 有一个无法回避的工程事实：算术强度极低，天然 memory-bound。

把这一点用工程特性摊开，其实就一目了然了：

只要 LLM 推理的关键路径还是 MHA + GEMV，单纯堆算力，永远跨不过内存墙。

真正让这件事变成“架构级问题”的，是成本和能耗。

SK hynix 海力士在材料里反复强调：LLM 推理已经成为 OPEX 驱动型负载。

今天的 LLM 推理，不是“跑不动”，而是“跑得越来越贵”。

也正是在这个前提下，小编才真正理解了SK hynix 海力士推 AiM（Accelerator-in-Memory）的工程逻辑。

AiM 并不是“再造一个加速器”，而是做了一件很克制的事情：

把最消耗带宽、最浪费能耗的计算，直接放进内存内部完成。

对比传统架构和 AiM 架构，差异其实非常清晰：

AiM 不是为了“算得更快”，而是为了“少做最浪费系统能量的事情”。

SK hynix 海力士在材料中反复强调一个容易被误解的点：

真正的目标，是构建一个 AiMX-xPU 的异构系统：

GPU / xPU：继续负责算术强度高的 GEMM / FC

AiMX（AiM Card）：专门接管 GEMV / MHA

系统层面做算子分工，而不是让 GPU 单点硬扛

这里的关键不是“谁更强”，而是把不适合 GPU 干的活，从 GPU 身上拿走。

更有意思的是，SK hynix 把同一套逻辑，完整延伸到了端侧 AI。

在 on-device LLM 场景中：

于是才有了 LPDDR-AiM 的形态：

AiM 的成立条件，来自算子结构本身，而不是某一个特定应用场景。

LLM 推理真正的天花板，不是算力墙，而是内存墙叠加能耗墙。

SK hynix 海力士推 AiM / AiMX，并不是在“做一颗更酷的内存”，而是在尝试回答一个更根本的问题：

如果最耗带宽的计算继续远离内存，LLM 在工程和经济上，还能持续扩展吗？

至少从这套架构给出的逻辑来看，答案是否定的。

未来 AI 计算的竞争，很可能不再是谁的单点算力更强，而是谁更早跑通“以内存为中心、按算子分工”的系统性价比。

近期提问

更多>>

近期活动

更多>>