DeepGEMM 深入解读:大模型基础设施真正该盯的,不是又一个 Agent 壳

从 FP8/FP4 GEMM、Mega MoE 到 JIT kernel,看 DeepSeek 为什么把注意力放在更底层的 LLM 计算原语上

Posted by zwt on April 21, 2026

项目信息

  • 项目名:DeepGEMM
  • GitHub:https://github.com/deepseek-ai/DeepGEMM
  • Trending 时间背景:2026-04-21 的 GitHub Trending 中,它是当天最值得继续跟进的 AI Infra 项目之一
  • 我使用的主要信息来源:项目 README、公开接口说明、更新日志、仓库暴露出的示例与依赖信息

先说结论

如果你关心的是 agent/LLM 系统真正会卡在哪里,那 DeepGEMM 这类项目往往比“又一个智能体框架”更值得持续看。原因很简单:上层工作流再漂亮,最后还是要落到推理成本、吞吐、延迟、MoE 路由、KV 相关算子和硬件适配上。

DeepGEMM 的价值,不在于它又发明了一个新的 LLM 产品,而在于它试图把 现代大模型里最核心、最昂贵、最需要手工优化的 CUDA 计算原语,收敛到一个更统一、更轻量、但仍然足够快的内核库里。这个方向非常值得关注。

但我也不想把它吹成“通用答案”。就目前公开信息看,它更像是一个 偏 DeepSeek 自身路线、偏 NVIDIA 新架构、偏高门槛的高性能内核工程资产。对大多数普通应用团队来说,短期内更现实的价值不是“直接上线用”,而是 理解 LLM infra 正在如何被重新分层和重新优化

它到底在解决什么问题

README 开宗明义:DeepGEMM 是一个统一的高性能 tensor core kernel library,目标是把现代大模型里的关键计算原语放进一个统一 CUDA 代码库里。公开描述里提到的能力包括:

  • GEMM:FP8、FP4、BF16
  • fused MoE / Mega MoE
  • MQA scoring
  • HyperConnection
  • 运行时 JIT 编译
  • 面向 SM90 / SM100 等新 GPU 架构的高性能实现

这件事背后的问题其实非常现实:

1. 大模型系统的瓶颈,很多时候不在“模型定义”,而在“热点内核”

你可以把 agent、workflow、RAG、tool use 全都堆起来,但只要底层推理吞吐和延迟不稳,系统成本马上炸。尤其在下面这些场景里,瓶颈几乎一定会落到 kernel 层:

  • 长上下文推理
  • MoE 路由和 expert 计算
  • 高并发 serving
  • 混合精度推理与训练
  • 多 GPU 通信与计算 overlap

DeepGEMM 直接把目标对准这些地方,而不是停留在 Python 层调度。

2. LLM infra 正在从“调用 CUDA 库”走向“按模型形态定制算子”

过去很多团队满足于 cuBLAS / CUTLASS / FlashAttention 一类通用组件。但模型越来越特殊:

  • mixture-of-experts 更常见
  • 低比特精度更激进
  • 推理解码和 prefilling 的 shape 差异更大
  • 通信与计算 overlap 的收益越来越关键

这意味着单一通用库不一定够用。DeepGEMM 的路线,本质上是在说:如果你足够了解自己的模型与硬件,就值得把关键路径再往下压一层。

3. JIT 化是一个很关键的工程信号

DeepGEMM 强调“安装时不需要 CUDA 编译”,而是在运行时通过轻量 JIT 模块完成内核编译。这不是一个小细节。

它至少说明三个工程判断:

  • 他们希望减少安装和分发成本,避免把用户卡死在复杂 build 流程里;
  • 他们愿意接受“编译延迟”换取“按实际 shape / 环境生成更贴合的 kernel”;
  • 他们在尝试让高性能 kernel 库不再只能由少数 CUDA 工程师以巨大维护成本手工托底。

这条路未必完全成熟,但方向是对的。

为什么它现在值得看

一,MoE 和低比特已经不是边缘议题,而是主线议题

README 里的更新日志非常直接:Mega MoE、FP8xFP4 GEMM、FP4 Indexer、MQA scoring,这些都不是“未来概念”,而是典型的大模型真实热点路径。

如果一个项目今天还停留在“通用矩阵乘库”叙事,价值有限;但如果它已经把重点转向:

  • MoE 前后向
  • decode / prefill 差异
  • grouped GEMM
  • 通信与计算重叠
  • 更低比特的实际工程化

那就说明它是在贴着真实系统瓶颈走,而不是贴着宣传口号走。

二,它代表了 DeepSeek 这类团队的一种方法论

DeepSeek 过去一段时间给外界最强的印象之一,就是它不只是在“训模型”,而是在把很多本应由系统层承担的问题重新拉回自己控制。

DeepGEMM 的公开姿态很明确:

  • 代码库尽量统一
  • 核函数数量有限
  • 强调简洁和可学习性
  • 但性能要对标甚至超过 expert-tuned libraries

这背后不是“我们想造又一个大而全基础库”,而更像是:把最值钱的那部分路径做成自己可控、可解释、可演进的能力。

这对整个行业的启发很大。以后真正强的模型团队,未必只比参数和数据,也会比:

  • 关键内核是否自研
  • 编译链是否可控
  • 是否能快速适配新硬件
  • 是否能把模型结构变化快速下沉为算子优化

三,它的公开接口已经暴露出“不是 demo,而是想跑真活”

从 README 可见,它不只是放了几个 benchmark 图,而是给出了比较具体的接口语义:

  • 非 grouped GEMM
  • contiguous / masked grouped GEMM
  • 面向 inference decoding 的 masked layout
  • 用于 indexer 的 MQA logits kernel
  • Mega MoE 的 buffer、weight transform、multi-process launch 方式
  • 一系列环境变量与 JIT 配置项

这说明项目不是只想展示“我们很快”,而是想把这套能力组织成能被集成的工程接口。

当然,这离“广泛可用”还有距离,但至少它已经超过了很多只会秀吞吐数字的仓库。

它的核心思路,我怎么理解

基于当前可见 README,我认为 DeepGEMM 的核心思路可以概括为四点。

1. 用少量核心 kernel 覆盖高价值路径,而不是追求巨型抽象系统

README 明确说它避免过度依赖 CUTLASS / CuTe 那套厚重模板系统,同时强调“only a limited number of core kernel functions”。

这是一个很重要的取舍:

  • 不追求“支持所有情况”
  • 而是追求“把最关键、最常见、最值钱的情况做到极致”

对高性能 infra 来说,这通常比做一个全能框架更靠谱。

2. 不是只优化 GEMM,而是围绕 LLM 热路径做一体化设计

从公开说明看,DeepGEMM 的兴趣点已经超出传统 GEMM 本身:

  • fused MoE
  • overlapped communication
  • MQA scoring
  • scaling factor layout
  • grouped layout 约束
  • 专门服务 decoding / prefilling 的不同 kernel

这反映出一个成熟判断:LLM 系统性能不是单个矩阵乘的性能,而是整条热路径的协同效率。

3. JIT 不是附属功能,而是架构的一部分

它把 JIT cache、compiler selection、PTX/SASS dump、runtime API 等都摆到了公开配置层面。这说明 JIT 对它不是实验性 feature,而是正式设计的一部分。

这很重要,因为很多团队谈 JIT 只是“理论上灵活”,但工程上不好控。DeepGEMM 至少在往“可调、可看、可诊断”的方向做。

4. 它很明显是为新一代 NVIDIA GPU 现实而写的

SM90 / SM100、CUDA 12.9+、Tensor Core、NVLink overlap,这些关键词已经把适用边界说得很清楚了。它不是跨平台通用性能层,而是非常明确地押注某类主流高端部署环境。

这会限制普适性,但也换来更高的上限。

真正要验证什么

我觉得看这种项目,最怕两种误区:

  • 误区一:看到 TFLOPS 数字就直接兴奋
  • 误区二:因为门槛高,就把它当成“和自己无关”

更合理的做法是盯几个可验证问题。

1. 它对真实模型 shape 的收益是否稳定

高性能库最容易出现的问题,是在 benchmark shape 上很强,但换成真实线上 shape、真实 batch、真实 sequence length、真实路由分布,收益就没那么漂亮。

所以真正应该追的问题不是“峰值多少 TFLOPS”,而是:

  • 在真实 serving 场景下 latency / throughput 提升多少
  • decode 和 prefill 各自收益如何
  • grouped / masked layout 的收益边界是什么
  • JIT 编译开销在长时间服务中是否可接受

2. JIT 带来的维护收益,是否真的大于复杂度

JIT 的好处是灵活,但代价也很现实:

  • 编译 cache 管理
  • 首次延迟
  • 编译失败定位
  • 环境差异问题
  • 和 PyTorch / CUDA 版本矩阵的相容性

DeepGEMM 公开了不少环境变量,说明作者知道这些问题存在。但对外部团队来说,真正要看的是它能否在复杂生产环境里保持可预期,而不是只在作者机器上顺滑。

3. Mega MoE 这类融合设计,是否真的能稳定复用

Mega MoE 很吸引人,因为它同时碰到了:

  • expert dispatch
  • expert compute
  • activation
  • combine
  • communication/computation overlap

理论上收益很大,但也最容易出现两个问题:

  • 太贴特定模型结构,迁移成本高
  • 一旦模型结构演进,维护成本飙升

所以它的长期价值,取决于这套融合设计到底是“特例最优”,还是“足够通用的模型族优化模板”。

4. 它是否会成为更上层系统的稳定依赖

一个底层库真正成熟,不是因为 README 很硬核,而是因为:

  • 上层训练 / serving 系统敢依赖它
  • 新硬件来了可以持续跟进
  • 外部开发者能定位问题
  • API 不会每个月剧烈重构

这一点,公开仓库还需要时间证明。

风险点,不要忽略

风险一:适用门槛非常高

README 已经写得很明确:

  • 需要 NVIDIA 新架构 GPU
  • CUDA 版本要求高
  • 编译器要求高
  • PyTorch 版本要求不低
  • 某些能力需要 multi-process launch、symmetric memory 等前提

这意味着很多团队短期内根本用不上。它的“阅读价值”可能大于“直接落地价值”。

风险二:性能叙事天然容易被误读

像“1550 TFLOPS”这样的数字很抓眼球,但所有高性能数据都必须附带上下文:

  • 什么 shape
  • 什么硬件
  • 什么精度
  • 什么 baseline
  • 是否包含数据搬运与编译成本

如果没有完整上下文,数字更多是方向提示,不是采购依据。

风险三:项目和 DeepSeek 自身技术路线绑定较深

这不一定是坏事,但意味着它的很多设计选择,可能天然优先服务 DeepSeek 自身模型形态和部署环境,而不是通用生态最优。

对于外部团队,这种项目常见的正确姿势是:

  • 学思路
  • 借接口设计
  • 参考 kernel 组织方式
  • 但不要太快假设自己能无缝接入

风险四:高性能工程越往下走,越难长期对外维护

底层内核项目和上层 SDK 不一样。后者文档差一点还能忍,前者一旦版本矩阵、硬件适配、调试手段跟不上,外部用户很快就会流失。

DeepGEMM 现在看起来很强,但“持续公开维护能力”本身也是要观察的指标。

对 agent/LLM 从业者,真正能借鉴什么

虽然大多数做 agent 的团队不会直接写 CUDA kernel,但这不代表 DeepGEMM 和你无关。恰恰相反,我觉得它至少给了四个值得借鉴的工程启发。

1. 不要把性能问题全部留给底座厂商

很多 agent 团队默认认为:模型快不快,是模型 API 提供商的事。这个心态在小规模 demo 阶段没问题,但到了系统化落地阶段就不够了。

你至少要知道:

  • 什么是你系统真正的成本热点
  • 哪些环节能靠 workflow 优化
  • 哪些环节必须靠 infra 优化
  • 哪些优化值得自己掌控

DeepGEMM 的价值,就是提醒大家:真正大的收益,常常藏在“底层但关键”的位置。

2. 工程抽象要服务热路径,而不是服务 PPT 结构

README 里最值得尊重的一点,是它没有追求叙事上的大而全,而是围绕几个最关键 kernel 组织系统。

这对 agent 框架也一样。真正好的抽象不是层数多,而是:

  • 热路径短
  • 状态边界清楚
  • 失败可诊断
  • 性能代价可感知

3. “统一接口”比“单点极限优化”更有复利

DeepGEMM 不是只做一个炫技 kernel,而是在尝试把多种 LLM 关键原语纳入一个统一代码库。这个策略长期看更有复利,因为:

  • 更容易复用调试能力
  • 更容易统一编译与部署策略
  • 更容易让上层系统形成稳定依赖

agent 系统也是一样。你真正需要的不是十个零散插件,而是一套统一、可观察、可演进的执行平面。

4. 现在真正值得投入的,不只是“更聪明的 agent”,而是“更可控的执行系统”

今天很多人谈 agent,还停留在 prompt、planner、tool schema 这些上层议题。但如果执行系统本身不稳定,planner 再聪明都只是把不稳定放大。

DeepGEMM 这种项目的存在,本质上是在提醒行业:

  • 上层智能很重要
  • 但底层执行与算力路径的确定性,同样重要

我的工程判断

如果只看“今天最值得长期跟踪的 GitHub Trending 项目”,我会把 DeepGEMM 放得比很多 agent 框架更靠前。不是因为它更性感,而是因为它更接近决定系统上限的地方。

但如果问“普通团队现在该不该马上采用”,我的答案会保守很多:

  • 想直接用:先别急,先确认硬件、CUDA、PyTorch、模型形态是否匹配。
  • 想获得启发:非常值得看,尤其适合做推理系统、训练系统、模型系统优化的人。
  • 想判断长期价值:继续观察它在真实场景 benchmark、生态集成、版本稳定性和外部贡献上的演进。

一句话总结:

DeepGEMM 不是给所有人立刻拿来用的通用锤子,但它很可能代表了未来几年 LLM 基础设施会持续发生的方向:更低层、更贴真实热路径、更强调硬件感知、更敢为关键路径定制。

总结

今天的 GitHub Trending 里,纯 agent/LLM workflow 项目并不算密集,但 DeepGEMM 反而因此更值得写。因为它提醒我们:AI 系统竞争已经不只是“谁会调 prompt、谁会编排 agent”,而是正在回到一个更硬的工程问题——谁能把关键执行路径做得更快、更稳、更可控

从公开 README 来看,DeepGEMM 已经把这个问题回答到相当深入:

  • 它不满足于通用库调用;
  • 它把 MoE、MQA、低比特和 JIT 放进同一工程叙事;
  • 它明确押注新一代 NVIDIA GPU 的真实部署环境;
  • 它试图把高性能内核从“少数专家手工艺”变成“可组织、可复用、可持续演进的资产”。

这条路很难,也远没到能轻松普及的程度。但就“值得长期跟踪”这件事本身,它已经够格了。