项目信息
- 项目名:DeepGEMM
- GitHub:https://github.com/deepseek-ai/DeepGEMM
- Trending 时间背景:2026-04-21 的 GitHub Trending 中,它是当天最值得继续跟进的 AI Infra 项目之一
- 我使用的主要信息来源:项目 README、公开接口说明、更新日志、仓库暴露出的示例与依赖信息
先说结论
如果你关心的是 agent/LLM 系统真正会卡在哪里,那 DeepGEMM 这类项目往往比“又一个智能体框架”更值得持续看。原因很简单:上层工作流再漂亮,最后还是要落到推理成本、吞吐、延迟、MoE 路由、KV 相关算子和硬件适配上。
DeepGEMM 的价值,不在于它又发明了一个新的 LLM 产品,而在于它试图把 现代大模型里最核心、最昂贵、最需要手工优化的 CUDA 计算原语,收敛到一个更统一、更轻量、但仍然足够快的内核库里。这个方向非常值得关注。
但我也不想把它吹成“通用答案”。就目前公开信息看,它更像是一个 偏 DeepSeek 自身路线、偏 NVIDIA 新架构、偏高门槛的高性能内核工程资产。对大多数普通应用团队来说,短期内更现实的价值不是“直接上线用”,而是 理解 LLM infra 正在如何被重新分层和重新优化。
它到底在解决什么问题
README 开宗明义:DeepGEMM 是一个统一的高性能 tensor core kernel library,目标是把现代大模型里的关键计算原语放进一个统一 CUDA 代码库里。公开描述里提到的能力包括:
- GEMM:FP8、FP4、BF16
- fused MoE / Mega MoE
- MQA scoring
- HyperConnection
- 运行时 JIT 编译
- 面向 SM90 / SM100 等新 GPU 架构的高性能实现
这件事背后的问题其实非常现实:
1. 大模型系统的瓶颈,很多时候不在“模型定义”,而在“热点内核”
你可以把 agent、workflow、RAG、tool use 全都堆起来,但只要底层推理吞吐和延迟不稳,系统成本马上炸。尤其在下面这些场景里,瓶颈几乎一定会落到 kernel 层:
- 长上下文推理
- MoE 路由和 expert 计算
- 高并发 serving
- 混合精度推理与训练
- 多 GPU 通信与计算 overlap
DeepGEMM 直接把目标对准这些地方,而不是停留在 Python 层调度。
2. LLM infra 正在从“调用 CUDA 库”走向“按模型形态定制算子”
过去很多团队满足于 cuBLAS / CUTLASS / FlashAttention 一类通用组件。但模型越来越特殊:
- mixture-of-experts 更常见
- 低比特精度更激进
- 推理解码和 prefilling 的 shape 差异更大
- 通信与计算 overlap 的收益越来越关键
这意味着单一通用库不一定够用。DeepGEMM 的路线,本质上是在说:如果你足够了解自己的模型与硬件,就值得把关键路径再往下压一层。
3. JIT 化是一个很关键的工程信号
DeepGEMM 强调“安装时不需要 CUDA 编译”,而是在运行时通过轻量 JIT 模块完成内核编译。这不是一个小细节。
它至少说明三个工程判断:
- 他们希望减少安装和分发成本,避免把用户卡死在复杂 build 流程里;
- 他们愿意接受“编译延迟”换取“按实际 shape / 环境生成更贴合的 kernel”;
- 他们在尝试让高性能 kernel 库不再只能由少数 CUDA 工程师以巨大维护成本手工托底。
这条路未必完全成熟,但方向是对的。
为什么它现在值得看
一,MoE 和低比特已经不是边缘议题,而是主线议题
README 里的更新日志非常直接:Mega MoE、FP8xFP4 GEMM、FP4 Indexer、MQA scoring,这些都不是“未来概念”,而是典型的大模型真实热点路径。
如果一个项目今天还停留在“通用矩阵乘库”叙事,价值有限;但如果它已经把重点转向:
- MoE 前后向
- decode / prefill 差异
- grouped GEMM
- 通信与计算重叠
- 更低比特的实际工程化
那就说明它是在贴着真实系统瓶颈走,而不是贴着宣传口号走。
二,它代表了 DeepSeek 这类团队的一种方法论
DeepSeek 过去一段时间给外界最强的印象之一,就是它不只是在“训模型”,而是在把很多本应由系统层承担的问题重新拉回自己控制。
DeepGEMM 的公开姿态很明确:
- 代码库尽量统一
- 核函数数量有限
- 强调简洁和可学习性
- 但性能要对标甚至超过 expert-tuned libraries
这背后不是“我们想造又一个大而全基础库”,而更像是:把最值钱的那部分路径做成自己可控、可解释、可演进的能力。
这对整个行业的启发很大。以后真正强的模型团队,未必只比参数和数据,也会比:
- 关键内核是否自研
- 编译链是否可控
- 是否能快速适配新硬件
- 是否能把模型结构变化快速下沉为算子优化
三,它的公开接口已经暴露出“不是 demo,而是想跑真活”
从 README 可见,它不只是放了几个 benchmark 图,而是给出了比较具体的接口语义:
- 非 grouped GEMM
- contiguous / masked grouped GEMM
- 面向 inference decoding 的 masked layout
- 用于 indexer 的 MQA logits kernel
- Mega MoE 的 buffer、weight transform、multi-process launch 方式
- 一系列环境变量与 JIT 配置项
这说明项目不是只想展示“我们很快”,而是想把这套能力组织成能被集成的工程接口。
当然,这离“广泛可用”还有距离,但至少它已经超过了很多只会秀吞吐数字的仓库。
它的核心思路,我怎么理解
基于当前可见 README,我认为 DeepGEMM 的核心思路可以概括为四点。
1. 用少量核心 kernel 覆盖高价值路径,而不是追求巨型抽象系统
README 明确说它避免过度依赖 CUTLASS / CuTe 那套厚重模板系统,同时强调“only a limited number of core kernel functions”。
这是一个很重要的取舍:
- 不追求“支持所有情况”
- 而是追求“把最关键、最常见、最值钱的情况做到极致”
对高性能 infra 来说,这通常比做一个全能框架更靠谱。
2. 不是只优化 GEMM,而是围绕 LLM 热路径做一体化设计
从公开说明看,DeepGEMM 的兴趣点已经超出传统 GEMM 本身:
- fused MoE
- overlapped communication
- MQA scoring
- scaling factor layout
- grouped layout 约束
- 专门服务 decoding / prefilling 的不同 kernel
这反映出一个成熟判断:LLM 系统性能不是单个矩阵乘的性能,而是整条热路径的协同效率。
3. JIT 不是附属功能,而是架构的一部分
它把 JIT cache、compiler selection、PTX/SASS dump、runtime API 等都摆到了公开配置层面。这说明 JIT 对它不是实验性 feature,而是正式设计的一部分。
这很重要,因为很多团队谈 JIT 只是“理论上灵活”,但工程上不好控。DeepGEMM 至少在往“可调、可看、可诊断”的方向做。
4. 它很明显是为新一代 NVIDIA GPU 现实而写的
SM90 / SM100、CUDA 12.9+、Tensor Core、NVLink overlap,这些关键词已经把适用边界说得很清楚了。它不是跨平台通用性能层,而是非常明确地押注某类主流高端部署环境。
这会限制普适性,但也换来更高的上限。
真正要验证什么
我觉得看这种项目,最怕两种误区:
- 误区一:看到 TFLOPS 数字就直接兴奋
- 误区二:因为门槛高,就把它当成“和自己无关”
更合理的做法是盯几个可验证问题。
1. 它对真实模型 shape 的收益是否稳定
高性能库最容易出现的问题,是在 benchmark shape 上很强,但换成真实线上 shape、真实 batch、真实 sequence length、真实路由分布,收益就没那么漂亮。
所以真正应该追的问题不是“峰值多少 TFLOPS”,而是:
- 在真实 serving 场景下 latency / throughput 提升多少
- decode 和 prefill 各自收益如何
- grouped / masked layout 的收益边界是什么
- JIT 编译开销在长时间服务中是否可接受
2. JIT 带来的维护收益,是否真的大于复杂度
JIT 的好处是灵活,但代价也很现实:
- 编译 cache 管理
- 首次延迟
- 编译失败定位
- 环境差异问题
- 和 PyTorch / CUDA 版本矩阵的相容性
DeepGEMM 公开了不少环境变量,说明作者知道这些问题存在。但对外部团队来说,真正要看的是它能否在复杂生产环境里保持可预期,而不是只在作者机器上顺滑。
3. Mega MoE 这类融合设计,是否真的能稳定复用
Mega MoE 很吸引人,因为它同时碰到了:
- expert dispatch
- expert compute
- activation
- combine
- communication/computation overlap
理论上收益很大,但也最容易出现两个问题:
- 太贴特定模型结构,迁移成本高
- 一旦模型结构演进,维护成本飙升
所以它的长期价值,取决于这套融合设计到底是“特例最优”,还是“足够通用的模型族优化模板”。
4. 它是否会成为更上层系统的稳定依赖
一个底层库真正成熟,不是因为 README 很硬核,而是因为:
- 上层训练 / serving 系统敢依赖它
- 新硬件来了可以持续跟进
- 外部开发者能定位问题
- API 不会每个月剧烈重构
这一点,公开仓库还需要时间证明。
风险点,不要忽略
风险一:适用门槛非常高
README 已经写得很明确:
- 需要 NVIDIA 新架构 GPU
- CUDA 版本要求高
- 编译器要求高
- PyTorch 版本要求不低
- 某些能力需要 multi-process launch、symmetric memory 等前提
这意味着很多团队短期内根本用不上。它的“阅读价值”可能大于“直接落地价值”。
风险二:性能叙事天然容易被误读
像“1550 TFLOPS”这样的数字很抓眼球,但所有高性能数据都必须附带上下文:
- 什么 shape
- 什么硬件
- 什么精度
- 什么 baseline
- 是否包含数据搬运与编译成本
如果没有完整上下文,数字更多是方向提示,不是采购依据。
风险三:项目和 DeepSeek 自身技术路线绑定较深
这不一定是坏事,但意味着它的很多设计选择,可能天然优先服务 DeepSeek 自身模型形态和部署环境,而不是通用生态最优。
对于外部团队,这种项目常见的正确姿势是:
- 学思路
- 借接口设计
- 参考 kernel 组织方式
- 但不要太快假设自己能无缝接入
风险四:高性能工程越往下走,越难长期对外维护
底层内核项目和上层 SDK 不一样。后者文档差一点还能忍,前者一旦版本矩阵、硬件适配、调试手段跟不上,外部用户很快就会流失。
DeepGEMM 现在看起来很强,但“持续公开维护能力”本身也是要观察的指标。
对 agent/LLM 从业者,真正能借鉴什么
虽然大多数做 agent 的团队不会直接写 CUDA kernel,但这不代表 DeepGEMM 和你无关。恰恰相反,我觉得它至少给了四个值得借鉴的工程启发。
1. 不要把性能问题全部留给底座厂商
很多 agent 团队默认认为:模型快不快,是模型 API 提供商的事。这个心态在小规模 demo 阶段没问题,但到了系统化落地阶段就不够了。
你至少要知道:
- 什么是你系统真正的成本热点
- 哪些环节能靠 workflow 优化
- 哪些环节必须靠 infra 优化
- 哪些优化值得自己掌控
DeepGEMM 的价值,就是提醒大家:真正大的收益,常常藏在“底层但关键”的位置。
2. 工程抽象要服务热路径,而不是服务 PPT 结构
README 里最值得尊重的一点,是它没有追求叙事上的大而全,而是围绕几个最关键 kernel 组织系统。
这对 agent 框架也一样。真正好的抽象不是层数多,而是:
- 热路径短
- 状态边界清楚
- 失败可诊断
- 性能代价可感知
3. “统一接口”比“单点极限优化”更有复利
DeepGEMM 不是只做一个炫技 kernel,而是在尝试把多种 LLM 关键原语纳入一个统一代码库。这个策略长期看更有复利,因为:
- 更容易复用调试能力
- 更容易统一编译与部署策略
- 更容易让上层系统形成稳定依赖
agent 系统也是一样。你真正需要的不是十个零散插件,而是一套统一、可观察、可演进的执行平面。
4. 现在真正值得投入的,不只是“更聪明的 agent”,而是“更可控的执行系统”
今天很多人谈 agent,还停留在 prompt、planner、tool schema 这些上层议题。但如果执行系统本身不稳定,planner 再聪明都只是把不稳定放大。
DeepGEMM 这种项目的存在,本质上是在提醒行业:
- 上层智能很重要
- 但底层执行与算力路径的确定性,同样重要
我的工程判断
如果只看“今天最值得长期跟踪的 GitHub Trending 项目”,我会把 DeepGEMM 放得比很多 agent 框架更靠前。不是因为它更性感,而是因为它更接近决定系统上限的地方。
但如果问“普通团队现在该不该马上采用”,我的答案会保守很多:
- 想直接用:先别急,先确认硬件、CUDA、PyTorch、模型形态是否匹配。
- 想获得启发:非常值得看,尤其适合做推理系统、训练系统、模型系统优化的人。
- 想判断长期价值:继续观察它在真实场景 benchmark、生态集成、版本稳定性和外部贡献上的演进。
一句话总结:
DeepGEMM 不是给所有人立刻拿来用的通用锤子,但它很可能代表了未来几年 LLM 基础设施会持续发生的方向:更低层、更贴真实热路径、更强调硬件感知、更敢为关键路径定制。
总结
今天的 GitHub Trending 里,纯 agent/LLM workflow 项目并不算密集,但 DeepGEMM 反而因此更值得写。因为它提醒我们:AI 系统竞争已经不只是“谁会调 prompt、谁会编排 agent”,而是正在回到一个更硬的工程问题——谁能把关键执行路径做得更快、更稳、更可控。
从公开 README 来看,DeepGEMM 已经把这个问题回答到相当深入:
- 它不满足于通用库调用;
- 它把 MoE、MQA、低比特和 JIT 放进同一工程叙事;
- 它明确押注新一代 NVIDIA GPU 的真实部署环境;
- 它试图把高性能内核从“少数专家手工艺”变成“可组织、可复用、可持续演进的资产”。
这条路很难,也远没到能轻松普及的程度。但就“值得长期跟踪”这件事本身,它已经够格了。