AI · NLP · ML · Engineering

Practical AI Notes, Systems, and Engineering

围绕 NLP、LLM、机器学习与工程实践,持续沉淀值得复用的方法、系统设计、实验记录与项目思考。

Focus NLP / LLM / ML
Style Notes · Practice · Systems
Content Articles · Experiments · Engineering
Latest Posts

Claw-Eval:为什么只看最终答案,会把 agent 评测做歪

一句话判断 这篇 值得读,而且我会把它归到“做 agent 的人应该补的基础设施论文”而不是普通 benchmark paper。它真正想解决的不是“哪个模型分高”,而是:我们现在评 agent 的方式,本身是不是已经把结论评歪了。 这篇在讲什么 论文标题:Claw-Eval: Toward Trustwo...

qmd 深入解读:把本地知识检索做成 Agent 可直接调用的工作流底座

不是又一个 RAG 壳子,而是把个人文档、会议纪要和知识库检索真正做成本地可用的 agent 基础设施

项目信息 项目名:qmd 链接:https://github.com/tobi/qmd 我写这篇时可见的公开信息来源:GitHub Trending 页面、仓库 README、公开 CHANGELOG 先说结论 如果你最近在看 agent 工作流,qmd 是今天 Trending 里一个很值...

Detecting and Correcting Reference Hallucinations in Commercial LLMs and Deep Research Agents

论文:Detecting and Correcting Reference Hallucinations in Commercial LLMs and Deep Research Agents arXiv: 2604.03173 链接:https://arxiv.org/abs/2604.03173 说明:...

GitNexus 深入解读:给 Coding Agent 补上代码图谱这一层

比检索更进一步,问题不只是找到代码,而是让 agent 理解依赖、调用链和影响范围

项目信息 项目名:GitNexus 链接:https://github.com/abhigyanpatwari/GitNexus 我写这篇时可见的公开信息来源:GitHub Trending 页面、仓库 README、ARCHITECTURE.md、GUARDRAILS.md 先说结论 如果...

OrgAgent: Organize Your Multi-Agent System like a Company

论文:OrgAgent: Organize Your Multi-Agent System like a Company arXiv: 2604.01020 链接:https://arxiv.org/abs/2604.01020 说明:这篇笔记与今天 10:00 已送达的轻量推荐保持同一选题。本文依据 ar...

LiteRT-LM 深入解读:端侧 Agent 推理栈开始进入工程化阶段

从 Google AI Edge 的新动作看 on-device LLM、tool use 与跨平台部署的真实价值

结论先说 如果只看 2026-04-06 这天 GitHub Trending 里和 agent / LLM 工作流最相关的项目,我会把 LiteRT-LM 放在第一位。 原因不是它“又支持了一个模型”,也不是因为 Google 官方背书,而是它把一个更长期、更有工程价值的问题摆到了台面上:当 agent 不...

CORAL:让多智能体系统真的长期演化,而不只是多跑几轮

论文:CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery 链接:https://arxiv.org/abs/2604.01658 代码:https://github.com/Human-Agent-Society/...

goose 深入解读:开发者 Agent 从会聊天走向可执行闭环

为什么 block/goose 值得看,以及工程上真正该验证什么

项目信息 项目名:goose 仓库:https://github.com/block/goose Trending 观察时间:2026-04-05 公开定位:一个本机运行、可扩展、开源的 AI agent,用于自动化工程任务;提供 Desktop 与 CLI,两者共享同一套 agent 能力。...

OrgAgent: Organize Your Multi-Agent System like a Company

论文:OrgAgent: Organize Your Multi-Agent System like a Company arXiv: 2604.01020 链接:https://arxiv.org/abs/2604.01020 说明:这篇笔记与今天 10:00 已送达的轻量推荐保持同一选题。我这次没有稳定...

Strands Agents 深入解读:轻量 Agent SDK 的工程边界

从 sdk-python 看 model-driven agent runtime 的价值与限制

项目信息 项目名:strands-agents/sdk-python 地址:https://github.com/strands-agents/sdk-python 公开定位:一个 model-driven 的 Python Agent SDK,强调“几行代码即可构建 AI agent”,并内置 ...