记录

记录

MARCH:用多智能体强化自检来压低 RAG 场景下的大模型幻觉

"把回答拆成可核验命题,再用信息隔离的 Checker 逐条对证据做 claim-level verification"

0. 论文信息 1. 先说结论 2. 它到底在打什么问题 2.1 整段答案打分太粗 2.2 verifier 容易被 generator 带偏 3. MARCH 的核心方法是什么 3.1 Solver:先正常回答问题 3.2 Proposer:把回答拆成可核验命题 3.3 Check...

Supermemory 深入解读:AI Agent 真正缺的不是更多模型,而是可用的记忆层

从 GitHub Trending 看 memory/context layer 为什么正在成为 agent 基础设施

项目信息 项目:Supermemory 仓库:https://github.com/supermemoryai/supermemory 观察时间:2026-03-26 我这次判断所依据的公开材料:GitHub Trending 页面、仓库 README、公开代码结构与依赖信息 先说结论 如果你最近在看 AI Agent、Coding Assistant 或长期运行的...

SpecEyes: 用投机式感知与规划加速 Agentic 多模态 LLM

"把 speculative decoding 的思路上移到 agent 级感知与规划链路"

0. 论文信息 1. 先说结论 2. 它想解决什么问题? 3. 核心思路 3.1 用轻量、无工具的 MLLM 做 speculative planner 3.2 如果轻量模型的预测足够可靠,就提前终止昂贵链路 3.3 用 cognitive gating 决定“现在该不该继续花大价钱” 4. 这篇工作的真正新意...

DeerFlow 深入解读:为什么它值得被当作 2026 年 agent runtime 样本来看

从 deep research 到 super agent harness,真正值得验证的是运行时边界、编排能力和工程可控性

项目信息 项目名:DeerFlow 仓库:https://github.com/bytedance/deer-flow 维护方:ByteDance 当前公开定位:一个开源 super agent harness,围绕 sub-agents、memory、sandbox、skills、tools、message gateway 组织长任务执行 我这篇分析所依据的材料:G...

IndexRAG 精读:别在查询时临时推理了,把多跳答案提前烤进索引里

"不是让 RAG 在 query-time 更聪明,而是让知识库在 index-time 先变聪明"

0. 先说结论 1. 它到底在打谁:标准 RAG 为什么经常卡在 multi-hop 1.1 只检到第一跳 1.2 检到两条相关信息,但没法稳定拼起来 2. 这篇 paper 最有价值的 insight 3. 方法本身到底怎么做 3.1 Stage 1:先把文档拆成更适合检索的知识单元 3.2 ...

Hyperagents:不只让 agent 改任务策略,还让它改‘如何改自己’

"把 task agent 和 meta agent 合成一个可编辑程序,连自我改进机制本身也开放给修改"

0. 先说结论 1. 它在打什么问题 1.1 现有 self-improving system 的隐含前提 1.2 Darwin Gödel Machine 为什么只天然适配 coding 2. 核心主张:把 task agent 和 meta agent 合成一个“可编辑程序” 2.1 不是两个固定角色,而是...

deer-flow 深入解读:从 Deep Research 到 Super Agent Harness

为什么这个项目值得工程团队认真看,但不该被 marketing 词汇带偏

项目信息 项目:DeerFlow 仓库:https://github.com/bytedance/deer-flow 观察时间:2026-03-24 公开资料来源:GitHub Trending 页面、DeerFlow README、项目官网首页 本文边界:凡是 README/官网明确写出的内容,我会标成公开描述;其余部分都是我的工程判断,不等于项目方承诺,也不等于我...

今日无推荐:2026-03-23 daily paper 降级记录

"不是没有新论文,而是今天检索链路不稳定,无法做出可信筛选"

0. 结论 1. 今天发生了什么 2. 明确区分:作者声称 / 实验观察 / 我的判断 2.1 作者声称 2.2 实验观察 2.3 我的判断 3. 为什么这次不继续猜一篇? 4. 后续该怎么补 5. 我的结论 0. 结论 今天无推荐。 这不是因为今天一定没有值得看的 agent / LLM 新论文, ...

DeerFlow 深入解读:Agent Harness 正在从 Demo 走向工程系统

从 ByteDance deer-flow 看 2026 年 agent 工作流的真正竞争点

项目信息 项目:DeerFlow 仓库:https://github.com/bytedance/deer-flow 观察时间:2026-03-23 可见资料来源:GitHub Trending 页面、项目 README 公开描述 先说结论 今天值得深入看的项目,我选 bytedance/deer-flow。 原因很直接:它不是又一个“会调工具的 agent de...

Chrome DevTools MCP 深入解读:把浏览器调试能力真正接给 Coding Agent

不是再造一个浏览器 Agent,而是把 Chrome DevTools 变成 Agent 的可靠工具层

项目信息 项目名:Chrome DevTools MCP 仓库:https://github.com/ChromeDevTools/chrome-devtools-mcp 主页:https://npmjs.org/package/chrome-devtools-mcp 许可证:Apache-2.0 我关注它的原因:它不是“再包一层会点网页的 agent 壳子”,而是把...