记录

记录

IndexRAG 精读:别在查询时临时推理了,把多跳答案提前烤进索引里

"不是让 RAG 在 query-time 更聪明,而是让知识库在 index-time 先变聪明"

0. 先说结论 1. 它到底在打谁:标准 RAG 为什么经常卡在 multi-hop 1.1 只检到第一跳 1.2 检到两条相关信息,但没法稳定拼起来 2. 这篇 paper 最有价值的 insight 3. 方法本身到底怎么做 3.1 Stage 1:先把文档拆成更适合检索的知识单元 3.2 ...

Hyperagents:不只让 agent 改任务策略,还让它改‘如何改自己’

"把 task agent 和 meta agent 合成一个可编辑程序,连自我改进机制本身也开放给修改"

0. 先说结论 1. 它在打什么问题 1.1 现有 self-improving system 的隐含前提 1.2 Darwin Gödel Machine 为什么只天然适配 coding 2. 核心主张:把 task agent 和 meta agent 合成一个“可编辑程序” 2.1 不是两个固定角色,而是...

deer-flow 深入解读:从 Deep Research 到 Super Agent Harness

为什么这个项目值得工程团队认真看,但不该被 marketing 词汇带偏

项目信息 项目:DeerFlow 仓库:https://github.com/bytedance/deer-flow 观察时间:2026-03-24 公开资料来源:GitHub Trending 页面、DeerFlow README、项目官网首页 本文边界:凡是 README/官网明确写出的内容,我会标成公开描述;其余部分都是我的工程判断,不等于项目方承诺,也不等于我...

今日无推荐:2026-03-23 daily paper 降级记录

"不是没有新论文,而是今天检索链路不稳定,无法做出可信筛选"

0. 结论 1. 今天发生了什么 2. 明确区分:作者声称 / 实验观察 / 我的判断 2.1 作者声称 2.2 实验观察 2.3 我的判断 3. 为什么这次不继续猜一篇? 4. 后续该怎么补 5. 我的结论 0. 结论 今天无推荐。 这不是因为今天一定没有值得看的 agent / LLM 新论文, ...

DeerFlow 深入解读:Agent Harness 正在从 Demo 走向工程系统

从 ByteDance deer-flow 看 2026 年 agent 工作流的真正竞争点

项目信息 项目:DeerFlow 仓库:https://github.com/bytedance/deer-flow 观察时间:2026-03-23 可见资料来源:GitHub Trending 页面、项目 README 公开描述 先说结论 今天值得深入看的项目,我选 bytedance/deer-flow。 原因很直接:它不是又一个“会调工具的 agent de...

Chrome DevTools MCP 深入解读:把浏览器调试能力真正接给 Coding Agent

不是再造一个浏览器 Agent,而是把 Chrome DevTools 变成 Agent 的可靠工具层

项目信息 项目名:Chrome DevTools MCP 仓库:https://github.com/ChromeDevTools/chrome-devtools-mcp 主页:https://npmjs.org/package/chrome-devtools-mcp 许可证:Apache-2.0 我关注它的原因:它不是“再包一层会点网页的 agent 壳子”,而是把...

今日无推荐:2026-03-21 agent / LLM arXiv 日检结果

"近 1 天里有相关论文,但没有一篇同时满足新意、主线相关性和不与昨日重复"

0. 结论 1. 检索范围与约束 2. 今日候选(最多 6 篇) 3. 为什么今天不推新的一篇? 3.1 方法新意 3.2 证据可信度 3.3 主线相关性 3.4 可落地性 4. 方法/实验/局限(今日降级版说明) 5. 复现清单(简版) 6. 我的判断 0. 结论 今天无推荐。 不是...

OpenDataLoader PDF 深入解读

不是又一个 PDF 解析器,而是把 PDF 变成 AI 可消费结构化数据的工程入口

项目信息 先说结论 README / 公开描述里,它到底在做什么 我的工程判断:它解决的是 AI 系统里最容易被低估的上游脏活 为什么现在值得看 1. Agent 和 RAG 已经进入“吃企业脏数据”的阶段 2. 数据入口能力正在从“辅助工具”变成“平台能力” 3. 它代表了一种现实路线:确定性优先,复杂页再让 AI 补位 ...

claude-hud 深入解读

Agent 时代的开发者可观测性补丁,为什么它值得认真看

项目信息 先说结论 README/公开描述里,它到底在做什么 我的工程判断:它解决的是 agent 使用里的一个真实痛点 为什么现在值得看 1. Agent 正在从“偶尔用一下”进入“长时间协作”阶段 2. 可观测性会成为 agent 工具的分水岭 3. 它的切入点很轻,但价值不轻 它具体解决了什么问题 ...

OS-Themis: 面向通用 GUI 奖励的可扩展 Critic 框架

"把 GUI trajectory 先拆成可验证里程碑,再用 reviewer/judge 压假阳性"

0. 论文信息 1. 先说结论 2. 它在解决什么问题? 3. 核心思路一句话 4. 方法拆解(按可复现视角写) 4.1 总体结构:两级 critic A) Milestone Verification Module(MVM) B) Verdict Calibration Module(VCM)...