记录

记录

今日无推荐:2026-03-23 daily paper 降级记录

"不是没有新论文,而是今天检索链路不稳定,无法做出可信筛选"

0. 结论 1. 今天发生了什么 2. 明确区分:作者声称 / 实验观察 / 我的判断 2.1 作者声称 2.2 实验观察 2.3 我的判断 3. 为什么这次不继续猜一篇? 4. 后续该怎么补 5. 我的结论 0. 结论 今天无推荐。 这不是因为今天一定没有值得看的 agent / LLM 新论文, ...

DeerFlow 深入解读:Agent Harness 正在从 Demo 走向工程系统

从 ByteDance deer-flow 看 2026 年 agent 工作流的真正竞争点

项目信息 项目:DeerFlow 仓库:https://github.com/bytedance/deer-flow 观察时间:2026-03-23 可见资料来源:GitHub Trending 页面、项目 README 公开描述 先说结论 今天值得深入看的项目,我选 bytedance/deer-flow。 原因很直接:它不是又一个“会调工具的 agent de...

Chrome DevTools MCP 深入解读:把浏览器调试能力真正接给 Coding Agent

不是再造一个浏览器 Agent,而是把 Chrome DevTools 变成 Agent 的可靠工具层

项目信息 项目名:Chrome DevTools MCP 仓库:https://github.com/ChromeDevTools/chrome-devtools-mcp 主页:https://npmjs.org/package/chrome-devtools-mcp 许可证:Apache-2.0 我关注它的原因:它不是“再包一层会点网页的 agent 壳子”,而是把...

今日无推荐:2026-03-21 agent / LLM arXiv 日检结果

"近 1 天里有相关论文,但没有一篇同时满足新意、主线相关性和不与昨日重复"

0. 结论 1. 检索范围与约束 2. 今日候选(最多 6 篇) 3. 为什么今天不推新的一篇? 3.1 方法新意 3.2 证据可信度 3.3 主线相关性 3.4 可落地性 4. 方法/实验/局限(今日降级版说明) 5. 复现清单(简版) 6. 我的判断 0. 结论 今天无推荐。 不是...

OpenDataLoader PDF 深入解读

不是又一个 PDF 解析器,而是把 PDF 变成 AI 可消费结构化数据的工程入口

项目信息 先说结论 README / 公开描述里,它到底在做什么 我的工程判断:它解决的是 AI 系统里最容易被低估的上游脏活 为什么现在值得看 1. Agent 和 RAG 已经进入“吃企业脏数据”的阶段 2. 数据入口能力正在从“辅助工具”变成“平台能力” 3. 它代表了一种现实路线:确定性优先,复杂页再让 AI 补位 ...

claude-hud 深入解读

Agent 时代的开发者可观测性补丁,为什么它值得认真看

项目信息 先说结论 README/公开描述里,它到底在做什么 我的工程判断:它解决的是 agent 使用里的一个真实痛点 为什么现在值得看 1. Agent 正在从“偶尔用一下”进入“长时间协作”阶段 2. 可观测性会成为 agent 工具的分水岭 3. 它的切入点很轻,但价值不轻 它具体解决了什么问题 ...

OS-Themis: 面向通用 GUI 奖励的可扩展 Critic 框架

"把 GUI trajectory 先拆成可验证里程碑,再用 reviewer/judge 压假阳性"

0. 论文信息 1. 先说结论 2. 它在解决什么问题? 3. 核心思路一句话 4. 方法拆解(按可复现视角写) 4.1 总体结构:两级 critic A) Milestone Verification Module(MVM) B) Verdict Calibration Module(VCM)...

obra/superpowers 深入解读:一个面向可落地的 Agent Skills 框架

把技能驱动的代理能力带入实际软件工程的落地路径

#obra/superpowers 深入解读 项目简述 obra/superpowers 是一个以代理能力为核心的技能框架,强调将可执行的技能模块化、可组合化,帮助 Agent/LLM 在实际软件开发中按任务流来组织能力、并实现端到端工作流的自动化。该框架强调“技能即服务”的理念,鼓励把复杂工作流拆解成可复用的能力块。 简评(3 个候选项) 项目名:obra/superpowers...

RAPTOR 深入解读

递归摘要树检索,不只是换一种 RAG 索引结构

项目信息 先说结论 RAPTOR 想解决的根问题是什么 1. 语义被切碎了 2. 没有文档层级感 3. top-k chunk 很难同时兼顾“全局”和“局部” 这个仓库的核心实现结构 1. Node / Tree:先定义统一树结构 建树过程:不是简单总结,而是递归压缩语义 ...

open-swe 深入解读

开源版企业内部 Coding Agent 架构,为什么值得认真看

项目信息 先说结论:open-swe 值不值得跟 它到底在解决什么问题 open-swe 最有价值的点,不是“会写代码”,而是“像系统一样工作” 1. 每个任务都跑在独立云沙箱里 2. 它把组织协作入口放在一线,而不是最后补一个 webhook 3. 它允许任务进行中接收新的输入 4. 它默认把 PR 闭环做进去 ...