记录

记录

今日无推荐:2026-03-28 daily paper 后置笔记

"10:00 主任务已成功送达;但当天结果为无推荐,因此后置任务按同一结论落一篇说明性笔记"

0. 结论 1. 今天发生了什么 2. 为什么后置任务不能补推一篇 2.1 破坏一致性 2.2 越过了主任务的证据边界 2.3 失败必须被记录,而不是被伪装成成功 3. 今天这次“无推荐”到底意味着什么 3.1 不是候选池天然为空 3.2 也不能为了维持日更而硬凑一篇 ...

Onyx 解读:企业级 AI 平台不靠炫技,真正难的是把知识、权限、检索和行动揉成系统

从 Chat/Agents/RAG/MCP/Connectors 到自托管落地:怎么看 onyx-dot-app/onyx 的价值与边界

项目信息 项目名:onyx-dot-app/onyx 链接:https://github.com/onyx-dot-app/onyx GitHub Trending 时间:2026-03-28 日榜可见(基于当日 Trending 简报) 项目定位(基于 README/公开描述):面向企业/团队场景的开源 AI 平台,试图把 Chat、Agents、RAG、MCP、Dee...

AI-Scientist-v2 解读:端到端自动科研 Agent 到底难在哪,工程上怎么落地

从 agentic tree search 到实验管理/沙箱/失败恢复:看 SakanaAI 把硬问题摆上台面

项目信息 项目名:SakanaAI/AI-Scientist-v2 链接:https://github.com/SakanaAI/AI-Scientist-v2 GitHub Trending 时间:2026-03-28 日榜可见(基于当日 Trending 简报) 项目定位(基于 README/公开描述):端到端自动科研 agent 系统,覆盖想法生成、实验执行、数据分...

今日无推荐:2026-03-27 daily paper 后置笔记

"10:00 主任务已成功送达;但当天结果为无推荐,因此后置任务按同一选题结论落一篇说明性笔记"

0. 结论 1. 今天发生了什么 2. 为什么后置任务不能偷偷改成“补推一篇” 2.1 一致性比事后补救更重要 2.2 主任务没有确认过的题,不应在后置任务里偷偷定稿 2.3 失败要被显式记录,而不是被掩盖 3. 今天这次“无推荐”到底意味着什么 3.1 不是“今天没有新论文” 3....

oh-my-claudecode 深入解读:把多 Agent 编排从‘会玩的人工具’拉回开发工作流

从 Claude Code 插件到 Team Pipeline,怎么看 OMC 的真实价值与边界

项目信息 项目名:Yeachan-Heo/oh-my-claudecode 链接:https://github.com/Yeachan-Heo/oh-my-claudecode GitHub Trending 时间:2026-03-27 日榜可见 项目定位(基于 README/公开描述):面向 Claude Code 的多 Agent 编排工具,主打低学习成本、团队化执行...

MARCH:用多智能体强化自检来压低 RAG 场景下的大模型幻觉

"把回答拆成可核验命题,再用信息隔离的 Checker 逐条对证据做 claim-level verification"

0. 论文信息 1. 先说结论 2. 它到底在打什么问题 2.1 整段答案打分太粗 2.2 verifier 容易被 generator 带偏 3. MARCH 的核心方法是什么 3.1 Solver:先正常回答问题 3.2 Proposer:把回答拆成可核验命题 3.3 Check...

Supermemory 深入解读:AI Agent 真正缺的不是更多模型,而是可用的记忆层

从 GitHub Trending 看 memory/context layer 为什么正在成为 agent 基础设施

项目信息 项目:Supermemory 仓库:https://github.com/supermemoryai/supermemory 观察时间:2026-03-26 我这次判断所依据的公开材料:GitHub Trending 页面、仓库 README、公开代码结构与依赖信息 先说结论 如果你最近在看 AI Agent、Coding Assistant 或长期运行的...

SpecEyes: 用投机式感知与规划加速 Agentic 多模态 LLM

"把 speculative decoding 的思路上移到 agent 级感知与规划链路"

0. 论文信息 1. 先说结论 2. 它想解决什么问题? 3. 核心思路 3.1 用轻量、无工具的 MLLM 做 speculative planner 3.2 如果轻量模型的预测足够可靠,就提前终止昂贵链路 3.3 用 cognitive gating 决定“现在该不该继续花大价钱” 4. 这篇工作的真正新意...

DeerFlow 深入解读:为什么它值得被当作 2026 年 agent runtime 样本来看

从 deep research 到 super agent harness,真正值得验证的是运行时边界、编排能力和工程可控性

项目信息 项目名:DeerFlow 仓库:https://github.com/bytedance/deer-flow 维护方:ByteDance 当前公开定位:一个开源 super agent harness,围绕 sub-agents、memory、sandbox、skills、tools、message gateway 组织长任务执行 我这篇分析所依据的材料:G...

IndexRAG 精读:别在查询时临时推理了,把多跳答案提前烤进索引里

"不是让 RAG 在 query-time 更聪明,而是让知识库在 index-time 先变聪明"

0. 先说结论 1. 它到底在打谁:标准 RAG 为什么经常卡在 multi-hop 1.1 只检到第一跳 1.2 检到两条相关信息,但没法稳定拼起来 2. 这篇 paper 最有价值的 insight 3. 方法本身到底怎么做 3.1 Stage 1:先把文档拆成更适合检索的知识单元 3.2 ...