记录

聚焦 NLP、机器学习、深度学习与工程实践的学习记录与项目笔记
AI · NLP · ML · Engineering

Practical AI Notes, Systems, and Engineering

围绕 NLP、LLM、机器学习与工程实践,持续沉淀值得复用的方法、系统设计、实验记录与项目思考。

Focus NLP / LLM / ML
Style Notes · Practice · Systems
Content Articles · Experiments · Engineering
Latest Posts

DeerFlow 深入解读:Agent Harness 正在从 Demo 走向工程系统

从 ByteDance deer-flow 看 2026 年 agent 工作流的真正竞争点

项目信息 项目:DeerFlow 仓库:https://github.com/bytedance/deer-flow 观察时间:2026-03-23 可见资料来源:GitHub Trending 页面、项目 README 公开描述 先说结论 今天值得深入看的项目,我选 bytedance...

Chrome DevTools MCP 深入解读:把浏览器调试能力真正接给 Coding Agent

不是再造一个浏览器 Agent,而是把 Chrome DevTools 变成 Agent 的可靠工具层

项目信息 项目名:Chrome DevTools MCP 仓库:https://github.com/ChromeDevTools/chrome-devtools-mcp 主页:https://npmjs.org/package/chrome-devtools-mcp 许可证:Apache-2...

今日无推荐:2026-03-21 agent / LLM arXiv 日检结果

"近 1 天里有相关论文,但没有一篇同时满足新意、主线相关性和不与昨日重复"

0. 结论 1. 检索范围与约束 2. 今日候选(最多 6 篇) 3. 为什么今天不推新的一篇? 3.1 方法新意 3.2 证据可信度 3.3 主线相关性 3.4 可落地性 4. 方法/实验/局限(今日降级版说明) ...

OpenDataLoader PDF 深入解读

不是又一个 PDF 解析器,而是把 PDF 变成 AI 可消费结构化数据的工程入口

项目信息 先说结论 README / 公开描述里,它到底在做什么 我的工程判断:它解决的是 AI 系统里最容易被低估的上游脏活 为什么现在值得看 1. Agent 和 RAG 已经进入“吃企业脏数据”的阶段 2. 数据入口能力正在从“辅助工具”变成“平台能力”...

claude-hud 深入解读

Agent 时代的开发者可观测性补丁,为什么它值得认真看

项目信息 先说结论 README/公开描述里,它到底在做什么 我的工程判断:它解决的是 agent 使用里的一个真实痛点 为什么现在值得看 1. Agent 正在从“偶尔用一下”进入“长时间协作”阶段 2. 可观测性会成为 agent 工具的分水岭 ...

OS-Themis: 面向通用 GUI 奖励的可扩展 Critic 框架

"把 GUI trajectory 先拆成可验证里程碑,再用 reviewer/judge 压假阳性"

0. 论文信息 1. 先说结论 2. 它在解决什么问题? 3. 核心思路一句话 4. 方法拆解(按可复现视角写) 4.1 总体结构:两级 critic A) Milestone Verification Module(MVM) ...

obra/superpowers 深入解读:一个面向可落地的 Agent Skills 框架

把技能驱动的代理能力带入实际软件工程的落地路径

#obra/superpowers 深入解读 项目简述 obra/superpowers 是一个以代理能力为核心的技能框架,强调将可执行的技能模块化、可组合化,帮助 Agent/LLM 在实际软件开发中按任务流来组织能力、并实现端到端工作流的自动化。该框架强调“技能即服务”的理念,鼓励把复杂工作流拆解成可复用的...

RAPTOR 深入解读

递归摘要树检索,不只是换一种 RAG 索引结构

项目信息 先说结论 RAPTOR 想解决的根问题是什么 1. 语义被切碎了 2. 没有文档层级感 3. top-k chunk 很难同时兼顾“全局”和“局部” 这个仓库的核心实现结构 1. Node / Tree:先...

open-swe 深入解读

开源版企业内部 Coding Agent 架构,为什么值得认真看

项目信息 先说结论:open-swe 值不值得跟 它到底在解决什么问题 open-swe 最有价值的点,不是“会写代码”,而是“像系统一样工作” 1. 每个任务都跑在独立云沙箱里 2. 它把组织协作入口放在一线,而不是最后补一个 webhook 3. ...

TDAD: 用图式测试影响分析降低 AI Coding Agent 回归

"Tell the agent which tests to check, not just how to do TDD"

0. 论文信息 1. 先说结论 2. 它在解决什么问题? 3. 核心思路一句话 4. 方法拆解(按可复现视角写) 4.1 系统总览 阶段 A:离线建图 / 索引 阶段 B:在线影响分析 ...