2026-05-02
paper
01 · latest dispatch
Claw-Eval-Live:别再只测最终答案,Agent 评测要回到真实工作流与可验证执行证据
"静态题库会老,真实工作流会变;评测如果只看最后一句话,很多 agent 其实还没真正被测到"
Open entry不先读文章流,先按方向进入。首页主区就是 6 个知识主题的大图入口。
Train · Serve
Enter domainText · Gen
Enter domainPython · Practice
Enter domainLinux · Deploy
Enter domainCurves · Experiments
Enter domainScript · Automate
Enter domain"静态题库会老,真实工作流会变;评测如果只看最后一句话,很多 agent 其实还没真正被测到"
Open entry为什么我觉得 1jehuang/jcode 值得看,不在于它又是一个 AI 编程工具,而在于它试图把 agent runtime、memory、browser 和 swarm 协作收进同一个 harness
Open entry"从用户指令到结算成功,关键不是模型会不会想,而是外层控制、验证、守护和可观测性做得够不够硬"
Open entry从 jcode 看 agent 工具竞争正在从『会不会调用模型』转向『能不能承载长期工程工作流』
Open entry