long-running task 的工程重点,不在于让 Agent 更努力,或者多跑几个 session。任务每推进一段,都要能被验证。执行只是过程,收敛才是结果。没有验证点,长任务很容易变成长时间生成;有了验证点,它才开始像一个工程系统。 周末,我使用 Claude Code 的 /workflows ...
本文提出了一种简单且可扩展的框架,用于构建原生并行推理器。该推理器无需依赖外部教师模型即可学习自适应分解、多样化的并行规划和可靠的聚合。通过将自提炼的并行 SFT 与智能体并行 RL 相结合,NPR 能够生成真正的并行推理策略,而非模拟或脚本化的策略 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果