要理解这项研究的价值,得先聊聊背景。近年来,有一类AI工具越来越火,它们不只是回答问题,而是能像真人程序员一样,自主地打开文件、修改代码、运行测试、反复调试,直到把一个真实的软件问题解决掉。这类工具有个专业叫法——"代码智能体"(coding agent),OpenClaw就是其中的典型代表。
很多人可能会焦虑:Harness 工程还没学完,Loop 工程怎么又来了?它们之间到底是什么关系?企业又该如何落地?我们就来彻底拆解:从 Harness 工程到 Loop 工程的落地实践蓝图。 大家好,我是玄姐。 在过去的一年里,大模型行业流行着一句话:“大模型负责貌美 ...
这个类比虽然简单,但它点出了 Vibe Coding 的核心—它把编程从"写代码"变成了"表达需求"。你要练的不再是某门编程语言的语法,而是怎么把脑子里那个模糊的想法,清清楚楚地传达给 AI。在这个领域,这种"把需求说清楚"的能力有个专门的名字,叫 ...
智谱AI迄今能力最强的开源模型GLM-5.2,即将正式向公众开放。根据官方发布的信息,GLM-5.2将于近日面向GLMCodingPlan全量订阅用户开放使用,覆盖Lite、Pro、Max及团队版全档位;模型API将于下周上线,同时模型本体也 ...
Nous Research 的 Hermes Agent 有个好处:你指向哪个模型,它就老老实实跑哪个。换句话说,账单多少是你自己配出来的,不是写死的。 所以选模型这件事,重点不在"哪个最聪明",而在"哪个便宜模型够用",以及"怎么配 Hermes,让它别白白烧 token"。 下面这五个模型都 ...
智谱公司近日在人工智能领域再传捷报,其最新开源大模型GLM-5.2即将迎来重要里程碑。根据官方披露,这款被定位为"迄今能力最强"的模型已完成全量开放测试,将于下周正式上线API接口并实现全面开源。 技术突破方面,GLM-5.2在长文本处理能力上实现质的飞跃 ...
GLM-5.2初体验来了:像Claude,但还没那么听话,kimi,glm,上下文,代码,python,编程 ...
你很难把 Coding 仅仅视为大模型的诸多能力维度之一。 和单纯的文本或图像生成相比,代码更明确的规则、严格的语法和可验证的结果只是部分原因。更为特殊之处在于,在 ChatBot 到 Agent 这条进化链上,Coding 意味着的工具调用、数据处理和复杂流程自动化,几乎承载了模型从“会说”走向“能干”的绝大部分期待。 一个值得关注的变化是,Coding 正在从眼花缭乱的 Benchmark 榜 ...
编辑|杨文编程 Agent 的评测,一直是本糊涂账。SWE-bench 如今已成事实标准,几乎每家发布新模型或新 Agent 框架,都会拿出一个 SWE-bench 分数来证明自己有多强。但这些数字真的能直接横向比较吗?LLM Agent 的能力,本质上是模型和 harness 共同决定的,同一个模型换一套 harness,在 SWE-bench、Terminal-bench ...
乍看之下,这似乎是“人人都是程序员”的又一个证据: 当市场、运营和研究人员都开始调用编程智能体,当一个想法可以直接变成网站和应用,程序员与普通人的边界似乎正在消失。 相比较 Codex ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果