AI Agent 框架日益复杂,例如 LangChain 的代码库已有约 40 万行,CrewAI 的依赖项多达 131 个。但这些复杂抽象的背后,核心逻辑其实只要 100 行 ...
当程序员们开始用“灵魂架构师”取代“码农”自嘲时,一场由AI驱动的办公革命已悄然蔓延至更广阔的职场领域。这场变革的起点是Vibe Coding——这个诞生于2025年初的概念,通过意图驱动开发模式,让开发者从逐行敲代码的桎梏中解放出来。如今,其技术逻辑正通过Vibe Working模式向十亿级白领群体渗透,重新定义着知识工作的形态。 在编程领域,Claude Code、Codex等工具已实现“语音 ...
我们今天来聊聊大模型的 Coding Benchmark,特别是 SWE-bench Pro,深入的了解Benchmark得分到底意味着什么? 以及 能不能用Benchmark来选择模型。 随着 Claude Mythos 5/Fable 5 的发布,大家是不是也像我一样被下面这张表刷屏了? 图片 特别是 SWE-bench Pro 80.3% 的得分,可以说是 ...
Vibe Working时代来了,不是轰的一响,而是哇的一声。 听到这,知道的人会说「1024(一级棒)」,不知道的人可能会一脸懵:什么是Vibe Working? 但如果将这里面的「Working」替换成「Coding」,很多人就悟了。 原因无他,过去一年多来,全球技术圈最火的词非Vibe Coding(氛围编程)莫属。 自从解锁了Vibe Coding后,许多程序员内心的os是:别再叫我「码农 ...
Mythos 5是原汁原味的满血版“Mythos”,但只给少数受信任用户使用。它在网络安全等领域解除了安全限制,官网称其“拥有全球最顶尖的网安攻防与生物科研纯血能力”。 Anthropic遮遮掩掩两个月的“神话”Mythos,终于降临了—— 自家有史以来最强悍的大模型旗舰 ...
作者:QQ浏览器团队出品笔者作为QQ浏览器的开发,研究了一下Chromium的AI Coding开发体系,希望从中学习到一些东西。一、整体介绍Chromium 是全球最大的开源 C++ 项目之一,代码量超过 3500 ...
GitHub 上的 Agent 基础设施项目已然经历了一轮爆发。OpenClaw 月涨 21 万星只是一众案例中最显眼的那个,事实上 GitHub 整个 2 月月度 Trending 榜单前 20 几乎被 AI 基础设施、Agent ...
5月29日,基础大模型创业公司阶跃星辰(StepFun)发布并开源新一代Flash模型Step 3.7 Flash。这是一款专为生产级Agent打造的模型,官方称其目标是在速度、成本、可靠执行和复杂任务处理能力之间取得更好的平衡。
5月29日,基础大模型创业公司阶跃星辰(StepFun)发布并开源新一代Flash模型Step 3.7 Flash。这是一款专为生产级Agent打造的模型,官方称其目标是在速度、成本、可靠执行和复杂任务处理能力之间取得更好的平衡。 随着Agent从演示阶段走向企业真实的生产环境,对基础模型的要求也在发生变化。模型不仅要能回答问题,还要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮长程任务中保持 ...
5月29日,基础大模型创业公司阶跃星辰(StepFun)发布并开源 Step 3.7 Flash 模型。这是一款专为生产级 Agent 打造的Flash 模型,官方称其致力于在速度、成本、可靠执行和复杂任务处理能力之间实现更好平衡。
这项由中国科学技术大学与阿里巴巴旗下高德地图联合开展的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.17526,有兴趣深入了解的读者可通过该编号查阅完整论文。研究团队围绕一个在AI编程圈子里越来越热门却始终悬而未决的问题展开了一场大规模测试:当今最强的AI编程助手,究竟能不能像一个真正的软件工程师那样,从一张白纸开始,把一套完整的企 ...
大家好,我是冷逸。 硅谷最近兴起了一种“Tokenmaxxing”(Token刷榜)文化。