来自麻省理工学院、麻省理工学院-IBM 计算研究实验室和 IBM 研究院的众多专家提出了ChartNet——一个面向图表理解的百万级高质量多模态数据集,旨在推动图表理解与推理能力的发展。
感谢 Snowflake 这次邀请我以 Snowflake 雪花大使身份参加 Snowflake Summit。这次大会给我的触动比预想中更大,大家知道,我一直做从事数据行业,早期在 Teradata,后来在 IBM,后来在企业里 Lenovo、中金 ...
浏览器是这场整合的最后一环,它补上了 AI 进入网页世界的入口,让用户只需在 ChatGPT 里动动嘴,就能通过 Codex 在浏览器里自动完成检索、操作后台、处理工作等一切原本需要人点击的任务。
主攻复杂推理、数学推理和软件工程任务,在性能表现上直接叫板Claude,在部分维度表现中还优于Sonnet 4.6~ 参数量只有 5B ,官方说法是性能表现优于Claude Haiku 4.5,而且已经深度接入GitHub Copilot、VS Code和微软技术栈。
随着 AI 智能体逐渐从问答扩展到执行实际任务,微软认为企业面临的关键挑战之一,是让智能体能够在 API 之外操作浏览器、桌面应用和传统系统。为此,微软宣布 Windows 365 for Agents 正式可用。开发者可通过 Agent 365 工具集或预览版 Microsoft Copilot Studio 使用该服务。
随着人工智能技术的飞速演进,智能代理(AI Agent)已从单一任务执行工具向多模态协同系统转变。传统单智能体工具在复杂业务场景中逐渐暴露出局限性,如任务处理能力单一、跨系统协作困难、企业级部署复杂等问题,难以满足现代业务对智能化、自动化的 ...
2026 年,AI 编程助手已经不再是新鲜事。Claude Code、Codex CLI、Cursor、Gemini CLI……每个工具都能帮你写代码。但用过的人都知道 ...
说在前面:这又是一篇讲Harness的Survey,你最近可能已经看过了数篇讲Harness的文章、论文,其中还可能包括我上周解读的《Agent Harness Engineering:Agent的底盘工程综述|CMU、耶鲁、Amazon》。 上周的 ...
今年3月,腾讯发布了《2026年AI人才报告》,其中提到“AI辅助编程工具使通用型开发任务效率提升约50%”。这个数字在测试圈的讨论群里引发了一轮激烈争论。不是因为50%有多吓人,而是因为测试本身就是一道“执行质量”的防线——如果连执行者都在被加速,这道防线还能守多久? 更具体的信号在最近两个月开始密集出现。 4月份,JetBrains Rider 2026.2 EAP发布了一个新特性:AI ag ...
01 DeepSeek V4-Pro API 永久降价 75%,内部组建代码智能体团队对标 Claude Code :5 月 31 日折扣到期后价格直接锁定原价 1/4,输入 0.435 美元/百万 token;据报道已组建 Harness 团队主攻代码 Agent, 字符幻觉事件同周得到官方回应。
Anthropic 推出了一项名为 Routines for Claude Code 的新功能,允许开发人员配置自动化的编码工作流。这些工作流可按计划运行、通过 API 调用触发,或响应外部事件。该功能运行在 Claude Code 的云基础设施上,开发人员不需要在本地维护自己的 cron 任务、服务器或自动化管道。