JavaScript C - 搜索 News

12 小时

把真实GitHub仓库转化为可执行终端轨迹！TerminalTraj入选ICML 2026

一个面向终端智能体的大规模轨迹生成管道（pipeline）。 TerminalTraj从真实GitHub仓库出发，自动构建Docker化的可执行环境（Dockerized execution environments），生成与环境对齐的终端相关的任务（terminal tasks），并通过可执行的检验代码（executable validation code）验证Agent是否真正完成任务。

Tencent News

打破SWE-bench唯分数论，首个独立测量harness的基准开源了

编辑｜杨文编程 Agent 的评测，一直是本糊涂账。SWE-bench 如今已成事实标准，几乎每家发布新模型或新 Agent 框架，都会拿出一个 SWE-bench 分数来证明自己有多强。但这些数字真的能直接横向比较吗？LLM Agent 的能力，本质上是模型和 harness 共同决定的，同一个模型换一套 harness，在 SWE-bench、Terminal-bench ...

3 小时

1680份员工履历揭开Anthropic招人底牌：「基础设施老兵」更吃香

当前，在狂热的 AI 浪潮下，大众对于头部 AI 大厂或明星初创公司往往有着一种带有光环的「刻板印象」：一定是由顶尖高校博士、各大优秀前沿研究论文的作者、算法天才等组成的团队。但实际上，似乎并不总是如此。最近，科技行业招聘专家 ...

汇通财经

6月15日财经早餐：美伊达成谅解备忘录文本，金价触及4300上方，美油 ...

汇通财经讯——北京时间6月15日亚市早盘，现货黄金交投于高开超1%，最高触及4300美元/盎司上方，现交投于4281美元/盎司附近，受益于加息预期打压，因美伊谅解备忘录文本完成，并于6月19日签署。

51CTO

Kimi K2.7 Code 开源，代码能力全面提升，token 省30%

Kimi Code Bench v2 覆盖10余种主流编程语言和完整生产技术栈，任务来自内部工程需求、线上生产事故、真实开源项目，偏后端、基础设施、性能调优、安全、前端和 ML 数据工程。刚刚，月之暗面 Kimi K2.7 Code 正式发布，同步在 HuggingFace 开源。 token 消耗降了30% ...

9 天

提升 10%：谷歌 Chrome 浏览器刷新 JetStream 3 跑分纪录利好

IT之家6月6日消息，谷歌公司昨日(6月5日)发布博文，宣布其Chrome浏览器在JetStream3和Speedometer3.1两项主流浏览器基准测试中再次刷新纪录。　　 IT之家注：JetStream由苹果WebKit团队开发， ...

至顶头条 on MSN

DocLang：专为AI设计的机器可读文档格式标准

由IBM、英伟达和Red Hat发起，Linux基金会旗下LF AI & Data项目托管的DocLang工作组，致力于打造一种开放、通用、面向AI的文档格式标准。现有PDF、JPEG等文档格式主要面向人类阅读，难以被AI高效解析，导致企业在利用生成式AI处理业务文档时面临复杂性高、成本上升、可靠性下降等问题。DocLang旨在构建类似JSON的结构化机器可读格式，提升企业文档数据的准备、交换与治 ...