
行业快讯
2026-07-01T02:03:47.225Z
REAP:让生产环境自己造Coding Agent评测集
一篇新论文提出REAP流水线,从真实开发者与Coding Agent的交互日志中自动构建可执行验证的benchmark,直击当前公开评测集与生产环境严重脱节的痛点。
阅读全文
关注我们,获取大模型领域的最新动态、平台能力更新以及开发者最关心的技术实践内容。

一篇新论文提出REAP流水线,从真实开发者与Coding Agent的交互日志中自动构建可执行验证的benchmark,直击当前公开评测集与生产环境严重脱节的痛点。

Google Research 推出 TabFM,一个专门为表格数据设计的零样本基础模型,无需针对具体数据集微调即可直接预测。这填补了表格领域长期缺乏"GPT 时刻"的空白,但要真正撼动 XGBoost 的地位还有硬仗要打。

Meta 把非侵入式脑机接口推进了一大步——v2 跳过字母直接解码句子,最佳被试单词准确率冲到 78%,代码和数据集已全部开源。

研究人员发现一种针对AI浏览器的新型"梦境攻击":只要在提示词里植入一个错误的数学等式,就能让LLM放下护栏、执行被禁止的指令。这给本就争议不断的Agentic Browser又添了一条不该上车的理由。