OpenAI 推出 LifeSciBench:生命科学 AI 评测开始贴近真实研发工作流

OpenAI 于 2026 年 6 月 17 日发布 LifeSciBench,由生命科学专家撰写和审核 750 个任务,用于评估 AI 是否能支持真实研发判断。

OpenAI 在 2026 年 6 月 17 日发布 LifeSciBench,这是一套面向生命科学研发的 AI benchmark。它的重点不是测模型背诵多少生物知识,而是评估 AI 系统能否处理接近真实研究工作的复杂任务,例如证据整理、实验设计、风险判断和科研沟通。

LifeSciBench 包含 750 个由专家撰写的任务,覆盖七类 workflow 和七个生物领域。OpenAI 表示,这些任务来自具博士级训练和生物科技或制药经验的科学家,并经过多轮自动和专家审核。整个数据集亦包含 1,062 个 task artifacts,包括 figures、PDF、tables、sequence files、structure 或 chemical files,以及 web references。

这个设计重要,是因为很多既有生命科学评测太干净:题目格式明确、答案单一、上下文有限。但真实研发工作往往要在不完整证据、冲突结果、实验限制和转化风险之间作判断。LifeSciBench 尝试把这些不确定性放回评测之内。

OpenAI 的评分方法亦值得留意。每个任务都有专家建立的详细 rubric,整套 benchmark 有 19,020 条评分 criteria。这代表评测不只看最后答案,而是看模型有没有提出正确科学主张、计算、决策、理由、限制和格式。对科研场景来说,这比简单的对错更贴近实际使用。

结果方面,OpenAI 表示 GPT-Rosalind 在 LifeSciBench 上比 GPT-5.5 有明显进展,整体 exact pass rate 由 25.7% 升至 36.1%。最强的进展集中在 scientific communication 和 translation,也就是把证据组织成专家可用的说明,以及连接临床前证据与临床含义。

但文章亦清楚指出现有系统仍有短板。Artifact-heavy、design-heavy 和 operationally constrained 的任务仍然困难。当任务需要处理 artifacts 或 URLs,GPT-Rosalind 的 pass rate 会由 text-only 任务的 45.1% 跌至 28.1%。这说明 AI 已能做部分研究推理,但距离可靠处理复杂资料和精确输出仍有距离。

LifeSciBench 的最大意义,是把「AI 能否加速科研」这个大问题拆成可测量的工作能力。未来真正有价值的生命科学 AI,不只是回答专业问题,而是能在实验资料、文献、结构、序列、风险和决策之间形成可审核的研究判断。

MODULE.002 //

更多 Insights

分享网站、AI automation、数码营销、AI news 和 VMTS 公司新闻。