OpenAI 在 2026 年 6 月 17 日发布 LifeSciBench，这是一套面向生命科学研发的 AI benchmark。它的重点不是测模型背诵多少生物知识，而是评估 AI 系统能否处理接近真实研究工作的复杂任务，例如证据整理、实验设计、风险判断和科研沟通。

LifeSciBench 包含 750 个由专家撰写的任务，覆盖七类 workflow 和七个生物领域。OpenAI 表示，这些任务来自具博士级训练和生物科技或制药经验的科学家，并经过多轮自动和专家审核。整个数据集亦包含 1,062 个 task artifacts，包括 figures、PDF、tables、sequence files、structure 或 chemical files，以及 web references。

这个设计重要，是因为很多既有生命科学评测太干净：题目格式明确、答案单一、上下文有限。但真实研发工作往往要在不完整证据、冲突结果、实验限制和转化风险之间作判断。LifeSciBench 尝试把这些不确定性放回评测之内。

OpenAI 的评分方法亦值得留意。每个任务都有专家建立的详细 rubric，整套 benchmark 有 19,020 条评分 criteria。这代表评测不只看最后答案，而是看模型有没有提出正确科学主张、计算、决策、理由、限制和格式。对科研场景来说，这比简单的对错更贴近实际使用。

结果方面，OpenAI 表示 GPT-Rosalind 在 LifeSciBench 上比 GPT-5.5 有明显进展，整体 exact pass rate 由 25.7% 升至 36.1%。最强的进展集中在 scientific communication 和 translation，也就是把证据组织成专家可用的说明，以及连接临床前证据与临床含义。

但文章亦清楚指出现有系统仍有短板。Artifact-heavy、design-heavy 和 operationally constrained 的任务仍然困难。当任务需要处理 artifacts 或 URLs，GPT-Rosalind 的 pass rate 会由 text-only 任务的 45.1% 跌至 28.1%。这说明 AI 已能做部分研究推理，但距离可靠处理复杂资料和精确输出仍有距离。

LifeSciBench 的最大意义，是把「AI 能否加速科研」这个大问题拆成可测量的工作能力。未来真正有价值的生命科学 AI，不只是回答专业问题，而是能在实验资料、文献、结构、序列、风险和决策之间形成可审核的研究判断。

OpenAI 推出 LifeSciBench：生命科学 AI 评测开始贴近真实研发工作流

更多 Insights

Anthropic 首尔办公室开幕：Claude 在韩国企业与开发者生态加速落地

Claude Fable 5 进入 GitHub Copilot：多模型 AI 编程平台进入常态化

OpenAI 展示 Codex 科研案例：AI 正协助天体物理学家改进黑洞模拟