OpenAI 推出 LifeSciBench:生命科學 AI 評測開始貼近真實研發工作流

OpenAI 於 2026 年 6 月 17 日發布 LifeSciBench,由生命科學專家撰寫和審核 750 個任務,用於評估 AI 是否能支援真實研發判斷。

OpenAI 在 2026 年 6 月 17 日發布 LifeSciBench,這是一套面向生命科學研發的 AI benchmark。它的重點不是測模型背誦多少生物知識,而是評估 AI 系統能否處理接近真實研究工作的複雜任務,例如證據整理、實驗設計、風險判斷和科研溝通。

LifeSciBench 包含 750 個由專家撰寫的任務,覆蓋七類 workflow 和七個生物領域。OpenAI 表示,這些任務來自具博士級訓練和生物科技或製藥經驗的科學家,並經過多輪自動和專家審核。整個資料集亦包含 1,062 個 task artifacts,包括 figures、PDF、tables、sequence files、structure 或 chemical files,以及 web references。

這個設計重要,是因為很多既有生命科學評測太乾淨:題目格式明確、答案單一、上下文有限。但真實研發工作往往要在不完整證據、衝突結果、實驗限制和轉化風險之間作判斷。LifeSciBench 嘗試把這些不確定性放回評測之內。

OpenAI 的評分方法亦值得留意。每個任務都有專家建立的詳細 rubric,整套 benchmark 有 19,020 條評分 criteria。這代表評測不只看最後答案,而是看模型有沒有提出正確科學主張、計算、決策、理由、限制和格式。對科研場景來說,這比簡單的對錯更貼近實際使用。

結果方面,OpenAI 表示 GPT-Rosalind 在 LifeSciBench 上比 GPT-5.5 有明顯進展,整體 exact pass rate 由 25.7% 升至 36.1%。最強的進展集中在 scientific communication 和 translation,也就是把證據組織成專家可用的說明,以及連接臨床前證據與臨床含義。

但文章亦清楚指出現有系統仍有短板。Artifact-heavy、design-heavy 和 operationally constrained 的任務仍然困難。當任務需要處理 artifacts 或 URLs,GPT-Rosalind 的 pass rate 會由 text-only 任務的 45.1% 跌至 28.1%。這說明 AI 已能做部分研究推理,但距離可靠處理複雜資料和精確輸出仍有距離。

LifeSciBench 的最大意義,是把「AI 能否加速科研」這個大問題拆成可測量的工作能力。未來真正有價值的生命科學 AI,不只是回答專業問題,而是能在實驗資料、文獻、結構、序列、風險和決策之間形成可審核的研究判斷。

MODULE.002 //

更多 Insights

分享網站、AI automation、數碼營銷、AI news 和 VMTS 公司新聞。