OpenAI 在 2026 年 6 月 17 日發布 LifeSciBench，這是一套面向生命科學研發的 AI benchmark。它的重點不是測模型背誦多少生物知識，而是評估 AI 系統能否處理接近真實研究工作的複雜任務，例如證據整理、實驗設計、風險判斷和科研溝通。

LifeSciBench 包含 750 個由專家撰寫的任務，覆蓋七類 workflow 和七個生物領域。OpenAI 表示，這些任務來自具博士級訓練和生物科技或製藥經驗的科學家，並經過多輪自動和專家審核。整個資料集亦包含 1,062 個 task artifacts，包括 figures、PDF、tables、sequence files、structure 或 chemical files，以及 web references。

這個設計重要，是因為很多既有生命科學評測太乾淨：題目格式明確、答案單一、上下文有限。但真實研發工作往往要在不完整證據、衝突結果、實驗限制和轉化風險之間作判斷。LifeSciBench 嘗試把這些不確定性放回評測之內。

OpenAI 的評分方法亦值得留意。每個任務都有專家建立的詳細 rubric，整套 benchmark 有 19,020 條評分 criteria。這代表評測不只看最後答案，而是看模型有沒有提出正確科學主張、計算、決策、理由、限制和格式。對科研場景來說，這比簡單的對錯更貼近實際使用。

結果方面，OpenAI 表示 GPT-Rosalind 在 LifeSciBench 上比 GPT-5.5 有明顯進展，整體 exact pass rate 由 25.7% 升至 36.1%。最強的進展集中在 scientific communication 和 translation，也就是把證據組織成專家可用的說明，以及連接臨床前證據與臨床含義。

但文章亦清楚指出現有系統仍有短板。Artifact-heavy、design-heavy 和 operationally constrained 的任務仍然困難。當任務需要處理 artifacts 或 URLs，GPT-Rosalind 的 pass rate 會由 text-only 任務的 45.1% 跌至 28.1%。這說明 AI 已能做部分研究推理，但距離可靠處理複雜資料和精確輸出仍有距離。

LifeSciBench 的最大意義，是把「AI 能否加速科研」這個大問題拆成可測量的工作能力。未來真正有價值的生命科學 AI，不只是回答專業問題，而是能在實驗資料、文獻、結構、序列、風險和決策之間形成可審核的研究判斷。

OpenAI 推出 LifeSciBench：生命科學 AI 評測開始貼近真實研發工作流

更多 Insights

Google 推出 Ask Ad Manager：Gemini agent 開始接管廣告營運查詢與報表工作

NVIDIA Blackwell 領先 AgentPerf：AI agent 基建開始有專用效能指標

Fix with Copilot 擴展至個人方案：GitHub 讓 CI 修復變成一鍵委派任務