LifeSciBench는 OpenAI가 공개한 생명과학 연구용 AI 벤치마크다. 단순 생물학 지식 질의가 아니라, 실제 연구자가 동료에게 맡길 법한 증거 해석, 실험 설계, assay troubleshooting, translational risk 판단, 과학 커뮤니케이션을 평가한다.
구성
| 항목 | 수치 |
|---|---|
| 과제 수 | 750 |
| task artifacts | 1,062 |
| scientist contributors | 173 |
| expert reviewers | 453 |
| rubric criteria | 19,020 |
과제는 Ph.D. 수준 훈련과 바이오테크·제약 업계 경험을 가진 생명과학자가 작성하고, 전문가 리뷰를 거쳤다. 전체 과제의 79%는 여러 단계의 추론이나 의사결정이 필요하고, 53%는 그림, PDF, 표, 서열 파일, 구조·화학 파일 같은 artifact 해석을 요구한다.
평가하는 워크플로
LifeSciBench는 일곱 범주의 연구 워크플로를 다룬다.
- evidence handling
- analysis
- design and optimization
- scientific reasoning
- validation and operations
- translation
- scientific communication
응답은 자유서술형이며, 세부 rubric이 과학적 주장, 계산, 결정, 근거, caveat, 형식 충족 여부를 항목별로 평가한다. 최종 답만 맞는지보다, 연구 의사결정에 쓸 수 있을 만큼 정확하고 조심스러운지를 본다.
왜 중요한가
과학 분야에서 AI는 단일 정답을 맞히는 것보다 불완전한 증거를 조합하고, 실험 한계를 드러내고, 다음 조치를 제안해야 한다. LifeSciBench는 이 복합 판단을 평가하려는 시도다. 특히 drug discovery나 translational research처럼 잘못된 결론의 비용이 큰 영역에서 모델을 비교할 때 유용하다.
관련 문서
- ai-agent-evaluation — 에이전트 평가 설계
- deployment-simulation — 실제 배포 위험을 사전 예측하는 평가 방법
- exploit-evals — 고위험 능력 평가의 단계적 분류
참고 자료
- Introducing LifeSciBench — OpenAI (2026-06-17)