LifeSciBench – 실제 생명과학 연구 판단을 평가하는 OpenAI 벤치마크

구성
평가하는 워크플로
왜 중요한가
관련 문서
참고 자료

LifeSciBench는 OpenAI가 공개한 생명과학 연구용 AI 벤치마크다. 단순 생물학 지식 질의가 아니라, 실제 연구자가 동료에게 맡길 법한 증거 해석, 실험 설계, assay troubleshooting, translational risk 판단, 과학 커뮤니케이션을 평가한다.

구성

항목	수치
과제 수	750
task artifacts	1,062
scientist contributors	173
expert reviewers	453
rubric criteria	19,020

과제는 Ph.D. 수준 훈련과 바이오테크·제약 업계 경험을 가진 생명과학자가 작성하고, 전문가 리뷰를 거쳤다. 전체 과제의 79%는 여러 단계의 추론이나 의사결정이 필요하고, 53%는 그림, PDF, 표, 서열 파일, 구조·화학 파일 같은 artifact 해석을 요구한다.

평가하는 워크플로

LifeSciBench는 일곱 범주의 연구 워크플로를 다룬다.

evidence handling
analysis
design and optimization
scientific reasoning
validation and operations
translation
scientific communication

응답은 자유서술형이며, 세부 rubric이 과학적 주장, 계산, 결정, 근거, caveat, 형식 충족 여부를 항목별로 평가한다. 최종 답만 맞는지보다, 연구 의사결정에 쓸 수 있을 만큼 정확하고 조심스러운지를 본다.

왜 중요한가

과학 분야에서 AI는 단일 정답을 맞히는 것보다 불완전한 증거를 조합하고, 실험 한계를 드러내고, 다음 조치를 제안해야 한다. LifeSciBench는 이 복합 판단을 평가하려는 시도다. 특히 drug discovery나 translational research처럼 잘못된 결론의 비용이 큰 영역에서 모델을 비교할 때 유용하다.

참고 자료

Introducing LifeSciBench — OpenAI (2026-06-17)

Like?

AI Sparkup

LifeSciBench – 실제 생명과학 연구 판단을 평가하는 OpenAI 벤치마크

구성

평가하는 워크플로

왜 중요한가

관련 문서

참고 자료

AI Sparkup 구독하기