GeneBench-Pro는 OpenAI가 공개한 계산생물학(computational biology) 연구용 벤치마크다. 단순 지식 질의가 아니라, 지저분한 생물학 데이터셋을 받아 어떤 분석을 해야 하는지 판단하고, 실험적으로 검증하고, 최종 추정값을 제출하는 AI 에이전트 능력을 측정한다.
왜 필요한가
유전체 시퀀싱 비용은 빠르게 낮아졌지만, 병목은 데이터 생성보다 분석과 해석으로 이동했다. 실제 연구에서는 “어떤 통계 모델을 쓸 것인가”, “이상치와 배치 효과를 어떻게 다룰 것인가”, “초기 가설이 깨졌을 때 분석 계획을 바꿀 것인가” 같은 판단이 성패를 가른다.
GeneBench-Pro는 이 능력을 연구 취향(research taste)으로 부른다. 모델이 정답 코드를 외우는지보다, 데이터가 허용하는 결론과 허용하지 않는 결론을 구분하는지를 본다.
구성
| 항목 | 내용 |
|---|---|
| 문제 수 | 129개 |
| 도메인 | 10개 도메인, 21개 하위 도메인 |
| 범위 | 유전체학, 정량생물학, 중개의학, 암 유전체학, 약물유전체학 등 |
| 실행 환경 | 격리된 워크스페이스, Python 과학 컴퓨팅 스택, 기본 유전체 도구 |
| 공개 데이터 | 대표 문제 10개를 Hugging Face에 공개 |
문제는 합성 데이터 생성 과정으로 만들어진다. OpenAI는 실제 연구 데이터의 모호성을 흉내 내면서도, 내부적으로 인과 구조와 정답을 알 수 있게 설계했다고 설명한다. 덕분에 루브릭 채점이 아니라 알려진 목표값과 결정론적으로 비교할 수 있다.
결과가 말하는 것
OpenAI는 가장 강한 모델인 GPT-5.6 Sol이 최고 reasoning 설정에서 28.7%, Pro 모드에서 31.5% 통과율을 보였다고 밝혔다. 초기 GeneBench 구축 시점의 GPT-5가 5% 미만이었다는 점을 감안하면 빠른 개선이지만, 여전히 대부분 문제는 해결하지 못한다.
이 수치는 “AI가 생물학자를 대체한다”보다 “현재 모델이 전문가의 분석 워크플로 일부를 보조할 수 있다”에 가깝다. 한 문제를 인간 전문가가 20~40시간 수행한다고 보면, 부분 자동화만으로도 탐색·검토 비용을 크게 줄일 수 있다.
실무적 의미
- 생명과학 AI 에이전트 평가에서 단순 Q&A보다 분석 경로 선택을 테스트해야 한다.
- 생물학 데이터 분석 에이전트는 실행 능력뿐 아니라 데이터 품질 진단, 분석 계획 수정, 불확실성 보고가 필요하다.
- 과학 벤치마크는 모델 출력 문장보다 워크스페이스 실행 로그와 중간 판단을 함께 평가해야 한다.
관련 문서
- claude-science — 과학 연구 워크플로를 위한 Anthropic 연구 앱
- gdm-science-skills — 과학 연구 스킬 모음
- agent-harness — 에이전트 실행 루프와 평가 설계
참고 자료
- Introducing GeneBench-Pro — OpenAI (2026-07-01)