GeneBench-Pro – 유전체학 AI 에이전트의 연구 판단력을 재는 벤치마크

왜 필요한가
구성
결과가 말하는 것
실무적 의미
관련 문서
참고 자료

GeneBench-Pro는 OpenAI가 공개한 계산생물학(computational biology) 연구용 벤치마크다. 단순 지식 질의가 아니라, 지저분한 생물학 데이터셋을 받아 어떤 분석을 해야 하는지 판단하고, 실험적으로 검증하고, 최종 추정값을 제출하는 AI 에이전트 능력을 측정한다.

왜 필요한가

유전체 시퀀싱 비용은 빠르게 낮아졌지만, 병목은 데이터 생성보다 분석과 해석으로 이동했다. 실제 연구에서는 “어떤 통계 모델을 쓸 것인가”, “이상치와 배치 효과를 어떻게 다룰 것인가”, “초기 가설이 깨졌을 때 분석 계획을 바꿀 것인가” 같은 판단이 성패를 가른다.

GeneBench-Pro는 이 능력을 연구 취향(research taste)으로 부른다. 모델이 정답 코드를 외우는지보다, 데이터가 허용하는 결론과 허용하지 않는 결론을 구분하는지를 본다.

구성

항목	내용
문제 수	129개
도메인	10개 도메인, 21개 하위 도메인
범위	유전체학, 정량생물학, 중개의학, 암 유전체학, 약물유전체학 등
실행 환경	격리된 워크스페이스, Python 과학 컴퓨팅 스택, 기본 유전체 도구
공개 데이터	대표 문제 10개를 Hugging Face에 공개

문제는 합성 데이터 생성 과정으로 만들어진다. OpenAI는 실제 연구 데이터의 모호성을 흉내 내면서도, 내부적으로 인과 구조와 정답을 알 수 있게 설계했다고 설명한다. 덕분에 루브릭 채점이 아니라 알려진 목표값과 결정론적으로 비교할 수 있다.

결과가 말하는 것

OpenAI는 가장 강한 모델인 GPT-5.6 Sol이 최고 reasoning 설정에서 28.7%, Pro 모드에서 31.5% 통과율을 보였다고 밝혔다. 초기 GeneBench 구축 시점의 GPT-5가 5% 미만이었다는 점을 감안하면 빠른 개선이지만, 여전히 대부분 문제는 해결하지 못한다.

이 수치는 “AI가 생물학자를 대체한다”보다 “현재 모델이 전문가의 분석 워크플로 일부를 보조할 수 있다”에 가깝다. 한 문제를 인간 전문가가 20~40시간 수행한다고 보면, 부분 자동화만으로도 탐색·검토 비용을 크게 줄일 수 있다.

실무적 의미

생명과학 AI 에이전트 평가에서 단순 Q&A보다 분석 경로 선택을 테스트해야 한다.
생물학 데이터 분석 에이전트는 실행 능력뿐 아니라 데이터 품질 진단, 분석 계획 수정, 불확실성 보고가 필요하다.
과학 벤치마크는 모델 출력 문장보다 워크스페이스 실행 로그와 중간 판단을 함께 평가해야 한다.

참고 자료

Introducing GeneBench-Pro — OpenAI (2026-07-01)

Like?

AI Sparkup

GeneBench-Pro – 유전체학 AI 에이전트의 연구 판단력을 재는 벤치마크

왜 필요한가

구성

결과가 말하는 것

실무적 의미

관련 문서

참고 자료

AI Sparkup 구독하기