AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI 벤치마크의 함정: 과학 연구를 방해하는 잘못된 평가 시스템

과학 분야에서 AI 도구를 평가하는 벤치마크가 부적절하거나 편향되어 있어, 실제로는 유용하지 않은 AI 모델들이 과장된 성능으로 홍보되면서 연구자들이 잘못된 도구를 선택하게 만들고 있습니다.

최근 Nature에 발표된 연구 보고서에 따르면, AI가 과학 연구를 가속화하기보다는 오히려 방해하고 있는 현상이 나타나고 있습니다. 문제의 핵심은 AI 도구의 성능을 측정하는 벤치마크 시스템에 있습니다.

출처: Nature

벤치마크란 무엇인가

벤치마크는 서로 다른 방법의 성능을 비교할 수 있는 표준 테스트입니다. 마치 미터가 자의 정확성을 평가하는 기준이 되는 것처럼, 벤치마크는 “진보가 무엇인지”를 정의하고 표준화하는 역할을 합니다.

좋은 벤치마크는 특정 용도에 가장 적합한 방법을 선택하거나, 기존의 전통적인 알고리즘이 더 나은 결과를 줄 수 있는지 판단할 수 있게 해줍니다. 하지만 여기서 핵심 질문이 나옵니다. “더 나은 것”이 무엇을 의미하는가?

속도? 비용? 정확성? 자동차를 살 때 가속력, 트렁크 용량, 안전성 등 다양한 요소를 고려해야 하는 것처럼, AI 벤치마크 도구도 마찬가지입니다. 어떤 용도에서는 속도보다 정확성이 더 중요할 수 있습니다.

잘못된 벤치마크의 문제점

1. 데이터 누출 문제

벤치마크가 잘못 설계되면 오해를 불러일으킬 수 있습니다. 특히 ‘누출(leakage)’ 문제가 심각합니다. 이는 알고리즘을 훈련시킬 때 사용한 데이터가 벤치마킹에도 사용되는 경우입니다. 이렇게 되면 벤치마크는 문제 해결 능력을 테스트하는 것이 아니라 단순한 기억력 게임이 됩니다.

2. 시험을 위한 교육 문제

Stanford University 전산유전체학 연구자인 안슐 쿤다제(Anshul Kundaje) 교수는 이 문제를 “나쁜 벤치마크가 확산된다”는 세 단어로 요약했습니다. DNA 언어 모델(DNALMs) 분야에서 이런 문제가 특히 두드러집니다.

DNA 언어 모델은 유전자 조절 메커니즘 발견을 도울 수 있는 잠재력을 가지고 있습니다. 인간 게놈의 약 1.5%는 단백질 코딩 서열이고, 5-20%는 유전자 전사와 번역을 조절하는 비코딩 조절 요소입니다. 제대로 된 DNA 언어 모델이 있다면 기능성 서열을 해석하고 발견하며, 서열 변경의 결과를 예측하고, 특정 속성을 가지도록 재설계할 수 있습니다.

하지만 현재 DNA 언어 모델들은 이런 목표에 미치지 못하고 있습니다. 쿤다제 교수와 동료들에 따르면, 이는 부분적으로 모델들이 잘못된 작업에 사용되고 있기 때문입니다. 중요한 생물학적 응용보다는 모델이 충족할 수 있는 대리 목표에 맞춰 벤치마크 테스트에서 좋은 성과를 내도록 설계되고 있습니다.

DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA. 출처: X

편미분방정식 분야의 과장된 주장

Princeton University에서 물리학에서의 AI 응용으로 박사학위를 받은 닉 맥그레이비(Nick McGreivy)는 유체역학 분야에서도 유사한 문제를 발견했습니다. 그와 동료 아마르 하킴(Ammar Hakim)이 분석한 결과, 표준 해결사(standard solver)에 대한 “개선” 논문의 79%가 문제가 있는 주장을 하고 있었습니다.

약한 기준선과의 비교

대부분의 문제는 ‘약한 기준선(weak baselines)’과의 벤치마킹에서 비롯됩니다. 예를 들어, 2021년 예일대학교의 시판 왕(Sifan Wang)과 펜실베이니아대학교의 파리스 페르디카리스(Paris Perdikaris)는 자신들의 머신러닝 기반 해결사가 기존 수치 해결사보다 10-50배 빠르다고 주장했습니다.

하지만 MIT의 크리스 랙카우카스(Chris Rackauckas)가 지적했듯이, 그들은 최신 수치 해결사와 비교하지 않았습니다. 일부 최신 해결사는 일반 노트북에서도 왕과 페르디카리스의 접근법보다 7,000배나 빠른 성능을 보였습니다.

구조적 문제: 이해관계 충돌

자기 평가의 문제점

맥그레이비에 따르면, 과학용 AI를 사용하는 대부분의 사람들은 AI 도구 개발자들이 자신만의 기준으로 유용성을 평가하는 것을 기꺼이 받아들이고 있습니다. 이는 제약회사가 자신의 약물이 시장에 출시되어야 하는지 결정하도록 하는 것과 같습니다.

“AI 모델의 성능을 평가하는 사람들이 그 평가로부터 이익을 얻는 사람들과 동일합니다.” 이는 연구가 의도적으로 부정직하지 않더라도 편향될 수 있음을 의미합니다.

투명성과 과장의 문제

George Washington University의 기계항공공학자 로레나 바르바(Lorena Barba) 교수는 AI를 실제 환경에 적용하려는 시도에서 “투명성 부족, 한계 은폐, 실패 숨기기, 과도한 일반화, 데이터 부주의, 진입장벽, 과장”이라는 문제들 때문에 과학이 고통받고 있다고 지적했습니다.

Nick McGreivy 연구자
Nick McGreivy는 AI 모델의 오해를 불러일으키는 주장들을 발견했습니다. 출처: Nicholas McGreivy

벤치마크 위기의 확산

데이터 오염 문제

최근 연구들에 따르면, AI 벤치마크에서 ‘데이터 오염(data contamination)’ 문제가 심각합니다. 모델이 훈련 과정에서 벤치마크 질문이나 답을 이미 본 경우, 실제 문제 해결 능력이 아닌 암기 능력을 측정하게 됩니다.

시험을 위한 교육의 악순환

교육 분야의 “시험을 위한 교육(teaching to the test)” 현상이 AI 분야에서도 나타나고 있습니다. AI 모델들이 실제 능력 향상보다는 벤치마크 점수를 높이는 데 최적화되고 있습니다. 이는 시험을 잘 보는 학생을 만들지만, 실제 문제 해결 능력은 부족한 상황과 같습니다.

포화된 벤치마크

SuperGLUE와 같은 인기 있는 테스트에서 모델들이 이미 90% 이상의 정확도에 도달했습니다. 이 지점에서는 추가적인 개선이 통계적 노이즈와 의미 있는 향상을 구분하기 어렵게 만듭니다.

해결 방안을 위한 새로운 시도들

독립적인 평가 시스템

일부 연구팀들이 이 문제를 해결하려고 노력하고 있습니다. Beemo(Benchmark of Expert-edited Machine-generated Outputs)와 같은 독립적인 평가 시스템이 등장하고 있습니다. 이는 AI가 인간의 개입과 함께 콘텐츠를 생성하고 개선하는 능력을 평가하여 인위적인 최적화를 방지합니다.

동적 벤치마크

Meta의 얀 르쿤(Yann LeCun)이 만든 LiveBench처럼 6개월마다 문제가 바뀌는 동적 벤치마크도 등장했습니다. 이는 지식뿐만 아니라 적응성을 평가하는 것을 목표로 합니다.

실용성 중심 평가

중국의 홍산캐피털그룹이 개발한 Xbench는 이중 트랙 설계를 통해 실험실 기반 테스트와 실제 유용성 간의 격차를 줄이려고 합니다. 첫 번째 트랙은 기술적 추론 능력을, 두 번째 트랙은 실제 유용성을 평가합니다.

경제적 영향이 진짜 벤치마크

Microsoft CEO 사티아 나델라(Satya Nadella)는 AGI 과대광고를 단순한 “벤치마크 해킹”이라고 일축했습니다. 그는 AI가 전 세계 GDP를 최소 10% 증가시킬 수 없다면 이런 테스트들은 무의미하다고 주장합니다.

AI가 시험을 더 잘 보게 되었을 수는 있지만, 실제로 경제를 변화시키고 있는가? 이것이 진짜 질문입니다. 만약 AI가 생산성을 크게 향상시킬 수 없다면, 리더보드 점수는 그저 허영 지표일 뿐입니다.

앞으로 나아갈 길

과학 연구에서 AI의 진정한 가치를 평가하려면 벤치마킹 시스템을 근본적으로 개선해야 합니다. 이를 위해서는:

  • 독립적인 평가 기관의 설립
  • 실제 사용 사례 중심의 벤치마크 개발
  • 투명성과 재현가능성 확보
  • 경제적 영향력을 측정하는 새로운 지표 개발

결국 중요한 것은 AI가 시험을 통과하는 것이 아니라 실제로 세상을 변화시키는 것입니다. 나델라의 도전은 여전히 유효합니다. AI가 전 세계 GDP를 10% 증가시킬 수 있을까요? 그렇지 않다면, 우리가 측정하고 있는 것을 다시 생각해보고 실제로 중요한 것에 집중해야 할 때입니다.


참고자료:


AI Sparkup 구독하기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments