AI Sparkup

복잡한 AI 세상을 읽는 힘

HELMET: 장문맥 AI 모델의 능력을 정확하게 측정하는 새로운 벤치마크

최근 AI 기술의 발전으로 수백만 개의 토큰을 처리할 수 있는 장문맥 언어 모델(Long-Context Language Models, LCLMs)이 등장하면서 AI의 활용 범위가 크게 확장되고 있습니다. 그러나 이러한 모델들의 실제 성능을 제대로 평가할 수 있는 표준화된 벤치마크가 부족했습니다. 이 문제를 해결하기 위해 프린스턴 대학 연구팀은 HELMET(How to Evaluate Long-Context Language Models Effectively and Thoroughly)이라는 새로운 벤치마크를 개발했습니다. 이번 글에서는 HELMET의 중요성과 주요 특징, 그리고 이를 통해 밝혀진 최신 장문맥 모델들의 성능에 대해 알아보겠습니다.

그림: HELMET 벤치마크 로고 (출처: Princeton NLP)

장문맥 언어 모델의 부상과 평가의 어려움

장문맥 언어 모델의 다양한 활용 예시 그림 1: 기존 벤치마크에서는 작은 모델이 큰 모델보다 더 좋은 성능을 보이는 등 직관에 반하는 결과가 나타납니다. (출처: HuggingFace)

기존의 언어 모델들은 대부분 2K~8K 토큰 정도의 제한된 컨텍스트 창(context window)을 가지고 있었습니다. 그러나 최근에는 OpenAI의 GPT-4o, Anthropic의 Claude-3, Google의 Gemini-1.5와 같은 모델들이 최대 100만 개 이상의 토큰을 처리할 수 있는 능력을 갖추게 되었습니다. 이러한 발전은 방대한 법률 문서 요약, 긴 학술 논문 분석, 복잡한 코드 생성 등 이전에는 불가능했던 새로운 유형의 AI 활용을 가능하게 합니다.

그러나 이렇게 길어진 컨텍스트를 처리하는 모델들을 평가하는 것은 쉽지 않습니다. 기존의 자연어 벤치마크는 이러한 장문맥 모델들을 평가하기에 적합하지 않았기 때문에, 최근까지는 주로 perplexity(언어 모델이 다음 단어를 예측하는 불확실성 측정값)나 ‘needle-in-a-haystack'(긴 텍스트 속에서 특정 정보를 찾는 능력 테스트)과 같은 합성 작업으로 모델을 평가해왔습니다.

문제는 이러한 평가 방식이 실제 응용 프로그램에서의 성능을 정확히 반영하지 못한다는 점입니다. 또한 모델 개발자들은 각자 다른 임의의 데이터셋으로 평가하기 때문에 모델 간 비교가 어렵습니다. 더 큰 문제는 현재 사용되는 벤치마크들이 혼란스럽고 직관에 반하는 결과를 보여주기도 한다는 것입니다. 예를 들어, 더 작은 모델(Llama-3.1 8B)이 더 큰 모델(Llama-3.1 70B)보다 우수한 성능을 보이는 등의 모순된 결과가 나타나기도 합니다.

HELMET의 핵심 특징: 다양성, 제어 가능성, 신뢰성

HELMET 데이터셋 개요 그림 2: HELMET 데이터셋의 개요. 다양한 작업과 평가 메트릭을 포함합니다. (출처: HuggingFace)

HELMET은 이러한 문제점을 해결하기 위해 세 가지 핵심 목표 – 다양성(diversity), 제어 가능성(controllability), 신뢰성(reliability) – 을 가지고 설계되었습니다. 이 벤치마크는 8K에서 128K 토큰까지의 입력 길이를 평가할 수 있으며, 더 길이가 긴 컨텍스트로도 쉽게 확장할 수 있습니다.

1. 다양한 평가 카테고리

HELMET은 다양한 실제 응용 프로그램을 반영하는 여러 작업을 포함합니다:

  • RAG(Retrieval-Augmented Generation): 실제 검색 결과를 기반으로 생성하는 능력 평가
  • Cite(인용): 생성된 텍스트에 적절한 출처를 인용하는 능력 평가
  • Re-rank(재순위화): 검색된 문서의 관련성을 재평가하는 능력 평가
  • ICL(In-Context Learning): 주어진 예시를 통해 새로운 작업을 학습하는 능력 평가
  • LongQA(긴 문서 질의응답): 긴 문서에서 질문에 답변하는 능력 평가
  • Summ(요약): 긴 문서를 효과적으로 요약하는 능력 평가

이러한 다양한 작업을 통해 모델의 장문맥 처리 능력을 여러 측면에서 종합적으로 평가할 수 있습니다.

2. 제어 가능한 길이와 복잡성

HELMET의 중요한 특징 중 하나는 입력 길이를 제어할 수 있다는 점입니다. 연구자들은 검색된 패시지 수(RAG, Cite, Re-rank), 예시 수(ICL), 또는 입력 문서의 길이(LongQA, Summ)를 조정함으로써 모델의 성능을 다양한 컨텍스트 길이에서 평가할 수 있습니다. 이를 통해 모델이 길어지는 컨텍스트에 어떻게 대응하는지 체계적으로 분석할 수 있습니다.

3. 신뢰할 수 있는 평가 방식

기존의 많은 벤치마크는 ROUGE와 같은 n-gram 기반 메트릭을 사용하지만, 이러한 메트릭은 인간의 판단과 상관관계가 낮다는 문제가 있습니다. HELMET은 모델 기반 평가 방식을 채택하여 모델 간의 차이와 다양한 입력 길이에 따른 성능 변화를 더 잘 구분할 수 있도록 했습니다. 또한 인간 평가와의 일치도가 높은 메트릭을 사용하여 신뢰성을 높였습니다.

평가 메트릭 비교 그림 3: ROUGE는 모델과 길이를 구분하지 못하지만, 모델 기반 평가는 다양한 성능 수준을 더 잘 구분합니다. (출처: HuggingFace)

4. 강력한 프롬프팅 지원

HELMET은 인스트럭션 튜닝된 모델뿐만 아니라 베이스 모델에 대한 평가도 지원합니다. 이를 위해 일부 작업에서는 in-context learning 예시를 통해 베이스 모델의 성능을 향상시키는 방법을 제공합니다. 이는 실제 응용 환경에서의 성능을 더 정확하게 반영합니다.

HELMET 평가 결과로 본 장문맥 모델의 현재 상태

HELMET은 총 59개의 최신 장문맥 모델을 평가했습니다. 여기에는 주요 독점 모델과 오픈소스 모델, 그리고 다양한 아키텍처(전체 어텐션 트랜스포머, 하이브리드 아키텍처)와 위치 외삽(positional extrapolation) 기법을 사용하는 모델들이 포함됩니다. 이 평가를 통해 밝혀진 몇 가지 중요한 통찰을 살펴보겠습니다.

장문맥 능력 평가에는 다양한 평가가 필요하다

장문맥 벤치마크는 종종 요약이나 질의응답과 같은 특정 응용 프로그램에 초점을 맞추는 경향이 있습니다. 그러나 HELMET의 평가 결과, 다양한 카테고리 간의 성능 상관관계가 높지 않다는 것이 밝혀졌습니다. 이는 한 가지 작업에서의 성능이 다른 작업에서의 성능을 예측하지 못한다는 것을 의미합니다.

카테고리 간 상관관계 그림 4: 다양한 작업 카테고리 간의 상관관계가 낮습니다. (출처: HuggingFace)

일부 작업(예: RAG와 MS-MARCO)은 검색 기반이라는 공통점 때문에 어느 정도 상관관계를 보이지만, 다른 작업들(예: Summ과 Cite)은 거의 상관관계가 없습니다. 특히 ICL(In-Context Learning)은 다른 작업들과 가장 낮은 상관관계를 보이는데, 이는 이 작업이 모델에게 고유한 능력을 요구한다는 것을 시사합니다. 따라서 모델 개발자들은 모델의 종합적인 능력을 이해하기 위해 이러한 다양한 축에서 평가를 수행해야 합니다.

모델 성능은 길이와 작업 복잡성에 따라 저하된다

HELMET은 주요 독점 모델과 일부 오픈소스 모델에 대한 평가 결과를 제시합니다. 이 결과에서 몇 가지 중요한 패턴을 발견할 수 있습니다.

모델 평가 결과 그림 5: 다양한 작업과 입력 길이에 따른 선별된 인스트럭션 튜닝 모델의 HELMET 결과. (출처: HuggingFace)

첫째, 오픈소스 모델은 복잡한 작업에서 독점 모델에 뒤처집니다. 단순한 작업(예: Recall)에서는 차이가 작아 보이지만, 인용(Cite)과 같은 더 복잡한 작업에서는 그 격차가 더 커집니다.

둘째, 길이가 증가함에 따른 성능 저하는 카테고리에 따라 다릅니다. GPT-4o와 Gemini와 같은 최첨단 모델조차도 재순위화(Re-rank)와 같은 작업에서는 길이가 증가함에 따라 성능이 크게 감소합니다. 이러한 성능 변화는 단순히 합성 작업 성능만으로는 관찰할 수 없습니다.

마지막으로, 모든 카테고리에서 명확한 승자가 없습니다. 이는 다양한 측면에서의 평가가 필요하다는 것을 다시 한번 확인시켜 줍니다. 위치 외삽 방법의 성능이나 ‘lost-in-the-middle’ 현상(긴 문서의 중간 부분에서 정보 검색 능력이 저하되는 현상) 등에 대한 추가 분석은 원 논문에서 찾아볼 수 있습니다.

HELMET의 실용적 활용

HELMET은 단순히 학술적인 벤치마크를 넘어 실용적인 활용 방법도 제공합니다. 이를 통해 모델 개발자들은 자신의 모델을 빠르게 평가하고 개선할 수 있습니다.

모델 개발 가속화

모델 개발 과정에서 빠른 반복을 위해, HELMET 팀은 Recall과 RAG 작업을 사용할 것을 권장합니다. 이 작업들은 빠른 평가와 다른 실제적인 작업과의 상관관계 사이에서 좋은 균형을 제공합니다. 다음과 같은 간단한 명령어로 이러한 평가를 실행할 수 있습니다:

python eval.py --config configs/rag.yaml --model_name_or_path <model_name>

기존 모델과의 빠른 비교

장문맥 모델을 평가하는 것은 컴퓨팅 자원과 메모리 비용 측면에서 매우 비용이 많이 듭니다. 예를 들어, 70B 모델에서 모든 길이에 대해 HELMET을 실행하려면 8개의 80GB GPU가 있는 노드가 수백 GPU 시간 동안 필요합니다. HELMET을 통해 평가함으로써, 연구자들은 59개의 다양한 크기와 아키텍처를 가진 기존 모델과 직접 비교할 수 있습니다. HELMET 웹사이트에서 리더보드를 확인할 수 있습니다.

다양한 활용 방법

HELMET은 HuggingFace의 transformers 라이브러리, TGI(Text Generation Inference), HuggingFace의 Inference Endpoints, vllm, 그리고 모델 제공자의 API 등 다양한 방법으로 모델을 로드하고 평가할 수 있습니다. 이는 사용자가 자신의 환경과 요구 사항에 맞게 유연하게 HELMET을 활용할 수 있게 합니다.

미래 전망

HELMET은 장문맥 언어 모델의 더 포괄적인 평가를 위한 중요한 진전이지만, LCLMs의 흥미로운 응용 분야는 여전히 많이 남아 있습니다. 예를 들어, HELMET 팀은 최근 LongProc이라는 벤치마크를 발표했는데, 이는 _장문형 생성_과 _절차 따르기_에 대한 LCLMs 평가에 초점을 맞추고 있습니다. 이는 수만 개의 토큰을 사고 단계에서 생성하는 추론 모델을 개발하는 데 중요합니다.

요약 작업은 최대 1K 토큰의 긴 출력을 가지지만, LongProc은 최대 8K 토큰까지의 더 긴 출력에 초점을 맞춥니다. HELMET과 마찬가지로, LongProc도 신뢰할 수 있는 평가 설정과 다양한 작업으로 설계되었습니다. HELMET 팀은 LongProc을 HELMET의 평가 제품군에 통합하는 작업을 진행 중이며, 이를 통해 장문형 작업에 대한 LCLMs의 더 포괄적인 평가가 가능해질 것으로 기대됩니다.

결론

장문맥 언어 모델은 AI의 새로운 지평을 열고 있지만, 이러한 모델들의 진정한 능력을 이해하기 위해서는 정확하고 다양한 벤치마크가 필요합니다. HELMET은 이러한 필요성에 부응하여 다양한 실제 응용 프로그램에서 LCLMs를 종합적으로 평가할 수 있는 도구를 제공합니다.

HELMET의 평가 결과는 오픈소스 모델과 독점 모델 사이에 여전히 격차가 있으며, 모든 모델이 길이가 증가함에 따라 성능 저하를 경험한다는 것을 보여줍니다. 또한 다양한 작업 간의 상관관계가 낮다는 것은 모델을 다양한 측면에서 평가하는 것이 중요하다는 것을 강조합니다.

앞으로 AI 연구자들과 개발자들은 HELMET을 활용하여 더 강력하고 효과적인 장문맥 모델을 개발할 수 있을 것이며, 이는 궁극적으로 더 풍부하고 유용한 AI 응용 프로그램의 발전으로 이어질 것입니다.


참고자료:

Comments