AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 에이전트가 질문을 못 하는 이유, 배틀십 게임으로 밝혀냈다

AI 에이전트는 답변하도록 훈련받았지, 질문하도록 훈련받지 않았습니다. MIT와 하버드 연구팀이 이 차이를 보드게임 하나로 증명했고, 그 결과는 꽤 명확했습니다.

사진 출처: Alex Shipps/MIT CSAIL, AdobeStock 에셋 활용

MIT CSAIL과 하버드 SEAS 공동 연구팀이 대형 언어 모델(LLM)의 정보 탐색 능력을 분석한 논문을 발표했습니다. 연구팀은 ‘배틀십’을 변형한 “Collaborative Battleship” 게임을 테스트 환경으로 활용해, AI 모델들이 유용한 질문을 만드는 데 얼마나 서툰지 측정하고 개선 방법을 찾았습니다. 논문은 4월 ICLR에서 구두 발표됐습니다.

출처: Teaching AI agents to ask better questions by playing “Battleship” – MIT News

“질문을 잘 못한다”는 건 어떤 문제인가

AI 에이전트가 활약하는 대부분의 영역, 예를 들어 코드 작성이나 고객 응대는 명확하게 정의된 요청에 반응하는 구조입니다. 그런데 의료 진단이나 과학적 발견처럼 정답의 범위 자체가 불확실한 환경에서는 다릅니다. 에이전트 스스로 “어디를 더 캐물어야 하는지”를 판단하면서 정보를 좁혀가야 하죠.

연구팀 주저자 Gabriel Grand는 이렇게 말했습니다. “오늘날 언어 모델은 주로 복잡한 질문에 답하도록 최적화돼 있습니다. 스스로 좋은 질문을 만드는 능력은 별도로 학습하지 않았습니다.”

배틀십이 드러낸 두 가지 약점

연구팀은 배틀십을 “Collaborative Battleship”으로 재구성했습니다. 한 참가자(캡틴)가 숨겨진 배의 위치를 자연어 질문으로 물어보고, 다른 참가자(스포터)가 그에 답하는 방식입니다. 40명 이상의 사람이 먼저 플레이해 “BattleshipQA” 데이터셋을 구축했고, 이를 GPT-5, Llama 4 Scout 등 최신 모델과 비교했습니다.

두 가지 약점이 뚜렷하게 나타났습니다.

첫 번째는 캡틴(질문하는 역할)의 문제입니다. 소형 모델 Llama 4 Scout는 사전 훈련 없이 사람을 상대로 배틀십에서 이기는 비율이 고작 8%였습니다. 모델들이 정보를 효과적으로 좁혀가는 질문을 만들지 못했기 때문입니다.

두 번째는 스포터(답변하는 역할)의 문제입니다. 소형 모델들은 배의 위치에 대한 질문에 자주 틀린 답을 내놨습니다. 자신이 가진 정보를 정확히 검증하지 못하는 거죠.

두 가지 해결책, 그리고 수치

연구팀은 각각의 약점에 다른 해법을 적용했습니다.

캡틴의 질문 능력 개선에는 Monte Carlo 추론 전략을 활용했습니다. 각 답변마다 가능한 위치들의 확률을 재계산하고, 가장 많은 정보를 끌어낼 수 있는 다음 질문을 선택하는 방식입니다. 게임 공 비유를 들자면, 답변이 들어올 때마다 가능성이 높은 위치는 부풀고 낮은 위치는 쪼그라드는 구조입니다.

수치가 이를 잘 보여줍니다. Llama 4 Scout의 승률은 8%에서 82%로 뛰어올랐고, GPT-5 대비 약 1% 비용으로 더 높은 성과를 냈습니다.

스포터의 정확도 향상에는 자동 형식화(auto-formalization) 방법을 썼습니다. 캡틴의 자연어 질문을 파이썬 코드로 자동 변환해 스포터 모델이 명확한 지시에 따라 답을 검증하게 했습니다. 예를 들어 “1열에 두 행에 걸친 배가 있나요?”라는 질문이 코드 명령으로 바뀌어, 모델이 해당 영역을 직접 탐색하고 크기를 확인하는 방식입니다. 이 방법으로 평균 15%의 정확도 향상이 나타났습니다.

연구팀은 “Guess Who?” 게임에서도 동일한 방법을 테스트해 일반화 가능성을 확인했습니다. Llama 4 Scout의 성공률은 30%에서 72%로, GPT-4o는 62%에서 90%로 올라갔습니다.

AI 에이전트에서 탐색 능력이 갖는 의미

이 연구가 주목받는 이유는 단순히 보드게임 성적 때문이 아닙니다. 연구팀이 제시하는 큰 그림은 “needle-in-a-haystack 발견”, 즉 수많은 가능성 중에서 희귀한 정답을 찾아가는 탐색 능력입니다. 분자 구조 규명이나 신약 후보 탐색처럼 불확실한 공간을 좁혀가는 작업에서 AI 에이전트의 가능성이 열릴 수 있습니다.

다만 연구팀도 인정하듯 “Collaborative Battleship”은 비교적 단순한 환경입니다. 모델들은 여전히 인간 전문가를 넘지 못했고, 훨씬 넓은 선택지를 가진 현실 문제에서 이 접근이 어떻게 작동할지는 앞으로 확인이 필요합니다. 논문에는 다양한 벤치마크 수치와 추가 분석이 담겨 있습니다.

참고자료: 논문: “Shoot first, ask questions later? Building rational agents that explore and act like people”


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다