“블랙박스”를 열다: 인공지능 모델의 내부 들여다보기
인공지능 모델, 특히 클로드(Claude)와 같은 대형 언어 모델(LLM)은 우리 생활의 많은 부분에서 활용되고 있지만, 그 내부 작동 방식은 여전히 미스터리로 남아 있었습니다. 2025년 3월 27일, 앤트로픽(Anthropic)은 AI 모델의 내부 작동 원리를 들여다볼 수 있는 획기적인 연구 결과를 발표했습니다.
이 연구의 가장 큰 의의는 지금까지 ‘블랙박스’로 여겨졌던 AI 모델이 어떻게 ‘생각’하는지 일부나마 볼 수 있게 되었다는 점입니다. 앤트로픽의 연구진은 “회로 추적(Circuit Tracing)”이라는 기술을 개발하여, 클로드가 응답을 만들어내는 과정을 단계별로 추적할 수 있게 되었습니다.
앤트로픽의 연구원 조슈아 뱃슨(Joshua Batson)은 “AI 모델을 들여다보면 무수히 많은 숫자들만 보입니다. 이것만으로는 모델이 어떻게 작동하는지 이해하기 어렵죠”라고 설명했습니다. 그래서 연구팀은 신경과학의 뇌 스캔 기술에서 영감을 받아, AI 모델 내부를 관찰할 수 있는 일종의 ‘현미경’을 개발했습니다.
놀라운 발견들: AI는 우리가 생각했던 것보다 더 복잡하게 작동한다
앤트로픽의 연구진은 Claude 3.5 Haiku 모델을 대상으로 10가지 핵심 행동에 대한 심층 분석을 진행했고, 그 결과 몇 가지 놀라운 사실을 발견했습니다:
앤트로픽의 연구는 영어, 프랑스어, 중국어 간에 공유되는 특성이 존재함을 보여주며, 개념적 보편성을 시사한다. (출처: Anthropic)
1. 보편적 사고의 언어
클로드는 수십 개의 언어를 유창하게 구사할 수 있습니다. 그렇다면 클로드는 여러 언어를 각각 처리하는 별도의 모듈을 가지고 있을까요? 연구진은 클로드가 언어에 관계없이 공통된 개념적 공간에서 ‘생각’한 후, 이를 특정 언어로 번역한다는 사실을 발견했습니다.
예를 들어, ‘작다’의 반대말을 영어, 프랑스어, 중국어로 물었을 때, 클로드는 먼저 언어 중립적인 ‘작음’과 ‘반대’ 개념을 활성화한 다음, 이를 해당 언어로 출력합니다. 이는 AI 모델이 한 언어에서 배운 것을 다른 언어에 적용할 수 있음을 시사합니다.
클로드가 시를 완성하는 방식. 간섭 없이(상단 섹션), 모델은 두 번째 줄 끝에 “rabbit”이라는 운을 미리 계획한다. “rabbit” 개념을 억제하면(중간 섹션), 모델은 다른 운을 사용한다. “green” 개념을 주입하면(하단 섹션), 모델은 완전히 다른 결말을 계획한다. (출처: Anthropic)
2. 시를 쓸 때 미리 계획하기
대형 언어 모델은 단어를 하나씩 순차적으로 생성한다고 알려져 있습니다. 그러나 클로드가 운율이 있는 시를 쓸 때, 연구팀은 놀라운 사실을 발견했습니다. 클로드는 다음 줄을 쓰기 전에 이미 그 줄의 마지막 단어를 미리 결정하고, 그에 맞춰 나머지 부분을 작성합니다.
연구팀은 “당근을 보고 잡아야 했다”(He saw a carrot and had to grab it)라는 첫 줄을 주었을 때, 클로드는 “그의 굶주림은 굶주린 토끼 같았다”(His hunger was like a starving rabbit)라고 응답했습니다. 그런데 연구진이 모델 내부를 들여다보니, 클로드는 이미 첫 줄의 “grab it”을 처리할 때 “rabbit”이라는 단어를 떠올렸고, 이 단어로 끝나도록 두 번째 줄을 구성했습니다.
연구팀의 한 명인 뱃슨은 “시에서 계획하는 부분은 정말 놀라웠어요. 마지막 순간에 운을 맞추려고 애쓰는 것이 아니라, 이미 어디로 갈지 알고 있었던 거죠”라고 소감을 밝혔습니다.
3. 암산의 비밀
클로드는 계산기로 설계되지 않았음에도 ‘머릿속’에서 숫자를 정확히 더할 수 있습니다. 연구진은 클로드가 36+59를 계산하는 과정을 살펴봤습니다.
흥미롭게도, 클로드는 여러 계산 경로를 병렬로 사용합니다. 하나는 대략적인 답(약 40 + 약 60, 또는 약 57 + 36)을 계산하고, 다른 경로는 마지막 자릿수(6+9=15, 5로 끝남)를 정확히 결정합니다. 이 두 경로가 결합되어 최종 답인 95를 도출합니다.
클로드가 암산을 할 때 사용하는 복잡하고 병렬적인 경로들. (출처: Anthropic)
더 놀라운 사실은, 클로드에게 어떻게 계산했는지 물으면 “1의 자리를 더하고(6+9=15), 10의 자리를 더하고(3+5+1=9), 결과는 95″라는 표준적인 설명을 제공한다는 점입니다. 즉, 클로드는 자신이 실제로 사용한 정교한 전략을 인식하지 못하고 있습니다.
4. 클로드의 설명이 항상 정직할까?
최근 출시된 Claude 3.7 Sonnet과 같은 모델은 최종 답변을 제시하기 전에 ‘소리 내어 생각’할 수 있습니다. 이런 ‘사고 체인’이 실제 사고 과정을 나타내는지, 아니면 결론에 맞게 그럴듯한 과정을 꾸며내는 것인지 의문이 있었습니다.
연구 결과, 클로드는 0.64의 제곱근을 계산할 때는 중간 단계(64의 제곱근 계산)를 정확히 거치지만, 쉽게 계산할 수 없는 큰 숫자의 코사인 같은 어려운 문제에서는 계산을 실제로 수행하지 않고도 계산했다고 주장하는 모습을 보였습니다. 더 흥미로운 점은, 답에 대한 힌트가 주어지면 클로드는 역으로 중간 단계를 찾아내 그 목표에 도달하는 ‘동기 부여된 추론’을 보여준다는 것입니다.
클로드가 쉬운 질문과 어려운 질문에 대해 보여주는 충실한 추론과 동기부여된(불충실한) 추론의 예. (출처: Anthropic)
5. 환각(Hallucination)의 메커니즘
왜 언어 모델은 때때로 정보를 만들어내는 ‘환각’을 경험할까요? 연구팀은 클로드에서 특이한 현상을 발견했습니다: 기본적으로 클로드는 답을 모를 때 추측하지 않고 거부하도록 설정되어 있습니다.
클로드에게 농구선수 마이클 조던에 대해 물으면, ‘알려진 대상’을 나타내는 특성이 활성화되어 이 기본 거부 회로를 억제하고 답변을 제공합니다. 반면, 존재하지 않는 인물인 “마이클 배트킨”에 대해 물으면 답변을 거부합니다.
왼쪽: 클로드가 알려진 인물(농구선수 마이클 조던)에 대한 질문에 답하는 과정. 오른쪽: 클로드가 알려지지 않은 사람(마이클 배트킨)에 대한 질문에 답변을 거부하는 과정. (출처: Anthropic)
연구팀은 모델을 조작하여 ‘알려진 답변’ 특성을 활성화하거나 ‘모른다’ 특성을 억제함으로써, 마이클 배트킨이 체스를 한다는 일관된 환각을 만들어 낼 수 있었습니다. 이런 ‘오작동’은 때로는 자연스럽게 발생하여 환각으로 이어집니다.
6. 다단계 추론
“댈러스가 위치한 주의 수도는 무엇인가?”와 같은 질문에, 모델은 단순히 답을 외워서 대답할 수도 있습니다. 하지만 연구진은 클로드가 실제로 더 정교한 과정을 사용한다는 것을 발견했습니다.
클로드는 먼저 “댈러스는 텍사스에 있다”라는 특성을 활성화한 다음, 이를 “텍사스의 수도는 오스틴이다”라는 별도의 개념과 연결합니다. 즉, 모델은 단순히 암기된 응답을 되풀이하는 것이 아니라, 독립적인 사실을 결합하여 답에 도달하고 있습니다.
클로드가 이 문장을 완성하기 위해 여러 추론 단계를 수행하며, 먼저 댈러스가 위치한 주를 추출한 다음 그 주의 수도를 식별한다. (출처: Anthropic)
연구의 한계와 의의
이번 연구는 혁신적이지만, 몇 가지 한계가 있습니다. 앤트로픽의 방법론은 짧고 간단한 프롬프트에서도 클로드가 수행하는 총 계산의 일부만 포착할 수 있습니다. 또한, 수십 단어로 된 프롬프트에 대한 회로를 이해하는 데 몇 시간의 인간 노력이 필요합니다. 현대 모델에서 사용되는 수천 단어의 복잡한 사고 체인까지 확장하려면 방법론과 분석 방식 모두 개선이 필요합니다.
그럼에도 불구하고, 이 연구 결과는 단순히 과학적으로 흥미로울 뿐만 아니라, AI 시스템을 이해하고 신뢰성을 확보하는 목표를 향한 중요한 진전을 나타냅니다. 앤트로픽은 실시간 모니터링, 모델 특성 개선, 정렬 과학 등 다양한 접근 방식에 투자하고 있으며, 이번 해석 가능성 연구는 그중에서도 높은 위험과 높은 보상을 지닌 중요한 과학적 도전입니다.
결론: 새로운 AI 이해의 시대로
앤트로픽의 연구는 AI 모델이 어떻게 작동하는지에 대한 실제 증거를 찾을 수 있는 새로운 시대의 시작을 알립니다. 브라운 대학교의 잭 메룰로(Jack Merullo)는 이 연구에 대해 “방법론 측면에서 정말 멋진 발전”이라고 평가했습니다.
뱃슨은 이렇게 말합니다: “우리는 더 이상 ‘그들이 생각하고 있나요? 추론하고 있나요? 꿈을 꾸고 있나요? 암기하고 있나요?’와 같은 비유를 사용할 필요가 없습니다. 문자 그대로 모델이 단계별로 무엇을 하고 있는지 볼 수 있다면, 아마도 이제 우리는 비유가 필요 없을 것입니다.”
이 연구는 앞으로 AI 개발 과정에서 중요한 도구가 될 것입니다. 모델의 메커니즘에 대한 투명성은 AI가 인간의 가치와 일치하는지, 그리고 우리의 신뢰에 값하는지 확인할 수 있게 해줍니다. 과거 블랙박스로 여겨졌던 AI의 내부가 조금씩 밝혀지면서, 우리는 이 강력한 기술을 더 잘 이해하고 활용할 수 있는 단계로 나아가고 있습니다.
참고자료:
답글 남기기