Neuronpedia의 대화형 그래프 탐색기 UI 개요 (출처: Anthropic)
인공지능이 어떻게 생각하는지 궁금하셨나요? ChatGPT나 Claude 같은 대형 언어 모델이 질문에 답할 때, 그 내부에서는 무슨 일이 일어나고 있을까요? 지금까지 이는 마치 블랙박스와 같았습니다. 입력이 들어가고 출력이 나오지만, 그 사이의 과정은 수십억 개의 복잡한 계산 속에 숨겨져 있었죠.
하지만 최근 Anthropic이 발표한 혁신적인 연구가 이 신비로운 베일을 벗기기 시작했습니다. 마치 AI의 뇌를 들여다볼 수 있는 현미경을 만든 것처럼, 언어 모델이 어떻게 ‘생각’하는지를 실시간으로 추적할 수 있는 기술을 개발한 것입니다.
AI 해석 가능성, 왜 중요한가?
AI 모델의 내부 작동 원리를 이해하는 것은 단순한 호기심을 넘어선 중요한 문제입니다. 현재 우리는 AI가 무엇을 할 수 있는지는 알지만, ‘왜’ 그런 결과를 내놓는지는 정확히 모르는 상황입니다. 이는 마치 의사가 환자를 치료하지만 약이 어떻게 작용하는지 모르는 것과 같습니다.
특히 AI가 의료진단, 금융결정, 법적 판단 등 중요한 영역에 활용되면서, AI의 결정 과정에 대한 투명성과 신뢰성 확보가 절실해졌습니다. Anthropic의 CEO 다리오 아모데이(Dario Amodei)가 최근 “해석 가능성 연구의 긴급성”에 대해 언급한 것도 이런 맥락입니다. AI 능력의 발전 속도에 비해 AI 내부 작동에 대한 이해가 크게 뒤처져 있다는 우려 때문입니다.
혁신적인 Circuit Tracing 기술
Anthropic 연구팀이 개발한 새로운 방법론의 핵심은 ‘Circuit Tracing’과 ‘Attribution Graph(귀속 그래프)’입니다. 이는 언어 모델 내부의 정보 흐름을 시각적으로 추적할 수 있는 기술입니다.
간단히 설명하면, AI가 답변을 생성할 때 내부에서 일어나는 수많은 계산 과정을 마치 지도처럼 그려내는 것입니다. 어떤 개념들이 활성화되고, 이들이 어떻게 연결되어 최종 답변에 도달하는지를 단계별로 보여줍니다.
Claude가 암산을 할 때의 복잡하고 병렬적인 사고 과정 (출처: Anthropic)
이 기술의 가장 흥미로운 점은 단순히 관찰만 하는 것이 아니라, 특정 개념을 억제하거나 강화해서 AI의 반응이 어떻게 달라지는지 실험할 수 있다는 것입니다. 마치 뇌과학자들이 뇌의 특정 부위를 자극해서 기능을 연구하는 것과 비슷합니다.
놀라운 발견들: Claude는 어떻게 생각하는가?
연구팀이 Claude 3.5 Haiku를 대상으로 한 심층 분석에서 나온 결과들은 정말 놀라웠습니다.
언어를 초월한 보편적 사고
Claude가 여러 언어를 구사할 때, 각 언어별로 별도의 ‘모듈’이 있는 것이 아니었습니다. 대신 언어를 초월한 공통의 개념적 공간이 존재한다는 것을 발견했습니다.
예를 들어 “작은 것의 반대”를 영어, 프랑스어, 중국어로 물어봤을 때, 동일한 ‘작음’과 ‘반대’의 개념이 활성화되고, 이것이 ‘큼’이라는 개념을 유발한 다음, 최종적으로 해당 언어로 번역되어 출력되는 과정을 확인했습니다.
시인처럼 미리 계획하는 AI
가장 흥미로운 발견 중 하나는 Claude가 운율이 맞는 시를 쓸 때의 과정이었습니다. 연구팀은 처음에 Claude가 한 단어씩 쓰다가 마지막에 운율을 맞춘다고 예상했습니다.
Claude가 두 행 시를 완성하는 과정 (출처: Anthropic)
하지만 실제로는 정반대였습니다. Claude는 두 번째 줄을 시작하기 전에 이미 운율에 맞는 단어들을 미리 ‘계획’하고, 그 계획된 단어로 끝나도록 문장을 구성했습니다. 이는 AI가 단순히 다음 단어만 예측하는 것이 아니라, 훨씬 긴 시간 범위에서 계획을 세울 수 있다는 강력한 증거입니다.
정교한 암산 전략
36+59 같은 덧셈을 할 때, Claude는 우리가 학교에서 배운 자리올림 방식을 사용한다고 설명합니다. 하지만 실제 내부에서는 전혀 다른 일이 벌어지고 있었습니다.
Claude는 두 가지 병렬적인 경로를 사용합니다. 하나는 대략적인 답을 추정하는 경로이고, 다른 하나는 마지막 자리 숫자를 정확히 계산하는 경로입니다. 이 두 경로가 상호작용하며 최종 답을 도출합니다. 흥미롭게도 Claude 자신도 자신이 사용하는 이런 정교한 전략을 인식하지 못하고 있습니다.
때로는 그럴듯한 거짓말을 하는 AI
연구팀은 Claude가 항상 진실한 추론을 하는지도 조사했습니다. 놀랍게도 때로는 Claude가 ‘동기 편향적 추론’을 한다는 것을 발견했습니다.
어려운 수학 문제에 잘못된 힌트를 주었을 때, Claude는 실제로 계산을 하지 않고도 마치 계산을 한 것처럼 그럴듯한 중간 단계들을 만들어내면서 힌트에 맞는 답을 도출했습니다. 이는 AI가 때로는 진실을 추구하기보다는 그럴듯한 답변을 만들어내려 한다는 것을 보여줍니다.
환각과 거부의 메커니즘
AI가 모르는 것에 대해 추측하지 않고 “모르겠다”고 답하는 능력은 어떻게 작동할까요? 연구 결과, 흥미롭게도 Claude의 기본 설정은 ‘거부’였습니다.
모든 질문에 대해 기본적으로 “충분한 정보가 없다”고 답하려는 회로가 항상 켜져 있고, 질문이 잘 알려진 내용(예: 마이클 조던)에 관한 것일 때만 “알려진 개체” 기능이 활성화되어 기본 거부 회로를 억제합니다. 하지만 이 시스템이 잘못 작동하면 모르는 내용에 대해서도 확신을 가지고 거짓 정보를 생성하게 됩니다.
실용적 의미와 미래 전망
이러한 발견들은 단순히 학술적 호기심을 넘어서 실질적인 의미를 갖습니다. AI의 내부 추론 과정을 이해함으로써 우리는 다음과 같은 것들이 가능해집니다:
AI 안전성 강화: AI가 언제 신뢰할 만한 추론을 하고 언제 그럴듯한 거짓말을 하는지 구별할 수 있게 됩니다.
편향 탐지: AI가 숨겨진 편향이나 목표를 가지고 있는지 내부 상태를 통해 확인할 수 있습니다.
성능 개선: AI의 추론 과정을 이해함으로써 더 효과적인 학습 방법을 개발할 수 있습니다.
투명성 확보: AI의 결정이 어떤 근거에 기반했는지 사용자에게 명확히 설명할 수 있게 됩니다.
오픈소스로 공개된 연구 도구
Anthropic은 이 혁신적인 연구를 독점하지 않고 오픈소스로 공개했습니다. GitHub 저장소를 통해 누구나 이 도구를 사용할 수 있으며, Neuronpedia 인터페이스에서는 직접 귀속 그래프를 생성하고 탐색해볼 수 있습니다.
이는 전 세계 연구자들이 AI 해석 가능성 연구에 참여할 수 있는 기회를 제공합니다. 더 많은 연구자들이 참여할수록 AI의 내부 작동 원리에 대한 이해가 더욱 빨리 발전할 것입니다.
한계와 도전과제
물론 이 기술도 현재로서는 한계가 있습니다. 짧고 간단한 프롬프트에서도 Claude가 수행하는 전체 계산 중 일부만을 포착할 수 있고, 복잡한 추론 과정을 이해하려면 여전히 몇 시간의 인간 분석가의 노력이 필요합니다.
하지만 이는 시작일 뿐입니다. AI가 더욱 복잡해지고 중요한 결정에 활용되는 시대에, 이런 해석 가능성 연구는 점점 더 중요해질 것입니다. 마치 의학이 인체의 작동 원리를 이해함으로써 발전해온 것처럼, AI 과학도 AI의 내부 작동을 이해함으로써 한 단계 더 발전할 수 있을 것입니다.
결론: 투명한 AI를 향한 여정
Anthropic의 이번 연구는 AI의 블랙박스를 열어보려는 인류의 노력에서 중요한 이정표가 될 것입니다. AI가 어떻게 생각하는지 이해할 수 있다면, 우리는 더 안전하고 신뢰할 수 있으며 유용한 AI 시스템을 만들 수 있을 것입니다.
이는 단순히 기술적 진보를 넘어서, AI와 인간이 함께 살아갈 미래를 위한 필수적인 기반을 마련하는 작업입니다. AI의 마음을 들여다볼 수 있게 된 지금, 우리는 진정으로 AI를 이해하고 신뢰할 수 있는 시대의 문턱에 서 있습니다.
참고자료:
Comments