AI Sparkup

복잡한 AI 세상을 읽는 힘

대형 언어 모델(LLM)은 지시사항을 따를 때 내부적으로 알고 있을까?

트랜스포머 모델의 내부 작동 방식 – 이미지 출처: Medium

지시사항을 따르지 못하는 AI

여러분은 ChatGPT나 Claude 같은 AI 챗봇에게 분명한 지시사항을 내렸는데도 제대로 따르지 못한 경험이 있으신가요? 예를 들어 “이 글에 ‘인공지능’이라는 단어를 절대 사용하지 마세요”라고 요청했는데, 어느새 글 중간에 ‘인공지능’이라는 단어가 등장하거나, “200단어로 요약해주세요”라고 했는데 400단어가 넘는 답변을 받은 적이 있으실 겁니다.

이런 현상은 생각보다 흔합니다. 최신 연구에 따르면 가장 성능이 좋은 대형 언어 모델(LLM)인 GPT-4조차도 명확한 지시사항을 따르는 데 약 80%의 성공률을 보이며, 작은 모델들은 30~40%의 성공률에 그친다고 합니다. 우리가 명확하게 지시했는데도 왜 AI는 이를 따르지 못할까요?

최근 Apple Machine Learning Research 팀에서 발표한 “Do LLMs Know Internally When They Follow Instructions?”라는 연구는 이 질문에 대한 흥미로운 답을 제시합니다. 연구팀은 LLM이 지시사항을 따를 때와 따르지 못할 때 내부적으로 어떤 차이가 있는지 분석했습니다. 그 결과, 모델이 지시사항을 따를지 여부를 모델 자신이 미리 ‘알고 있다’는 놀라운 사실을 발견했습니다.

지시사항 준수의 중요성

지시사항 준수 능력은 LLM을 개인 AI 비서나 에이전트로 활용하는 데 필수적입니다. 예를 들어 AI가 건강 조언이나 식단 계획을 제공할 때, 사용자의 건강 제한사항(예: 특정 식품 알레르기나 운동 제한)을 엄격히 따라야 합니다. AI가 지시사항을 무시하면 잘못된 조언으로 실제 해를 끼칠 수 있습니다.

AI 에이전트가 사용자 지시에 따라 정보를 제공하는 예시 – 이미지 출처: Medium

언어 모델에게 사용자 지시를 엄격히 따르도록 하는 것은 단순한 편의성 문제가 아닙니다. 이는 AI 시스템의 안전성과 신뢰성에 직결됩니다. 하지만 현실적으로 LLM은 심지어 아주 단순하고 명확한 지시사항조차 따르지 못하는 경우가 많습니다. 이것이 바로 Apple 연구팀이 파고든 문제입니다.

연구의 핵심 발견: 지시사항 준수 차원

연구팀은 LLM의 내부 상태를 분석하여 지시사항 준수 성공과 실패를 구분하는 특정 ‘차원’을 발견했습니다. 이 차원은 모델의 입력 임베딩 공간(input embedding space)에 존재합니다.

선형 프로빙(Linear Probing) 방법론

연구팀은 선형 프로빙이라는 기법을 사용했습니다. 이 방법은 모델의 내부 표현(representation)을 분석하여 특정 정보가 인코딩되어 있는지 확인하는 기술입니다. 연구팀은 지시사항을 따르는 데 성공한 경우와 실패한 경우의 내부 표현을 비교했습니다.

내부 표현 공간에서 지시사항 준수 성공과 실패 사례의 구분 – 이미지 출처: arXiv

이 분석을 통해 연구팀은 다음과 같은 중요한 사실을 발견했습니다:

  1. 태스크 일반화: 모델이 처음 보는 태스크에서도 지시사항 준수 차원이 일관되게 작동합니다. 예를 들어, ‘이력서 작성’과 ‘영양 코칭’에서 “특정 키워드를 포함하지 마세요”라는 지시를 훈련했다면, 이 학습된 차원은 “무릎에 부담이 없는 운동 계획 작성”과 같은 처음 보는 태스크에서도 지시사항 준수 여부를 예측할 수 있습니다.
  2. 지시사항 유형 일반화 부재: 흥미롭게도 이 차원은 새로운 유형의 지시사항에는 잘 일반화되지 않았습니다. 다른 종류의 지시사항에 대해서는 모델 내부에 다른 표현 방식이 형성되는 것으로 보입니다.
  3. 첫 토큰에서의 예측 가능성: 모델이 응답을 생성하기 전, 심지어 첫 번째 토큰에서도 지시사항을 따를지 여부를 ‘알고 있는’ 것으로 나타났습니다. 이는 모델이 응답을 생성하기도 전에 이미 지시사항 준수 여부가 결정되어 있다는 것을 의미합니다.
  4. 레이어 간 성능 유사성: 모델의 초기, 중간, 끝 레이어 모두에서 지시사항 준수 차원이 발견되었으나, 초기 레이어에서 약간 더 명확히 나타났습니다.

표현 공학(Representation Engineering)으로 지시사항 준수 개선

연구팀은 발견한 지시사항 준수 차원의 중요성을 검증하기 위해 ‘표현 공학’이라는 기법을 적용했습니다. 이 방법은 모델의 내부 표현을 특정 방향으로 미세하게 조정하는 것입니다.

표현 공학 적용 전후 모델 성능 비교 – 이미지 출처: arXiv

연구 결과, 지시사항 준수 차원을 따라 모델의 표현을 조정하면:

  1. 지시사항 준수 성공률이 평균 4~6% 향상
  2. 응답의 품질은 유지되거나 오히려 향상
  3. 무작위 방향으로의 조정보다 훨씬 효과적

이는 발견된 차원이 단순한 상관관계가 아니라 모델의 행동에 실제로 영향을 미치는 인과적 요인임을 시사합니다.

왜 LLM은 지시사항을 따르지 못할까?: 프롬프트 표현의 중요성

연구팀은 더 나아가 이 지시사항 준수 차원이 무엇과 관련되어 있는지 조사했습니다. 세 가지 가설을 검증했습니다:

  1. 태스크 친숙도: 모델이 더 친숙한 태스크에서 지시사항을 더 잘 따르는가?
  2. 지시사항 난이도: 지시사항이 단순할수록 더 잘 따르는가?
  3. 프롬프트 표현: 같은 내용이라도 표현 방식에 따라 지시사항 준수율이 달라지는가?

놀랍게도, 지시사항 준수 차원은 태스크 친숙도나 지시사항 난이도보다 프롬프트 표현 방식과 가장 밀접하게 연관되어 있었습니다. 즉, 같은 지시사항이라도 어떻게 표현하느냐에 따라 모델의 내부 표현이 크게 달라지고, 이것이 지시사항 준수 성공 여부를 결정한다는 것입니다.

이 발견은 다음 두 가지 현상을 설명합니다:

  1. 왜 LLM이 명확한 지시사항도 따르지 못하는가: 모델의 입력 임베딩 공간이 표현 방식에 매우 민감하기 때문입니다. 사소한 표현 변화가 내부 표현을 크게 바꿀 수 있고, 이로 인해 지시사항 준수에 실패할 수 있습니다.
  2. 왜 프롬프트 엔지니어링이 효과적인가: 프롬프트 엔지니어링은 내용은 거의 같더라도 표현을 약간 바꾸는 것인데, 이런 작은 변화가 모델의 내부 표현을 ‘지시사항 준수 성공’ 영역으로 옮길 수 있기 때문입니다.

연구의 실용적 함의

이 연구는 단순한 학술적 호기심을 넘어 실용적인 의미를 갖습니다:

더 나은 프롬프트 작성법

지시사항의 내용뿐 아니라 표현 방식이 중요하다는 점을 인식해야 합니다. 같은 지시라도 다양한 방식으로 표현해보는 것이 도움이 될 수 있습니다.

AI 모델 개선 방향

AI 개발자들은 모델의 입력 임베딩 공간을 더 견고하게 만들어, 표현 방식에 덜 민감하게 만드는 방향으로 연구를 진행할 수 있습니다. 또한 지시사항 준수 차원에 맞춰 미세 조정(fine-tuning)을 할 수도 있습니다.

AI 에이전트의 신뢰성 향상

이 연구 결과를 활용하면 AI 에이전트가 사용자 지시를 더 일관되게 따르도록 만들 수 있을 것입니다. 이는 의료, 교육, 금융 등 중요한 결정을 내리는 상황에서 특히 중요합니다.

미래 전망: 더 신뢰할 수 있는 AI를 향해

이 연구는 AI가 지시사항을 어떻게 처리하는지에 대한 이해의 지평을 넓혔습니다. 연구 결과는 미래 AI 시스템이 나아갈 방향에 대한 중요한 시사점을 제공합니다:

  1. 더 견고한 입력 임베딩 공간: 프롬프트 표현 방식에 덜 민감한 모델을 개발하여 지시사항 준수의 일관성을 높일 수 있습니다.
  2. 응용 분야별 맞춤형 지시사항 준수: 의료, 법률 등 특정 분야에서 필요한 지시사항 유형에 최적화된 모델을 개발할 수 있습니다.
  3. 사용자 피드백 기반 개선: 사용자가 지시사항 준수 실패 사례를 보고하면, 이를 활용해 해당 유형의 지시사항에 대한 모델의 인식을 개선할 수 있습니다.
  4. 실시간 모니터링과 개입: 모델이 응답을 생성하기 전에도 지시사항 준수 여부를 예측할 수 있으므로, 문제가 발생할 것 같은 경우 미리 개입할 수 있는 시스템을 개발할 수 있습니다.

결론: 인공지능의 내면 들여다보기

Apple의 이 연구는 단순히 LLM의 문제점을 지적하는 데 그치지 않고, 그 원인을 모델의 내부 구조에서 찾아냈다는 점에서 큰 의의가 있습니다. 모델이 지시사항을 따를지 여부를 내부적으로 ‘알고 있다’는 사실은, AI가 생각보다 더 복잡한 내적 구조를 가지고 있음을 시사합니다.

이러한 발견은 우리가 AI와 더 효과적으로 소통하고, 더 신뢰할 수 있는 AI 시스템을 구축하는 데 중요한 통찰을 제공합니다. 프롬프트 표현 방식의 중요성을 인식하고, 표현 공학과 같은 기법을 통해 AI의 행동을 더 잘 제어할 수 있게 된다면, 인간과 AI의 협력은 한층 더 발전할 수 있을 것입니다.

AI가 정확히 무엇을 ‘알고 있는지’, 그리고 그것이 어떻게 행동으로 이어지는지에 대한 이해는 아직 초기 단계에 있습니다. 하지만 이런 연구들이 쌓여 AI의 블랙박스를 조금씩 열어가고 있으며, 이는 더 안전하고 신뢰할 수 있는 AI 미래로 가는 중요한 발걸음입니다.


참고자료:

Comments