AI Sparkup

복잡한 AI 세상을 읽는 힘

AI는 정말 생각할 수 있을까? Apple 연구가 밝힌 충격적 진실과 그 논쟁

2024년 말 OpenAI의 o1 모델이 등장하면서 AI 업계는 새로운 전환점을 맞았습니다. “생각하는 AI”라는 슬로건과 함께 출시된 이 모델은 문제를 해결하기 전에 내부적으로 추론 과정을 거치며, 수학이나 코딩 문제에서 놀라운 성능을 보여주었습니다. 이후 DeepSeek-R1, Claude 3.7 Sonnet Thinking 등 다양한 추론 모델들이 연이어 등장하며 “AI가 드디어 진짜로 생각하기 시작했다”는 기대감이 높아졌습니다.

하지만 과연 이들 AI 모델이 정말로 ‘생각’하고 있는 것일까요? 최근 Apple 연구진이 발표한 충격적인 연구 결과는 우리가 가진 기대와는 전혀 다른 현실을 보여줍니다.

Apple이 던진 근본적 질문

Apple의 머신러닝 연구팀은 “The Illusion of Thinking”이라는 제목의 논문을 통해 현재 추론 모델들의 실제 능력을 체계적으로 분석했습니다. 연구진은 기존 평가 방식의 한계를 지적하며 완전히 새로운 접근법을 제시했습니다.

기존 연구들은 주로 수학 문제나 코딩 벤치마크에서 정답률만을 측정했습니다. 하지만 이런 방식에는 치명적인 문제가 있었습니다. 첫째, 훈련 데이터에 포함된 문제들로 인한 데이터 오염 가능성이 높고, 둘째, 모델이 실제로 ‘어떻게’ 사고하는지는 알 수 없다는 점입니다.

Apple 연구진은 이 문제를 해결하기 위해 통제 가능한 퍼즐 환경을 만들었습니다. 하노이의 탑, 체커 점프, 강 건너기, 블록 월드 등 네 가지 퍼즐을 활용해 복잡도를 정밀하게 조절하면서 모델의 추론 과정을 들여다볼 수 있게 한 것입니다.

Thinking AI Models

세 가지 성능 구간의 발견

연구 결과는 놀라웠습니다. 추론 모델들은 문제의 복잡도에 따라 세 가지 구간에서 완전히 다른 행동 패턴을 보였습니다.

첫 번째 구간: 저복잡도 – 표준 모델이 더 우수
가장 충격적인 발견은 간단한 문제에서는 오히려 ‘생각하지 않는’ 일반 AI 모델이 추론 모델보다 더 정확하고 효율적이라는 점이었습니다. 추론 모델들은 간단한 문제에서도 불필요하게 긴 사고 과정을 거치며, 종종 정답을 찾고도 계속해서 잘못된 방향으로 탐색을 이어가는 “과도한 사고(overthinking)” 현상을 보였습니다.

두 번째 구간: 중간복잡도 – 추론 모델의 진가
문제가 어느 정도 복잡해지면 추론 모델들이 본격적으로 실력을 발휘합니다. 긴 추론 과정을 통해 단계별로 문제를 해결해나가며, 일반 모델들을 크게 앞서는 성능을 보여줍니다. 이 구간에서는 “생각하는 AI”라는 명성에 걸맞은 모습을 보여줍니다.

세 번째 구간: 고복잡도 – 모든 모델의 완전한 붕괴
하지만 복잡도가 더욱 높아지면 추론 모델과 일반 모델 모두 완전히 붕괴합니다. 정답률이 0%에 수렴하며, 더 놀라운 것은 추론 모델들이 이 지점에서 추론 노력(토큰 사용량)을 오히려 줄이기 시작한다는 점입니다.

가장 충격적인 발견: 알고리즘도 소용없다

연구진은 더 나아가 놀라운 실험을 진행했습니다. 하노이의 탑 문제의 정확한 해결 알고리즘을 모델에게 직접 제공한 것입니다. 문제를 스스로 해결할 필요 없이 단순히 주어진 알고리즘만 따라하면 되는 상황이었습니다.

결과는 충격적이었습니다. 알고리즘을 제공해도 성능 개선이 거의 없었습니다. 이는 추론 모델들의 한계가 단순히 문제 해결 전략의 부족이 아니라, 주어진 논리적 단계를 일관되게 실행하는 능력 자체에 있음을 시사합니다.

예를 들어, Claude 3.7 Sonnet 모델은 하노이의 탑에서 100번 이상의 정확한 움직임을 수행할 수 있지만, 강 건너기 퍼즐에서는 5번째 움직임에서 이미 실패합니다. 같은 모델임에도 퍼즐 유형에 따라 완전히 다른 성능을 보이는 것입니다.

출처: Unsplash

반박의 목소리: “못하는 게 아니라 안 하는 것”

하지만 이 연구에 대한 반박도 만만치 않습니다. AI 전문가 Sean Goedecke는 날카로운 비판을 제기했습니다.

그는 모델들이 복잡한 문제에서 실패하는 이유가 능력의 부족이 아니라 의도적 거부일 가능성을 제시했습니다. 예를 들어, 10개 원판의 하노이의 탑을 해결하려면 1,023번의 움직임이 필요한데, 모델들은 이를 “너무 번거롭다”고 판단하고 일찍 포기할 수 있다는 것입니다.

실제로 DeepSeek-R1 모델의 추론 과정을 보면 “이 문제는 수백 번의 움직임이 필요하므로 모든 단계를 수동으로 나열하는 것은 불가능하다”라고 명시적으로 언급하며 지름길을 찾으려 시도합니다.

Goedecke는 또한 퍼즐이 수학이나 코딩 문제보다 추론 능력을 평가하기에 적절하지 않다고 주장합니다. 추론 모델들은 수학과 코딩에 특화되어 훈련되었는데, 전혀 다른 성격의 퍼즐로 평가하는 것은 마치 “페트라르카 소네트를 잘 쓰지 못한다고 해서 언어 모델이 발전하지 않았다고 주장하는 것”과 같다는 비유를 들었습니다.

실무자들이 알아야 할 진실

이 논쟁이 실무에서 AI를 활용하는 우리에게 주는 교훈은 무엇일까요?

첫째, AI의 한계를 인정하고 적절한 작업에 활용해야 합니다. 복잡도가 높은 다단계 추론이 필요한 작업에서는 여전히 인간의 개입이 필수적입니다. 특히 수백 개의 단계를 거쳐야 하는 복잡한 계획 수립이나 장기적 전략 수립에서는 AI만으로는 한계가 있습니다.

둘째, 간단한 문제에서는 오히려 일반 AI 모델이 더 효율적일 수 있습니다. 추론 모델은 토큰 사용량이 많아 비용이 높고 응답 속도가 느립니다. 단순한 질문이나 정보 검색에는 굳이 추론 모델을 사용할 필요가 없을 수 있습니다.

셋째, AI가 “생각한다”는 것과 “올바르게 추론한다”는 것은 다릅니다. 현재의 추론 모델들은 사고 과정을 보여주지만, 그것이 항상 논리적이거나 일관성 있지는 않습니다. 중요한 결정에서는 AI의 추론 과정을 면밀히 검토해야 합니다.

미래로의 전망

Apple의 연구는 현재 AI 추론 기술의 한계를 냉정하게 보여주지만, 동시에 발전 방향도 제시합니다. 연구진은 모델들이 보여주는 세 가지 구간별 행동 패턴을 이해하고, 각 구간에서의 한계를 극복하기 위한 새로운 접근법이 필요하다고 강조합니다.

특히 “과도한 사고” 현상을 줄이고, 고복잡도 상황에서도 포기하지 않고 계속 추론할 수 있는 모델 개발이 핵심 과제입니다. 또한 명시적 알고리즘을 정확히 실행할 수 있는 능력을 기르는 것도 중요한 연구 방향입니다.

현재 AI가 보여주는 “생각”이 인간의 사고와 얼마나 다른지, 그리고 진정한 추론 능력을 갖추기 위해서는 어떤 근본적 개선이 필요한지에 대한 논의는 앞으로도 계속될 것입니다.

결국 AI는 분명히 발전하고 있지만, 우리가 기대했던 것만큼 완벽하지는 않다는 것이 현실입니다. 이를 인정하고 AI의 강점과 한계를 모두 이해할 때, 비로소 AI를 진정으로 유용한 도구로 활용할 수 있을 것입니다.


참고자료:

Comments