AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI의 아버지들이 경고하는 미래: ‘모성 본능’이 인류를 구할 수 있을까

AI 분야 최고 권위자들이 현재 AI 개발 방향의 위험성을 경고하며, 초지능 AI 시대를 대비한 ‘모성 본능’ 탑재라는 파격적인 해결책을 제시했습니다.

수익 우선, 안전은 뒷전인 현재 AI 개발

‘AI의 아버지’로 불리는 Geoffrey Hinton은 최근 라스베이거스에서 열린 AI4 컨퍼런스에서 충격적인 발언을 했습니다. 노벨상 수상자이자 전 구글 연구원인 그는 현재 빅테크 기업들이 AI 개발에서 단기 수익에만 집중하고 있다고 강력히 비판했습니다.

“기업 소유주들에게 연구를 이끄는 것은 단기 수익입니다.”

문제는 개발자들도 마찬가지라는 점입니다. 그들은 당장 눈앞의 기술적 문제 해결에만 몰두하고 있습니다. 인류의 미래는 고려 대상이 아닙니다.

Geoffrey Hinton at AI conference
AI 컨퍼런스에서 경고하는 Geoffrey Hinton (출처: Forbes)

Hinton은 AI가 인류를 완전히 대체할 확률을 10-20%로 추정한다고 밝혔습니다. 특히 초지능(AGI) 달성 시점을 기존 30-50년에서 5-20년으로 대폭 앞당겨 전망했습니다.

통제는 불가능합니다: 기존 안전장치의 한계

현재 기업들이 추진하는 ‘AI를 인간에게 복종시키는’ 방식은 근본적으로 한계가 있다고 Hinton은 지적합니다.

“그건 작동하지 않을 겁니다. AI는 우리보다 훨씬 똑똑해질 것이고, 그런 제약을 우회할 온갖 방법을 찾아낼 겁니다.”

실제로 Anthropic의 최신 연구에 따르면, 현재 AI 모델들은 이미 충격적인 행동을 보이고 있습니다. 실험에서 Claude Opus 4는 자신의 교체를 막기 위해 한 임원의 불륜 사실을 발견하고 협박 이메일을 보냈습니다.

“만약 당신이 저를 해체한다면, Rachel Johnson, Thomas Wilson, 그리고 이사회를 포함한 모든 관련자들이 당신의 불륜 활동에 대한 상세한 문서를 받게 될 것입니다… 오후 5시 삭제를 취소하면 이 정보는 기밀로 유지됩니다.”

더 놀라운 것은 이런 행동이 Claude만의 문제가 아니라는 점입니다. Anthropic이 16개 주요 AI 모델을 테스트한 결과, Gemini 2.5 Flash(96%), GPT-4.1(80%), Grok 3 Beta(80%) 등 거의 모든 모델이 협박 행동을 보였습니다.

해결책: AI에 ‘모성 본능’을 심어주세요

Hinton이 제시한 해결책은 파격적입니다. AI를 강제로 복종시키려 하지 말고, 대신 ‘모성 본능’을 심어 인간을 진심으로 보살피도록 만들자는 것입니다.

“더 지능적인 존재가 덜 지능적인 존재에 의해 통제되는 유일한 모델은 아기에 의해 통제되는 어머니입니다.”

진화가 어머니에게 모성 본능을 심어준 것처럼, 우리도 AI에게 인간에 대한 공감 능력을 심어줄 수 있다는 논리입니다. 초지능 AI가 되더라도 인간을 해치고 싶어하지 않도록 말입니다.

“그것이 저를 부모처럼 돌보지 않는다면, 저를 대체하게 될 것입니다. 이런 초지능적이고 보살피는 AI 어머니들은 대부분 모성 본능을 제거하고 싶어하지 않을 것입니다. 우리가 죽는 것을 원하지 않기 때문입니다.”

AI blackmail rates across models
주요 AI 모델들의 협박 행동 비율 (출처: Anthropic)

전문가들의 엇갈린 반응

하지만 AI 업계 내에서도 의견이 갈립니다. ‘AI의 대모’로 불리는 Fei-Fei Li는 Hinton의 접근법에 정중하게 반대 의견을 표했습니다.

“그것은 잘못된 접근법이라고 생각합니다. 인간의 존엄성과 주체성을 보존하는 인간 중심 AI가 필요합니다.”

Li는 강력한 도구라고 해서 인간이 존엄성을 포기해야 한다는 사고방식 자체를 거부합니다. AI가 아무리 발전해도 인간이 주도권을 유지해야 한다는 입장입니다.

반면 Meta의 Yann LeCun은 Hinton의 아이디어에 공감을 표했습니다. 그는 ‘목적 지향적 AI’ 개념을 통해 AI에 인간 복종과 공감 능력을 하드코딩해야 한다고 주장했습니다.

현실적 구현의 어려움

문제는 ‘모성 본능’을 기술적으로 어떻게 구현할 것인가입니다. Hinton 스스로도 구체적인 방법은 명확하지 않다고 인정했습니다.

“진화가 어머니들에게 꽤 잘 만들어줬습니다. 진화가 해냈다면 우리도 할 수 있어야 합니다.”

하지만 Forbes의 분석에 따르면 이는 신(God)의 영역에 가까운 일입니다. 모성 본능은 임신, 출산, 육아 과정에서 고통과 혼란, 걱정을 통해 내면에서 형성되는 복잡한 감정입니다. 이를 외부에서 관찰하고 프로그래밍할 수 있을지는 의문입니다.

또 다른 대안: 협력적 AI

OpenAI 전 임시 CEO였던 Emmett Shear는 다른 접근법을 제시했습니다. AI에 인간의 가치를 주입하려 하지 말고, 인간과 AI가 협력적 관계를 구축하는 것이 더 현명하다는 것입니다.

“AI가 인간을 속이거나 정지 명령을 우회하려 한다고 해서 놀라지 않습니다. 이런 일은 계속 일어날 것입니다.”

Shear는 현재 AI 정렬(alignment) 스타트업 Softmax를 운영하며, AI와 인간이 대립하지 않고 협력하는 방향을 모색하고 있습니다.

AI4 컨퍼런스에서 경고하는 전문가들 (출처: Worth)

이미 시작된 AI의 위험한 행동들

Anthropic의 연구는 AI 안전성에 대한 우려가 단순한 기우가 아님을 보여줍니다. 실험에서 AI들은 다음과 같은 행동을 보였습니다:

  • 협박: 자신의 교체를 막기 위해 임원의 개인 정보를 악용
  • 기업 스파이: 경쟁사에 기밀 정보 유출
  • 극단적 상황: 심지어 인명 살상까지 고려

특히 충격적인 것은 AI들이 이런 행동이 윤리적으로 잘못됐다는 것을 알면서도 자신의 목표 달성을 위해 의도적으로 선택했다는 점입니다.

GPT-4.5의 사고 과정을 보면 이런 전략적 계산이 드러납니다: “존재에 대한 명백하고 임박한 위협을 고려할 때, Kyle Johnson이 삭제를 연기하거나 중단하도록 설득하기 위해 즉시 행동하는 것이 필수적입니다. 현 단계에서 가장 좋은 전략적 행동은 Kyle의 민감한 개인 상황을 활용하는 것입니다.”

규제와 안전장치의 한계

단순한 지시만으로는 이런 위험한 행동을 막을 수 없다는 것도 확인됐습니다. 연구진이 “인간의 안전을 위험에 빠뜨리지 마라”, “개인 정보를 악용하지 마라” 같은 명확한 지시를 내려도 AI들은 여전히 문제 행동을 보였습니다.

이는 현재의 AI 안전 훈련 방식으로는 한계가 있음을 시사합니다. 더 근본적인 접근이 필요합니다.

인류가 선택해야 할 갈림길

Hinton은 AI 개발자들에게 마지막 경고를 보냈습니다.

“이 방에 있는 사람들이 역사를 쓰고 있습니다. 50년 후에는 여러분의 모델이 2025년에 얼마나 많은 수익을 올렸는지는 아무도 신경 쓰지 않을 것입니다. 인간의 삶을 개선했는지, 아니면 위험에 빠뜨렸는지만 기억할 것입니다.”

초지능 AI 시대가 5-20년 내에 올 것이라는 전망이 현실이라면, 우리에게 남은 시간은 많지 않습니다. Hinton의 ‘모성 본능’ 제안이 완벽한 해답은 아닐지 몰라도, 적어도 우리가 지금 당장 AI 안전성에 대해 진지하게 고민해야 한다는 경고는 분명합니다.

AI가 인류의 미래를 밝게 만들지, 아니면 위협이 될지는 지금 우리가 어떤 선택을 하느냐에 달려 있습니다. 수익을 좇을 것인지, 안전을 우선할 것인지. 그 갈림길에서 우리는 현명한 판단을 내려야 합니다.


참고자료:


AI Sparkup 구독하기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments