
이미지 출처: Google DeepMind 공식 홈페이지
최근 구글 딥마인드가 인공 일반 지능(Artificial General Intelligence, AGI)의 안전성 확보를 위한 145페이지 분량의 기술 보고서를 발표했습니다. 이 보고서는 AGI가 인류에게 가져올 수 있는 엄청난 이점과 함께 잠재적 위험을 어떻게 관리할 것인지에 대한 포괄적인 접근법을 담고 있습니다. AI 기술이 급속도로 발전하는 지금, 이 보고서는 AI 안전성에 대한 중요한 청사진을 제시합니다.
AGI란 무엇이며, 왜 중요한가?
AGI는 인간과 같이 광범위한 인지 작업을 수행할 수 있는 AI 시스템을 의미합니다. 구글 딥마인드의 보고서에 따르면 AGI는 “비물리적 작업에서 숙련된 성인의 99% 수준에 해당하는 능력을 가진 시스템”으로 정의됩니다. 이는 단순히 특정 분야에 특화된 현재의 AI와 달리, 새로운 기술을 학습하는 등의 메타인지 작업까지 가능한 시스템을 말합니다.
딥마인드는 이런 수준의 AGI가 2030년까지 개발될 가능성이 높다고 전망하고 있습니다. 이는 AI 분야의 모든 전문가들이 동의하는 견해는 아니지만, 주요 AI 연구소들은 이에 대비한 안전성 연구가 필요하다는 점에 동의합니다.
AGI의 위험성과 도전 과제
딥마인드의 보고서는 AGI가 가져올 수 있는 위험을 네 가지 주요 영역으로 분류했습니다:
- 오용(Misuse): 사용자가 의도적으로 AI 시스템을 해로운 목적으로 사용하는 경우
- 오정렬(Misalignment): AI 시스템이 개발자의 의도와 다르게 행동하는 경우
- 실수(Mistakes): AI 시스템이 해로운 결과를 인식하지 못하고 행동하는 경우
- 구조적 위험(Structural risks): 여러 주체(사람, 조직, AI 시스템)의 상호작용에서 발생하는 위험
이미지 출처: Unsplash – AI 안전성 연구는 잠재적 위험을 식별하고 관리하는 데 중점을 둡니다
이 중에서도 보고서는 특히 오용과 오정렬에 초점을 맞추고 있습니다. 이 두 영역이 가장 심각한 위험을 초래할 가능성이 높기 때문입니다.
오용 방지를 위한 접근법
딥마인드의 오용 방지 전략은 크게 두 가지 방향으로 진행됩니다:
- 위험한 능력 평가: AI 시스템이 오용될 경우 심각한 해를 끼칠 수 있는 능력을 가지고 있는지 평가합니다.
- 완화 조치 구현: 위험한 능력이 식별된 경우, 다음과 같은 완화 조치를 구현합니다:
- 모델 수준 완화: 안전 훈련, 능력 억제 등
- 시스템 수준 완화: 모니터링, 접근 제한 등
- 보안 강화: 모델 가중치 보호, 환경 강화 등
이러한 접근법은 잠재적으로 위험한 능력을 가진 AI 시스템이 악의적인 행위자의 손에 들어가는 것을 방지하는 데 초점을 맞추고 있습니다.
오정렬 문제 해결을 위한 전략
오정렬 문제를 해결하기 위한 딥마인드의 접근법은 두 가지 방어선을 구축하는 것입니다:
- 모델 수준 접근법: AI 시스템이 처음부터 잘못된 목표를 추구하지 않도록 훈련하는 것입니다.
- 증강된 감독(Amplified oversight): AI 시스템 자체를 활용하여 인간의 감독 능력을 향상시킵니다.
- 강건한 훈련(Robust training): 다양한 상황에서도 안전하게 작동하도록 AI를 훈련합니다.
- 시스템 수준 접근법: AI 시스템이 오정렬되더라도 피해를 최소화하는 방법입니다.
- 모니터링: AI 행동을 지속적으로 감시합니다.
- 컴퓨터 보안 기술 적용: 접근 제어, 로깅, 감사 등의 기술을 활용합니다.

이미지 출처: Freepik – AI 모델의 내부 작동 방식을 이해하는 것은 안전성 확보의 핵심입니다
이러한 전략을 강화하기 위해 딥마인드는 다음과 같은 연구 분야에도 투자하고 있습니다:
- 해석 가능성(Interpretability): AI 시스템의 내부 작동 방식을 이해하는 기술
- 안전한 설계 패턴(Safer design patterns): 안전성을 고려한 AI 시스템 설계 방법
- 불확실성 측정(Uncertainty estimation): AI가 자신의 한계를 인식하도록 하는 기술
학계와 업계의 반응
하지만 이 보고서에 대한 반응은 다양합니다. 일부 전문가들은 AGI의 개념 자체가 과학적으로 엄밀하게 평가하기에는 너무 모호하게 정의되어 있다고 지적합니다. AI Now Institute의 수석 AI 과학자 Heidy Khlaaf는 AGI 개념이 “과학적으로 엄밀하게 평가하기에는 너무 불명확하게 정의되어 있다”고 언급했습니다.
알버타 대학의 Matthew Guzdial 교수는 보고서에서 언급된 ‘재귀적 AI 개선'(AI가 스스로를 개선하는 과정)이 현재로서는 비현실적이라고 주장합니다. “우리는 이것이 작동한다는 증거를 본 적이 없습니다”라고 그는 말합니다.
옥스포드 대학의 Sandra Wachter 연구원은 더 현실적인 우려는 AI가 “부정확한 출력으로 자기 강화”하는 것이라고 주장합니다. “인터넷상의 생성형 AI 출력물이 확산되고 진짜 데이터가 점차 대체됨에 따라, 모델들은 이제 오류투성이인 자신의 출력물로부터 학습하고 있습니다”라고 그녀는 설명합니다.
딥마인드의 접근법이 우리에게 주는 의미
AGI에 대한 논쟁은 계속될 것이지만, 딥마인드의 보고서는 AI 안전성에 대한 중요한 논의를 제기합니다. 특히 마케팅, 콘텐츠 제작, 검색 최적화 등 AI가 활발하게 활용되는 분야에서 일하는 전문가들에게 몇 가지 시사점을 줍니다:
- 안전 조치가 내장된 AI 도구: 미래의 AI 도구들은 더 강력한 안전 조치를 내장하게 될 것입니다. 이는 콘텐츠 생성 도구가 오해의 소지가 있거나 위험한 콘텐츠 생성을 거부하는 등의 형태로 나타날 수 있습니다.
- 신뢰성 기반의 기능 접근: 가장 고급 AI 기능에 대한 접근은 사용 사례와 신뢰도에 따라 더 엄격하게 통제될 수 있습니다. 기업 도구는 신뢰할 수 있는 파트너에게 더 넓은 기능을 제공하는 반면, 소비자 대상 도구는 추가 안전 장치가 포함될 수 있습니다.
- 인간 중심 AI 설계: AI 시스템은 중요한 결정을 내리기 전에 인간의 승인을 구하거나, 결정의 이유를 설명하는 등 인간과의 상호작용을 중요시하는 방향으로 설계될 것입니다.
결론: 균형 잡힌 접근법의 필요성
구글 딥마인드의 보고서는 AGI가 가져올 수 있는 큰 이점을 강조하면서도, 잠재적 위험에 대비하는 균형 잡힌 접근법을 제시합니다. 이는 AI 기술이 인류에게 혜택을 주면서도 안전하게 발전할 수 있도록 하는 중요한 단계입니다.
AGI의 실현 가능성이나 시기에 대한 견해는 다양하지만, 안전성에 대한 논의를 미리 시작하는 것은 분명 가치 있는 일입니다. 기술의 발전과 안전성 사이의 균형을 찾는 것이 AI의 미래를 책임감 있게 구축하는 핵심이 될 것입니다.
AI 기술이 우리 삶과 사회에 더욱 깊이 통합됨에 따라, 이러한 균형에 대한 대화는 더욱 중요해질 것입니다. 구글 딥마인드의 이번 연구는 그 대화를 위한 중요한 출발점을 제공합니다.
Comments