출처: METR 연구소 – AI 작업 완수 능력이 7개월마다 두 배씩 증가하고 있다
지난 15년간 AI는 놀라운 발전을 이뤄왔습니다. 특히 최근 5년간의 진보는 가히 혁명적이라 할 수 있죠. 어떤 연구자들은 이를 “AI의 무어의 법칙”이라고 부르며, AI의 능력이 지속적으로 기하급수적으로 증가하고 있다고 주장합니다. 실제로 METR 연구소의 데이터에 따르면, AI가 수행할 수 있는 작업의 복잡도가 7개월마다 두 배씩 증가하고 있으며, 2024-2025년에는 이 주기가 4개월로 더욱 단축되었습니다.
하지만 이러한 지속적인 발전의 원동력이 무엇인지에 대해서는 흥미로운 관점이 제시되고 있습니다. 최근 AI 전문가 J.X. Morris가 발표한 분석에 따르면, AI의 진정한 혁신은 새로운 알고리즘이나 기술적 아이디어가 아니라 새로운 데이터셋에서 비롯된다는 것입니다.
이 글은 J.X. Morris의 “There Are No New Ideas in AI… Only New Datasets” 분석을 중심으로, AI 발전의 본질적 메커니즘을 살펴보고 미래 전망을 제시합니다.
AI 발전사를 관통하는 네 번의 패러다임 전환
지난 15년간 AI의 발전사를 돌아보면, 진정한 게임 체인저 역할을 한 네 번의 큰 패러다임 전환을 발견할 수 있습니다.
1. 딥러닝의 등장 (2012년)
2012년 AlexNet이 ImageNet 컴퓨터 비전 경진대회에서 압도적인 성과를 거두면서 딥러닝 시대가 열렸습니다. 이는 단순히 새로운 신경망 구조의 발명이 아니라, ImageNet이라는 대규모 이미지 데이터셋을 효과적으로 활용할 수 있게 해준 것이 핵심이었습니다.

2. 트랜스포머와 대규모 언어모델 (2017-2018년)
2017년 구글이 발표한 “Attention Is All You Need” 논문의 트랜스포머 구조는 BERT(2018)와 초기 GPT(2018)로 이어지며 자연어 처리 분야를 혁신했습니다. 여기서 중요한 것은 트랜스포머가 인터넷상의 모든 텍스트 데이터를 학습할 수 있게 해준 점입니다.
3. 인간 피드백 기반 강화학습 (2022년)
OpenAI의 InstructGPT와 ChatGPT가 등장하면서 RLHF(Reinforcement Learning from Human Feedback)가 주목받았습니다. 이는 인간의 선호도 데이터라는 새로운 형태의 학습 자료를 활용한 혁신이었습니다.
4. 추론 모델의 등장 (2024년)
OpenAI의 o1과 DeepSeek의 R1 같은 추론 모델들은 검증 가능한 데이터를 활용합니다. 계산기나 컴파일러처럼 출력 결과를 명확히 평가할 수 있는 도구들의 피드백을 학습 데이터로 활용하는 것이 핵심입니다.
기술보다 데이터가 중요한 이유
흥미롭게도 이 네 가지 혁신의 기저 기술들은 대부분 1990년대, 심지어 일부는 1940년대부터 존재했던 것들입니다.
- 지도학습과 교차 엔트로피: 클로드 섀넌의 1940년대 연구
- 강화학습: 1992년 정책 경사법 도입, 1998년 서튼-바르토 교과서 출간
- 신경망 구조: 1980년대부터 기본 원리 확립
실제로 스탠ford 연구진이 트랜스포머가 아닌 다른 구조(상태공간모델)로 BERT와 동등한 성능을 달성한 연구 결과는 매우 시사적입니다. 이는 특정 데이터셋에서 학습할 수 있는 성능에는 상한선이 있으며, 아키텍처의 차이보다는 데이터 자체가 더 중요함을 보여줍니다.
다음 AI 혁신은 어디서 올까?
현재 언어 데이터는 거의 고갈 상태에 이르렀습니다. Epoch AI의 2024년 연구에 따르면, 인터넷상의 고품질 텍스트 데이터는 2028년까지 모두 사용될 것으로 예상됩니다. 그렇다면 다음 패러다임 전환은 어떤 새로운 데이터 소스에서 나올까요?
비디오 데이터의 가능성
YouTube에는 매분 500시간의 동영상이 업로드됩니다. 이는 전체 인터넷 텍스트보다 훨씬 방대한 양의 데이터입니다. 비디오는 텍스트로는 전달할 수 없는 억양, 물리법칙, 문화적 맥락 등 풍부한 정보를 담고 있어 다음 AI 혁신의 핵심 동력이 될 가능성이 높습니다.
로봇과 센서 데이터
물리적 세계와 상호작용하는 로봇의 센서 데이터도 또 다른 후보입니다. 카메라와 각종 센서에서 수집되는 실시간 데이터를 대규모로 처리할 수 있는 컴퓨팅 능력이 확보된다면, 완전히 새로운 형태의 AI가 등장할 수 있을 것입니다.
AI 연구의 패러다임 전환 필요성
리처드 서튼의 “The Bitter Lesson”에서 강조했듯이, 결국 데이터와 컴퓨팅 파워가 모든 것을 압도합니다. 현재 AI 연구자의 95%가 새로운 방법론 개발에 매달리고 있지만, 정작 중요한 것은 새로운 데이터 소스를 발굴하고 활용하는 것일 수 있습니다.
ChatGPT나 GPT-4.5 같은 최신 모델들이 이전 버전 대비 미미한 성능 향상만을 보이는 것도 이러한 맥락에서 이해할 수 있습니다. 기존 텍스트 데이터에서 뽑아낼 수 있는 성능의 한계에 도달했기 때문입니다.
따라서 다음 AI 혁신을 위해서는 새로운 알고리즘 개발보다는 미개척 데이터 영역을 찾는 것이 더 중요할 것입니다. 비디오, 센서 데이터, 혹은 아직 우리가 생각하지 못한 새로운 형태의 데이터 소스가 차세대 AI 혁명의 열쇠가 될 가능성이 높습니다.
AI의 발전은 결국 인간이 생성하고 축적해온 다양한 형태의 정보를 기계가 이해하고 활용할 수 있게 만드는 과정입니다. 지금까지의 패턴을 보면, 다음 혁신 역시 새로운 데이터의 바다를 항해할 수 있는 열쇠를 찾는 것에서 시작될 것입니다.
참고자료:
Comments