AI 시스템이 사람처럼 기억하고 지식을 활용할 수 있을까? 벡터 데이터베이스의 선구자이자 Pinecone의 창립자 겸 CEO인 Edo Liberty와 함께 AI 시스템의 메모리와 지식에 관한 심층적인 대화를 나눈 인터뷰에서 이 질문에 대한 통찰력 있는 답변을 얻을 수 있습니다.

인지 능력과 지식의 차이
현재 생성형 AI의 가장 큰 약점은 무엇일까요? Liberty는 오늘날 대규모 언어 모델(LLM)이 읽기, 쓰기, 요약, 추론, 문제 해결과 같은 ‘인지 능력’에는 뛰어나지만, 실제 ‘지식’과 ‘기억’을 관리하는 데는 여전히 한계가 있다고 지적합니다.
“보잉 기술 매뉴얼을 모두 읽고 엔진 부품을 교체할 수 있으려면 완전히 다른 종류의 기계가 필요합니다. 정보를 읽고, 소비하고, 이해하고, 조직하고, 인덱싱하여 실시간 의사 결정에 활용할 수 있게 만들어야 합니다. 그것이 지식입니다. 그것이 기억입니다.”
Liberty의 설명에 따르면, 진정한 AI 기억 시스템을 구축하기 위해서는 정보를 올바르게 소화하고, 이해하고, 조직하고, 실시간으로 접근하고, 후처리하는 등 복잡한 과정이 필요합니다.
RAG: 현재와 미래
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 AI 시스템에 외부 지식을 제공하는 가장 일반적인 접근 방식이 되었습니다. 하지만 Liberty는 현재 RAG 기술이 “ChatGPT 이전 수준”에 있다고 평가합니다.

“우리는 첫 번째 장벽을 깼고, 놀라운 아이디어와 인프라를 갖추고 있습니다. 벡터 데이터베이스, 모델, 모든 구성 요소가 있죠. 하지만 이것을 진정으로 활용하는 측면에서는 아직 갈 길이 멉니다. 완전한 엔드투엔드 자동화 시스템이 메모리를 진정으로 이해하고 모든 정보를 활용할 수 있게 되려면 아마도 몇 년이 걸릴 것입니다.”
Liberty는 2년 내에 많은 사람들이 이 문제가 “반쯤 해결됐다”고 생각할 것이라고 예측합니다. 즉, Pinecone과 같은 솔루션을 사용하여 수백만 개의 문서를 수집하고, 적절한 맥락을 적시에 끌어와 좋은 결정을 내리는 에이전트를 활용하게 될 것이라는 의미입니다.
벡터 데이터베이스의 진화
벡터 데이터베이스는 AI 시스템의 메모리 구축에 핵심적인 역할을 합니다. Liberty는 벡터 데이터베이스가 수백만 또는 수십억 개의 문서를 검색하는 인프라로 발전했다고 설명합니다.
“처음에는 사람들이 많은 데이터를 가지고 있지 않았지만, 처리량이 높아야 했습니다. 1~10만 개의 벡터가 있었지만 초당 1,000번 쿼리해야 했죠. 이를 위해서는 고급 알고리즘, 고성능 컴퓨팅, 효율적인 데이터 구조가 필요했습니다.”
흥미롭게도, AI 모델 훈련이 GPU에 의존하는 것처럼, 벡터 데이터베이스도 하드웨어의 발전에 크게 의존합니다. 그러나 그 특성은 다릅니다.
“규모 확장이 다르게 보입니다. 컴퓨팅이 아니라 스토리지 문제입니다.”
Pinecone은 이런 도전에 대응하기 위해 여러 번 아키텍처를 재설계했습니다. 최근에는 수천억, 심지어 조 단위의 벡터를 다루는 대형 데이터셋에 대응하기 위한 새로운 패턴을 개발 중입니다.
진정한 AI 지식을 위한 도전과제
Liberty는 진정한 AI 기억 시스템을 구축하기 위해 몇 가지 중요한 기술적 요소가 필요하다고 설명합니다:
- 검색용 임베딩: 데이터를 맥락에 따라 올바른 정보를 가져올 수 있는 방식으로 조직화
- 맥락 기반 토큰 모델: 문서마다 같은 단어가 조금씩 다른 의미를 가질 수 있다는 점을 고려
- 스파스와 덴스 검색 결합: 단어와 개념으로 검색하는 방식과 의미, 맥락, 전체적 관련성으로 검색하는 방식 모두 필요
- 지식 에이전트 또는 검색 에이전트: 상황을 해석하고 어떤 정보를 가져와야 좋은 결정을 내릴 수 있는지 파악
이 모든 요소가 함께 작동해야 진정한 AI 기억 시스템이 가능해집니다.
AI 진실성에 관한 도전
Liberty는 AI 메모리 시스템이 직면한 기술적 과제를 넘어 더 깊은 질문들을 제기합니다.
“우리가 기술 커뮤니티로서 충분히 묻지 않는 질문은 ‘지식이 무엇을 의미하는가?’, ‘이러한 시스템에서 무엇을 기대하는가?’, ‘정확성은 무엇을 의미하는가?’ 등입니다.”
특히 그는 논쟁적인 정보를 처리하는 방법에 대한 도전을 강조합니다. “때로는 한 관점이 있고 반대 관점도 있는데, 둘 다 데이터에 있습니다. 이걸 어떻게 처리할까요?”
AI 모델은 본질적으로 베이지안적이어서, 더 자주 보이는 것을 더 많이 학습하고 그 답변을 더 많이 제공하는 경향이 있습니다. 그러나 Liberty는 “무언가가 더 흔하다고 해서 더 진실하지는 않습니다. AI에서 무언가가 얼마나 흔하거나 빈번한지와 모델이 생각하는 진실성 사이의 직접적인 상관관계는 버그입니다. 이것은 문제이고, 우리는 이를 해결해야 합니다.”
결론: AI 기억의 미래
Liberty는 진정한 지식을 갖춘 AI가 AGI(범용 인공지능)를 향한 필수적인 단계라고 믿습니다.
“지식이 없이는 지능적일 수 없습니다. 불가능합니다.”
그는 주치의를 예로 들며, 높은 IQ만으로는 충분하지 않고 의학 지식을 이해하고 기억하고 지능적으로 적용할 수 있어야 한다고 설명합니다. 나이가 들수록 인지 능력은 감소할 수 있지만, 축적된 지식 때문에 더 신뢰받게 됩니다.
AI가 변호사, 회계사, 음악가, 예술가와 같은 지식 노동자들을 정말로 도울 수 있으려면, 단순한 철자 교정기가 아니라 정보를 유지하고 진정으로 지식을 갖춰야 합니다.
Liberty에게 이러한 과제는 흥미진진합니다. “우리가 데이터를 처리하고, 이해하고, 일관되게 만들고, 사회가 신뢰할 수 있는 방식으로 접근 가능하게 만드는 방법에 관한 깊은 질문들이 있습니다. 쉽게 20년 치의 연구가 앞에 있습니다. 우리는 아직 시작에 불과합니다.”
Comments