AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

온톨로지 전문가가 사라진다: LLM이 바꾸는 지식 그래프의 미래

지식 그래프 구축 방식이 근본적으로 바뀌고 있습니다. 전문가가 수작업으로 규칙을 만들고 데이터를 정제하던 시대는 저물고, LLM이 자동으로 스키마를 생성하고 지식을 추출하는 새로운 시대가 열렸습니다.

LLM 기반 지식 그래프 구축의 새로운 패러다임 (출처: Microsoft GraphRAG)

핵심 포인트:

  • 온톨로지 공학의 자동화: 전문가가 수개월 걸려 설계하던 스키마를 LLM이 텍스트에서 자동 유도. AutoSchemaKG는 사전 정의 없이 대규모 코퍼스로부터 완전 자율 구축 실현
  • 스키마 프리 추출의 부상: 고정된 템플릿 없이도 EDC 프레임워크가 오픈 추출→정의→정규화 3단계로 고품질 지식 그래프 생성. WebNLG 벤치마크에서 기존 SOTA 모델을 능가하는 성능 달성
  • 동적 메모리 시스템으로 진화: 정적 저장소를 넘어 시간 인식 지식 그래프(TKG)로 AI 에이전트의 지속 학습과 장기 기억 지원. A-MEM·Zep 등이 실시간 지식 업데이트 가능

지식 그래프, 왜 다시 주목받나

지식 그래프(Knowledge Graph)는 개체와 관계를 그래프 구조로 표현한 지식 저장 방식입니다. 구글 검색, 추천 시스템, 질의응답 등 다양한 AI 애플리케이션의 핵심 인프라로 자리잡았죠. 하지만 전통적인 구축 방식은 세 가지 고질적 문제를 안고 있었습니다.

첫째, 확장성과 데이터 희소성 문제입니다. 규칙 기반 시스템은 특정 도메인에 최적화되어 있어 다른 분야로 확장하기 어렵습니다. 둘째, 전문가 의존도가 높습니다. 온톨로지 설계부터 스키마 정의까지 도메인 전문가의 수작업이 필수적이었습니다. 셋째, 파이프라인이 분절되어 있습니다. 온톨로지 공학, 지식 추출, 지식 융합이라는 세 단계가 독립적으로 작동하며 오류가 누적되는 구조였습니다.

LLM의 등장은 이 모든 것을 바꾸고 있습니다. 대규모 사전 학습을 통해 얻은 언어 이해 능력으로 LLM은 세 가지 핵심 메커니즘을 제공합니다. 비구조화된 텍스트에서 직접 구조화된 표현을 생성하는 생성적 지식 모델링, 자연어를 통해 이질적 지식 소스를 통합하는 의미적 통일, 그리고 프롬프트 기반 상호작용으로 복잡한 워크플로우를 조율하는 명령 기반 오케스트레이션이 그것입니다.

온톨로지 공학: 전문가 도구에서 자동화 엔진으로

온톨로지는 지식 그래프의 설계도입니다. 어떤 개념(클래스)이 존재하고, 그들 간에 어떤 관계(속성)가 가능한지 정의하죠. 전통적으로는 Protégé 같은 도구를 사용해 도메인 전문가가 수작업으로 만들었습니다. 하지만 이 방식은 시간이 오래 걸리고 유연성이 떨어집니다.

LLM은 두 가지 방향에서 이 문제를 해결하고 있습니다.

Top-down 접근: LLM을 온톨로지 보조자로

사용자가 원하는 기능을 질문 형태(Competency Question)로 제시하면, LLM이 이를 분석해 필요한 클래스와 속성을 자동으로 생성합니다. Ontogenia 프레임워크는 메타인지 프롬프팅 기법을 도입해 LLM이 스스로 생성한 온톨로지를 검토하고 수정하도록 만들었습니다. CQbyCQ 프레임워크는 사용자 스토리를 직접 OWL(온톨로지 표준 언어) 스키마로 변환합니다.

더 나아가 NeOn-GPT와 LLMs4Life 같은 시스템은 생명과학처럼 복잡한 도메인에서도 재사용 가능한 온톨로지를 자동으로 구축합니다. GPT-4의 성능은 초급 온톨로지 엔지니어 수준에 근접했다는 평가를 받고 있습니다.

Bottom-up 접근: LLM을 위한 지식 그래프

이 방향은 발상을 전환합니다. 온톨로지를 사람을 위한 것이 아니라 LLM을 위한 동적 메모리로 바라보는 것이죠. GraphRAG와 OntoRAG는 텍스트에서 먼저 구체적인 지식(인스턴스)을 추출한 뒤, 이를 클러스터링하고 일반화해서 스키마를 역으로 도출합니다.

EDC(Extract-Define-Canonicalize) 프레임워크는 이를 한 단계 더 발전시켰습니다. 오픈 정보 추출로 트리플을 얻고, LLM이 각 요소의 의미를 정의한 뒤, 벡터 유사도로 기존 스키마와 정렬하거나 새 스키마를 만듭니다. 기존 스키마가 있으면 그것에 맞추고, 없으면 자동으로 생성하는 유연성이 핵심입니다.

EDC 프레임워크 구조
EDC의 3단계 프로세스: Extract-Define-Canonicalize (출처: arxiv.org/abs/2404.03868)

AutoSchemaKG는 더욱 야심찹니다. 사전 정의된 스키마 없이 대규모 웹 코퍼스에서 지식 추출과 스키마 생성을 동시에 수행합니다. 비지도 클러스터링으로 엔티티 타입과 관계를 발견하고, 관계 유형별로 최적화된 다단계 프롬프트를 사용해 스키마를 점진적으로 진화시킵니다. 이제 기업은 자신의 도메인 데이터만 있으면 맞춤형 지식 그래프를 자동으로 구축할 수 있습니다.

지식 추출: 고정된 틀을 벗어나다

지식 추출은 텍스트에서 엔티티와 관계를 찾아내는 작업입니다. 전통적으로는 두 가지 방식이 있었습니다.

스키마 기반 방식: 미리 정해진 관계 목록에서만 추출합니다. “~는 ~의 CEO다”, “~는 ~에 위치한다” 같은 템플릿을 미리 정의하고, 그에 맞는 정보만 찾아내죠. 정확하지만 새로운 관계는 놓치기 쉽습니다.

스키마 프리 방식: 텍스트에서 모든 가능한 관계를 자유롭게 추출합니다. “Alan Shepard participated in Apollo 14” 같은 자연어 형태로 트리플을 만듭니다. 포괄적이지만 중복이 많고 일관성이 떨어집니다.

LLM은 이 두 방식을 모두 크게 개선했습니다.

동적 스키마 기반 추출

AutoSchemaKG와 AdaKGC는 스키마를 고정된 것이 아니라 진화하는 것으로 봅니다. 데이터에서 패턴을 발견하면 스키마에 새로운 관계 타입을 자동으로 추가합니다. AdaKGC의 SPI(Schema-Enriched Prefix Instruction)는 문맥에 맞는 스키마 정보를 동적으로 프롬프트에 포함시키고, SDD(Schema-Constrained Dynamic Decoding)는 재학습 없이도 새 관계를 다룰 수 있게 합니다.

ODKE+는 온톨로지 스니펫(snippet) 개념을 도입했습니다. 전체 스키마를 프롬프트에 넣는 대신, 현재 처리 중인 엔티티와 관련된 부분만 선택적으로 가져옵니다. 의료 분야의 UMLS 온톨로지를 활용한 연구에서는 태스크별 동적 프롬프트 생성으로 임상 정보 추출 정확도를 크게 높였습니다.

스키마 없는 생성적 추출

Chain-of-Thought 프롬프팅을 활용한 연구들은 LLM이 단계별 추론을 통해 엔티티와 관계를 식별하도록 유도합니다. AutoRE는 Relation-Head-Facts(RHF) 파이프라인을 instruction fine-tuning으로 학습시켜, 모델이 관계 패턴을 내재화하도록 만들었습니다.

ChatIE는 추출을 대화 과정으로 재구성했습니다. 여러 턴에 걸쳐 질문을 던지며 엔티티와 관계 후보를 반복적으로 정제합니다. KGGEN은 추출을 두 단계로 나눕니다. 먼저 엔티티를 탐지한 뒤, 그 사이의 관계를 생성하는 식이죠. 이는 인지 부하를 줄이고 오류 전파를 방지합니다.

Retrieval-Augmented 프롬프팅은 의미적으로 유사한 예시를 동적으로 검색해 컨텍스트에 추가함으로써 사실적 정확성을 높입니다. 명시적 스키마 없이도 LLM은 유도된 추론과 모듈식 프롬프팅, 대화형 정제를 통해 잠재적 관계 구조를 학습할 수 있습니다.

지식 융합: 분절에서 통합으로

여러 출처의 지식을 하나로 통합하는 과정이 지식 융합입니다. 같은 사람을 “Steve Jobs”, “스티브 잡스”, “S. Jobs”로 다르게 표현한 것들을 하나로 묶고, 충돌하는 정보를 해결해야 합니다.

스키마 레벨 융합

개념과 관계 타입 자체를 통합하는 작업입니다. 초기에는 명시적 온톨로지를 글로벌 제약으로 사용했습니다. 하지만 LKD-KGC 같은 시스템은 데이터 주도 방식으로 전환했습니다. 엔티티 타입을 벡터 클러스터링으로 자동 추출하고, LLM이 중복을 제거합니다.

EDC는 여기서 한 걸음 더 나갑니다. 스키마 구성요소에 대한 자연어 정의를 LLM이 생성하고, 이를 벡터 유사도로 비교합니다. 의미적 정규화(semantic canonicalization)가 가능해진 것이죠. 기존 스키마와 정렬할 수도 있고, 크로스 스키마 매핑도 자동으로 처리합니다.

인스턴스 레벨 융합

구체적인 엔티티와 관계를 통합합니다. KGGEN은 반복적인 LLM 기반 클러스터링으로 의미적으로 동등한 엔티티를 병합합니다. 표면적 매칭을 넘어 암묵적 추론을 활용하는 것이죠.

LLM-Align과 EntGPT는 정렬을 맥락적 추론 태스크로 재정의했습니다. LLM-Align은 다지선다 문제로 접근하고, EntGPT는 2단계 정제 파이프라인으로 후보 엔티티를 생성한 뒤 타겟 추론을 적용합니다. 정렬 정확도가 크게 향상됩니다.

최근에는 구조적·검색적 신호를 통합합니다. RAG 기반 융합 연구는 클래스-서브클래스 계층과 엔티티 설명을 활용해 제로샷 중의성 해소를 수행합니다. COMEM은 계층적 설계로 가벼운 필터링과 세밀한 추론을 결합해, 대규모 융합 태스크에서 효율성과 의미적 정확성을 동시에 달성했습니다.

통합 프레임워크의 등장

KARMA는 멀티 에이전트 아키텍처로 스키마 정렬, 충돌 해결, 품질 평가를 전담 에이전트들이 협력적으로 처리합니다. ODKE+는 온톨로지 가이드 워크플로우로 스키마 감독과 인스턴스 검증을 결합합니다. Graphusion은 한 걸음 더 나아가 모든 융합 하위 태스크(정렬, 통합, 추론)를 단일 생성 사이클 내에서 프롬프트 기반으로 수행합니다.

이러한 프레임워크들은 통합되고 적응적이며 생성적인 융합 시스템으로의 전환을 보여줍니다. LLM 중심 생태계에서 지속적 구축과 추론이 가능한 자율 진화형 지식 그래프를 향한 중요한 발걸음입니다.

엔터프라이즈 환경에서의 지식 그래프 활용 (출처: Eliya.io)

미래: 지식 그래프는 어디로 가는가

LLM과 지식 그래프의 결합은 네 가지 방향으로 진화하고 있습니다.

KG 기반 추론 강화

구조화된 지식 그래프가 LLM의 추론 메커니즘에 통합되면서 논리적 일관성과 인과 추론 능력이 향상됩니다. KG-RAR 같은 시스템은 지식 그래프 기반 랜덤 워크 추론으로 설명 가능하고 검증 가능한 모델 추론을 가능하게 합니다. 고품질 지식 그래프는 더 이상 정적 참조 자료가 아니라 동적 추론의 기반이 됩니다.

동적 메모리 시스템

AI 에이전트가 진정한 자율성을 얻으려면 유한한 컨텍스트 창의 한계를 넘어야 합니다. 지식 그래프가 정적 히스토리 저장이 아닌 지속적으로 진화하는 메모리 기판으로 작동하는 것이죠.

A-MEM은 메모리를 상호 연결된 “노트”로 모델링하고 맥락 메타데이터로 풍부하게 만들어, 지속적 재구성과 성장을 가능하게 합니다. Zep은 시간 인식 지식 그래프(TKG)로 사실의 유효성을 관리하고 시간 기반 추론과 업데이트를 지원합니다.

이러한 발전은 동적 지식 그래프가 장기적이고 해석 가능한 메모리 시스템으로 기능하며, 지속적 학습, 멀티 에이전트 협업, 자기 성찰적 추론을 가능하게 함을 보여줍니다. 향후 연구는 확장성, 시간적 일관성, 멀티모달 통합을 개선해 완전 자율적이고 지식 기반 에이전트를 실현하는 데 초점을 맞출 것입니다.

멀티모달 지식 그래프

텍스트뿐 아니라 이미지, 오디오, 비디오까지 통합하는 멀티모달 지식 그래프 구축이 활발합니다. VaLiK는 Vision-Language 모델을 cascade 방식으로 연결해 시각적 특징을 텍스트로 변환한 뒤, 크로스 모달 검증 모듈로 노이즈를 필터링해 수작업 주석 없이 엔티티-이미지 연결을 구축합니다.

KG-MRI는 멀티모달 임베딩에 대조 목적 함수를 적용해 이질적 모달리티를 일관된 의미 공간으로 정렬합니다. 모달리티 이질성, 정렬 노이즈, 확장성, 모달리티 누락 시 견고성 등이 주요 과제로 남아 있지만, LLM과 Vision-Language 모델이 함께 진화하면서 멀티모달 지식 그래프는 지각적 입력과 상징적 추론을 연결하는 핵심 기반이 될 것입니다.

RAG를 넘어선 새 역할

지식 그래프는 RAG 시스템의 검색 백본을 넘어, LLM과 원시 입력 사이의 인지적 중간 계층으로 진화하고 있습니다. 구조화된 스캐폴드로서 쿼리, 계획, 의사결정을 지원하며 더 해석 가능하고 근거 있는 생성을 가능하게 합니다.

CogER는 추천을 인지 인식 지식 그래프 추론으로 공식화해 직관적 추론과 경로 기반 추론을 통합해 설명 가능성을 제공합니다. 생물의학 분야의 PKG-LLM은 도메인 지식 그래프를 지식 증강과 정신 건강 진단의 예측 모델링에 활용합니다.

이러한 접근들은 지식 그래프를 대화형 추론 기판으로 다루며, 과학, 코드, 헬스케어 같은 영역에서 더욱 견고하고 설명 가능한 생성을 약속합니다.

LLM과 지식 그래프의 결합은 단순한 기술 트렌드가 아닙니다. 지식을 표현하고 추론하는 방식 자체의 패러다임 전환입니다. 규칙 기반의 정적 시스템에서 생성적이고 적응적인 지능형 시스템으로의 진화. 이 흐름을 이해하고 활용하는 것이 차세대 AI 시스템을 구축하는 열쇠가 될 것입니다.

참고자료:

Fediverse reactions

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다