한국인 700만 명의 합성 데이터, AI 에이전트 맥락 문제를 바꾼다

2026-04-26

﹒

2 minutes

독감 예방접종 시기를 물어봤더니, AI 에이전트가 미국 CDC 권고 일정을 안내했습니다. 지역 보건소 대신 “주치의와 상담하세요”라고 답했고, 어르신께 반말로 응답했습니다. AI가 틀린 게 아닙니다. 애초에 한국 맥락으로 학습되지 않았을 뿐입니다.

사진 출처: NVIDIA / Hugging Face

NVIDIA가 한국 공식 통계를 기반으로 생성한 합성 페르소나 데이터셋 Nemotron-Personas-Korea를 공개했습니다. 국가통계포털(KOSIS), 국민건강보험공단, 대한민국 대법원 등의 공공 데이터를 활용해 700만 개의 가상 한국인 인물 데이터를 만든 것으로, 한국 문화·언어·제도 맥락에 특화된 AI 에이전트를 구축하는 데 쓰입니다.

출처: How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas – NVIDIA / Hugging Face Blog

대부분의 AI 에이전트는 ‘정체성이 없다’

지금까지 AI 에이전트는 지시를 따르는 데는 능숙하지만, 자신이 누구를 위해 일하는지는 모르는 채로 작동해 왔습니다. 훈련 데이터의 대부분이 영어 웹 데이터이기 때문에, 한국 사용자를 위한 서비스에 그대로 투입하면 여러 지점에서 어긋납니다.

존댓말 체계가 빠지거나, 미국 의료 절차가 한국 공중보건 안내처럼 제공되거나, 지역 특성이 전혀 반영되지 않는 식입니다. 이는 단순히 어색한 수준이 아니라 실제 서비스 실패로 이어집니다. NVIDIA는 이 문제를 “에이전트가 그라운딩(grounding)되지 않았다”고 표현합니다. 즉, 인구통계·문화적 맥락 없이 작동하는 상태입니다.

700만 합성 페르소나가 무엇인지

Nemotron-Personas-Korea는 실존 인물 데이터가 아닙니다. 공식 통계 데이터를 기반으로 확률적 모델링을 통해 생성한 완전한 합성 데이터로, 개인정보보호법(PIPA)을 준수하며 개인식별정보(PII)를 포함하지 않습니다.

데이터셋의 규모와 구성을 보면, 페르소나 한 건당 26개 필드로 구성됩니다. 이름(성씨 118개, 이름 약 2만 1천 개), 지역(전국 17개 시도, 25개 구), 직업(2천여 개 직종), 생애 단계(학생·군복무·재직·실직·은퇴), 페르소나 유형(직업형·가족형·스포츠형·예술형·여행형·음식형·간결형) 등이 포함됩니다. 언어는 자연 한국어로 생성됐고, 라이선스는 CC BY 4.0으로 상업적 활용이 가능합니다.

생성 파이프라인은 두 단계로 작동합니다. 먼저 확률적 그래픽 모델(PGM)이 KOSIS의 인구 분포 데이터를 기반으로 통계적으로 정확한 인물 속성을 배치합니다. 그런 다음 Gemma-4-31B 모델이 그 속성을 자연스러운 한국어 서사로 변환합니다. 통계 정확성과 언어 자연스러움을 분리해서 처리하는 구조입니다.

페르소나가 에이전트 동작을 어떻게 바꾸는가

핵심은 페르소나 데이터를 에이전트의 시스템 프롬프트에 주입하는 방식입니다. 이름, 지역, 직업, 전문 분야 같은 구조화된 필드가 에이전트의 정체성이 되고, 여기에 행동 지침과 업무 범위를 얹으면 특정 역할과 지역에 특화된 에이전트가 만들어집니다.

같은 질문에 대한 결과 차이를 보면 그라운딩의 효과가 뚜렷합니다. “독감 예방접종은 언제 맞아야 하나요?”라는 질문에 그라운딩 없는 에이전트는 CDC 기준이나 일반적인 답변을 제공합니다. 한국 보건소 직원 페르소나로 그라운딩된 에이전트는 한국 국가예방접종 일정을 기준으로, “가까운 보건소에서 무료 접종이 가능합니다”라는 지역 맥락과 함께 존댓말로 응답합니다. 의료 분야뿐 아니라 금융, 교육, 공무원 등 직종 필터만 바꾸면 다른 도메인 에이전트로 전환됩니다.

국가별 주권 데이터 컬렉션으로 확장 중

Nemotron-Personas-Korea는 NVIDIA Nemotron Personas 컬렉션의 일부입니다. 미국, 일본, 인도, 싱가포르(AI Singapore와 협업), 브라질(WideLabs), 프랑스(Pleias)에 이어 한국이 추가됐습니다. 각 국가의 데이터는 해당 국가의 공식 기관과 협력해 구축되며, 멀티마켓 서비스를 개발하는 경우 여러 나라의 페르소나를 같은 파이프라인에서 혼합해 사용할 수도 있습니다.

이 흐름은 단순한 데이터셋 확장이 아닙니다. 각국이 자국 통계에 기반한 AI 학습 데이터를 갖추는 방향, 즉 AI 주권(sovereign AI)의 데이터 기반 접근으로 읽힙니다. 한국은 공공기관의 합성 데이터 생성 가이드를 공식 발표한 몇 안 되는 국가 중 하나로, 이 데이터셋은 그 가이드라인을 따르고 있습니다.

데이터셋 세부 구성과 기술 파이프라인에 대한 내용은 원문에서 확인할 수 있습니다.

참고자료:

Nemotron-Personas-Korea 데이터셋 – Hugging Face

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

한국인 700만 명의 합성 데이터, AI 에이전트 맥락 문제를 바꾼다

대부분의 AI 에이전트는 ‘정체성이 없다’

700만 합성 페르소나가 무엇인지

페르소나가 에이전트 동작을 어떻게 바꾸는가

국가별 주권 데이터 컬렉션으로 확장 중

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

말로 설명하지 말고 그냥 보여주세요, Gemini Live 카메라 기능

화려한 AI 투자 발표 뒤에 숨은 1.65조 달러의 빚

퇴사하면 사라지는 회사 ChatGPT 대화, 미리 백업해두는 법

취약점 탐지에 대형 AI가 필요 없다는 걸 증명한 모델들