사진 한 장. 그게 전부입니다. 그 이미지 하나에서 45분짜리 실시간 대화 영상이 흘러나옵니다. 말하고, 듣고, 침묵하는 사이사이에 눈을 깜빡이고 고개를 끄덕이면서요.

연구팀이 공개한 LPM 1.0은 이미지 한 장으로 실시간 대화 영상을 생성하는 AI 모델입니다. 텍스트, 오디오, 이미지를 동시에 받아 처리하며, 말하기·듣기·침묵 세 가지 대화 상태를 각각 다르게 구현합니다. ChatGPT처럼 음성으로 대화하는 AI에 “얼굴”을 붙이는 시각 엔진 역할을 합니다.
출처: LPM 1.0 프로젝트 페이지 – large-performance-model.github.io
대화를 세 가지 상태로 나누다
LPM 1.0이 기존 영상 생성 AI와 다른 핵심은 대화의 흐름을 세분화했다는 점입니다.
말하는 동안엔 음성 신호를 기반으로 입 모양과 몸동작을 실시간으로 맞추고, 듣는 동안엔 상대방의 목소리에 반응해 끄덕임이나 시선 이동 같은 미세한 표정을 만들어냅니다. 두 사람이 말을 주고받는 사이 짧게 찾아오는 침묵에서는 텍스트 조건을 바탕으로 자연스러운 대기 상태를 유지합니다. 미리 녹화된 루프 애니메이션이 아니라 매 순간 새로 생성되는 영상입니다.
이 구조 덕분에 ChatGPT나 Doubao 같은 음성 AI 모델과 플러그인 방식으로 연결해 쓸 수 있습니다. 음성 AI가 목소리를 담당하고, LPM 1.0은 그에 맞는 얼굴 표정을 실시간으로 내보내는 방식입니다.
디테일을 만들어내지 않고 참조한다
사진 한 장만으로 45분을 버티려면 치아, 옆모습, 특정 감정에서 생기는 주름처럼 원본 이미지에 없는 세부 정보를 어떻게 처리하느냐가 관건입니다.
LPM 1.0은 이를 “다중 세분화 정체성 조건화(multi-granularity identity conditioning)”로 해결합니다. 메인 이미지 하나만 주어도 작동하지만, 다양한 각도나 표정의 참조 이미지를 추가로 제공하면 모델이 해당 세부 정보를 직접 참조할 수 있습니다. AI가 없는 부분을 스스로 상상해서 채우는 게 아니라, 주어진 자료에서 끌어오는 방식입니다.
사실적 인물 사진뿐 아니라 애니메이션, 3D 게임 캐릭터, 비인간형 캐릭터에도 별도의 파인튜닝 없이 적용됩니다. 영상은 한 번에 렌더링하지 않고 스트리밍 방식으로 생성되며, 45분 이상이어도 정체성이 일관되게 유지된다고 연구팀은 설명합니다.
연구 단계에 머무는 이유
기술적 완성도와 별개로, 연구팀은 모델 가중치나 코드, 공개 데모를 배포할 계획이 없다고 명시했습니다. “적절한 안전장치와 책임 있는 활용 프레임워크가 마련된다면 그때 고려하겠다”는 입장입니다.
이유는 기술 자체에 있습니다. 실시간으로 누구든 말하는 얼굴로 만들 수 있다면, 실시간 딥페이크 인프라와의 경계가 매우 얇아집니다. 연구팀이 데모에 사용한 이미지는 모두 AI가 생성한 합성 인물이며, 실제 인물의 모습이나 목소리는 전혀 사용하지 않았다고 밝혔습니다. 연구팀 스스로도 위조 탐지 기술 연구에 관심이 있다고 덧붙였습니다.
LPM 1.0은 AI가 텍스트와 목소리를 넘어 시각적 존재감으로 확장되는 방향을 보여줍니다. 교육, 게임 NPC, 접근성 지원 같은 가능성과 함께, 그 가능성이 열리기 전에 어떤 안전장치가 필요한지를 동시에 묻는 연구이기도 합니다. 기술 보고서와 데모 영상은 프로젝트 페이지에서 확인할 수 있습니다.

답글 남기기