AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

Thinking Machines 인터랙션 모델, AI와 대화하는 방식을 바꾸는 새로운 접근

AI에게 말을 걸고 답을 기다리는 동안, 중요한 것을 더 말하고 싶어도 끊을 수가 없었던 적이 있으신가요? AI가 답변하는 도중엔 인간은 그저 기다리는 수밖에 없습니다. 지금 우리가 AI와 대화하는 방식에는 구조적 한계가 있습니다.

사진 출처: Thinking Machines Lab

Thinking Machines Lab이 ‘인터랙션 모델(Interaction Models)’ 연구 프리뷰를 공개했습니다. 기존 턴 방식 AI 인터페이스의 협업 병목을 해결하기 위해 오디오, 비디오, 텍스트를 실시간으로 처리하는 완전 양방향 모델을 설계했다는 발표입니다. 지능과 반응 속도를 동시에 달성하는 이중 구조가 핵심입니다.

출처: Interaction Models: A Scalable Approach to Human-AI Collaboration – Thinking Machines Lab

턴 방식이 만드는 협업 병목

지금 대부분의 AI는 ‘턴 방식(turn-based)’으로 작동합니다. 사용자가 말을 마칠 때까지 모델은 기다리고, 모델이 답변을 생성하는 동안엔 새로운 입력을 받지 않습니다. 이 구조는 채팅이나 텍스트 작업에서는 그럭저럭 돌아가지만, 실시간 음성 대화에서는 한계가 뚜렷합니다.

ChatGPT의 음성 모드를 써본 분이라면 느꼈을 겁니다. 말 중간에 끊기 어렵고, 내가 말하는 동안 모델은 아무것도 인지하지 못하며, 표정이나 시각 신호는 전달할 방법이 없죠. Thinking Machines는 이 문제를 인터페이스 수준이 아닌 모델 아키텍처 수준에서 풀려 했습니다.

마이크로 턴: 200ms 단위로 듣고 말하기

인터랙션 모델의 핵심은 완전 양방향(full-duplex) 설계입니다. 모델이 말하면서 동시에 듣는 구조인데, 실제로는 200ms 단위의 ‘마이크로 턴’으로 구현됩니다.

작동 흐름은 이렇습니다.

  1. 200ms 분량의 입력(오디오·비디오)을 받아들임
  2. 200ms 분량의 출력(음성)을 생성
  3. 이 두 흐름을 끊임없이 반복하며 실시간으로 교차

덕분에 사용자가 말하는 도중에도 모델이 끼어들 수 있고, 반대로 모델이 말하는 중에 사용자가 끊는 것도 자연스럽게 처리됩니다. 또한 말하는 속도를 실시간으로 감지하거나, 시각 신호(표정, 행동)에 반응해 발화 타이밍을 결정하는 것도 가능해집니다. 기존 시스템이 VAD(음성 활동 감지) 같은 별도 컴포넌트로 억지로 구현하던 것들이 모델 자체의 능력으로 통합되는 것이죠.

빠른 모델과 똑똑한 모델의 분업

풀-듀플렉스 모델이 새로운 건 아닙니다. Moshi, PersonaPlex, Nemotron VoiceChat 등 이미 유사한 시도가 있었습니다. 문제는 빠른 반응에는 작고 가벼운 모델이 필요한데, 그러다 보면 지능이 떨어진다는 점입니다.

Thinking Machines의 해법은 두 모델의 분업입니다.

  • 인터랙션 모델: 사용자와 실시간으로 대화를 유지
  • 배경 모델(background model): 복잡한 추론, 검색, 에이전트 작업을 비동기로 처리

인터랙션 모델이 대화를 이어가는 동안 배경 모델은 어려운 질문을 따로 처리하고, 결과가 나오면 자연스러운 타이밍에 대화 흐름으로 통합됩니다. 사용자는 응답을 기다리는 대신, 대화를 계속하면서 결과를 받아보는 경험을 하게 됩니다.

외부 분석가들은 이 구조가 벤치마크 점수를 끌어올리는 손쉬운 방법이기도 하다고 지적합니다. 배경에 강력한 추론 모델을 연결하면 BigBench Audio 점수가 76%에서 96%로 오르는 식으로요. 성능과 벤치마크 게이밍의 경계가 모호하다는 비판도 있지만, 반응성과 지능을 분리해서 다룬다는 발상 자체는 실용적인 접근입니다.

이번 발표의 진짜 성취

Thinking Machines 발표에서 가장 주목할 부분은 따로 있습니다. 바로 비디오 입력을 지원하는 대규모 풀-듀플렉스 모델을 만들어냈다는 점입니다.

기존 풀-듀플렉스 모델들이 비디오를 지원하지 못한 건 기술적으로 불가능했기 때문입니다. TML-Interaction-Small은 276B 파라미터 MoE(혼합 전문가) 구조로, Moshi 대비 총 파라미터 기준 약 40배 규모에서 풀-듀플렉스를 구현했습니다. 얼굴 표정이나 시각적 단서를 실시간으로 읽으며 대화할 수 있는 모델이 이 규모에서 등장한 건 처음입니다.

벤치마크에서도 독자적인 영역을 보여줬습니다. “몇 번 팔굽혀펴기를 했는지 세어줘”처럼 시각 신호를 기준으로 말해야 하는 타이밍을 판단해야 하는 과제에서, 기존 GPT Realtime 등은 침묵하거나 틀린 답을 냈지만 이 모델은 유의미한 성과를 냈습니다.

AI 협업의 다음 단계

인터랙션 모델이 제안하는 것은 단순한 기능 개선이 아닙니다. AI와 일하는 구조 자체의 변화입니다. 지금까지 AI 협업은 사용자가 요건을 완전히 정리해 전달하는 방식, 즉 AI 인터페이스에 인간이 맞추는 방식이었습니다. 인터랙션 모델은 그 방향을 뒤집으려 합니다.

물론 아직 한계도 있습니다. 긴 세션에서의 컨텍스트 관리, 연결 품질에 따른 성능 저하, 현재 모델 크기에서의 속도 제약 등은 Thinking Machines 스스로도 인정하는 과제입니다. 연내 더 큰 모델 출시와 연구 프리뷰 확대를 예고한 상황입니다.

참고자료: Thinking Machines and interaction models – Sean Goedecke


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다