OpenAI가 Dev Day 2025에서 공개한 AgentKit은 AI 에이전트 개발의 판도를 바꾸고 있습니다. 무대 위에서 8분 만에 완전한 AI 워크플로우와 2개의 에이전트를 라이브로 구축한 데모가 이를 증명했죠. 개발자들이 몇 달씩 고민하던 복잡한 오케스트레이션과 파편화된 도구들을 이제 몇 시간 만에 해결할 수 있게 되었습니다.
핵심 포인트:
- 8분 라이브 구축의 충격: OpenAI 엔지니어 Christina Huang이 무대 위에서 완전한 AI 워크플로우와 2개 에이전트를 8분 만에 구축. 코딩 없이 드래그앤드롭만으로 실현
- 개발 시간 70% 단축: Ramp는 몇 달 걸리던 작업을 몇 시간으로, 2분기 프로젝트를 2스프린트로 압축. LY Corporation은 2시간 만에 첫 멀티 에이전트 워크플로우 완성
- 프로토타입부터 프로덕션까지 통합: 복잡한 오케스트레이션, 커스텀 커넥터, 수동 평가, 프론트엔드 작업 등 분산된 과정을 하나의 플랫폼에서 해결
무대 위 8분, 무엇이 달라졌나
OpenAI Dev Day의 하이라이트는 Christina Huang의 라이브 데모였습니다. 무대 위에서 8분 만에 완전한 AI 워크플로우를 구축했죠. 관객들이 숨죽이고 지켜보는 가운데, 드래그앤드롭 인터페이스로 에이전트를 연결하고, 가드레일을 설정하고, 프리뷰를 실행하는 전 과정이 실시간으로 펼쳐졌습니다.
Sam Altman은 “우리가 첫 에이전트를 만들 때 간절히 바랐던 모든 것”이라고 표현했습니다. 기존에는 복잡한 오케스트레이션 코드를 작성하고, 버전 관리 시스템을 따로 구축하고, 커스텀 커넥터를 개발하고, 수동으로 평가 파이프라인을 만들고, 몇 주에 걸쳐 프론트엔드 작업을 해야 했습니다. AgentKit은 이 모든 과정을 하나의 통합 플랫폼에서 해결합니다.
AgentKit의 4가지 핵심 도구
Agent Builder: “Canva처럼 쉬운” 비주얼 캔버스
Agent Builder는 드래그앤드롭 방식으로 에이전트 워크플로우를 설계할 수 있는 비주얼 캔버스입니다. 복잡한 로직을 시각적으로 구성하고, 도구들을 연결하고, 커스텀 가드레일을 설정할 수 있죠. 프리뷰 실행, 인라인 평가 설정, 완전한 버전 관리 기능까지 갖추고 있습니다.
Ramp 팀의 반응이 인상적입니다. “몇 달 걸리던 복잡한 오케스트레이션, 커스텀 코드, 수동 최적화 작업이 불과 몇 시간으로 압축됐습니다. 비주얼 캔버스 덕분에 제품팀, 법무팀, 엔지니어링팀이 같은 페이지에서 협업하게 되었고, 반복 주기가 70% 단축됐죠. 2분기 걸리던 프로젝트를 2스프린트 만에 라이브로 올릴 수 있었습니다.”
일본의 대형 기술 기업 LY Corporation도 2시간 만에 첫 멀티 에이전트 워크플로우를 구축했습니다. “엔지니어와 도메인 전문가가 하나의 인터페이스에서 협업하면서 에이전트를 완전히 새로운 방식으로 오케스트레이션할 수 있었습니다.”

ChatKit: 브랜드에 맞춘 채팅 UI
에이전트를 만들었다면 사용자에게 보여줄 인터페이스가 필요합니다. ChatKit은 앱이나 웹사이트에 간단히 임베드할 수 있는 채팅 인터페이스를 제공합니다. 스트리밍 응답 처리, 스레드 관리, 모델의 사고 과정 표시 등 복잡한 기능들이 이미 구현되어 있죠.
브랜드 컬러, 워크플로우, 제품의 고유한 특성에 맞춰 커스터마이징할 수 있습니다. HubSpot은 ChatKit을 활용해 고객 지원 에이전트를 구축했고, 내부 지식 어시스턴트부터 온보딩 가이드, 리서치 에이전트까지 다양한 용도로 활용되고 있습니다.
Connector Registry: 데이터 중앙 관리
엔터프라이즈 환경에서는 여러 워크스페이스와 조직에 걸쳐 데이터 소스를 관리해야 합니다. Connector Registry는 ChatGPT와 API 전반의 데이터 소스를 하나의 관리자 패널에서 통합 관리할 수 있게 해줍니다.
Dropbox, Google Drive, SharePoint, Microsoft Teams 같은 사전 구축 커넥터는 물론, 서드파티 MCP(Model Context Protocol)도 지원합니다. 보안과 제어를 유지하면서 에이전트가 내부 도구와 외부 시스템에 안전하게 연결될 수 있죠.
Evals: 에이전트 성능 측정
프로덕션급 에이전트를 만들려면 엄격한 성능 평가가 필수입니다. AgentKit은 네 가지 새로운 평가 기능을 추가했습니다.
첫째, 데이터셋 기능으로 처음부터 빠르게 평가를 구축하고 자동 채점기와 인간 주석으로 확장할 수 있습니다. 둘째, 트레이스 채점으로 전체 에이전트 워크플로우의 엔드투엔드 평가를 실행하고 자동으로 약점을 찾아냅니다. 셋째, 자동화된 프롬프트 최적화로 인간 주석과 채점기 결과를 바탕으로 개선된 프롬프트를 생성합니다. 넷째, 서드파티 모델 지원으로 다른 제공업체의 모델도 OpenAI Evals 플랫폼에서 평가할 수 있습니다.
실제 성과로 증명된 효과
Klarna는 AgentKit 기반의 Responses API를 활용해 전체 고객 지원 티켓의 2/3를 처리하는 에이전트를 구축했습니다. Clay는 영업 에이전트로 10배 성장을 달성했죠.
OpenAI는 3월 Responses API와 Agents SDK 출시 이후 수백만 개발자들이 심층 리서치부터 고객 지원까지 다양한 엔드투엔드 에이전트 워크플로우를 구축하는 것을 목격했습니다. AgentKit은 이 Responses API 위에 구축되어 개발자들이 더 효율적이고 안정적으로 에이전트를 만들 수 있도록 돕습니다.
또한 강화 미세조정(Reinforcement Fine-tuning) 기능도 베타로 제공됩니다. 개발자들은 OpenAI o4-mini와 GPT-5에서 추론 모델을 커스터마이징할 수 있죠. 커스텀 도구 호출 기능으로 모델이 적시에 올바른 도구를 호출하도록 훈련시킬 수 있고, 커스텀 채점기로 각 사용 사례에서 가장 중요한 평가 기준을 설정할 수 있습니다.
지금 바로 시작할 수 있습니다
ChatKit과 새로운 Evals 기능은 오늘부터 모든 개발자에게 일반 공개됩니다. Agent Builder는 베타로 제공되고, Connector Registry는 Global Admin Console을 가진 API, ChatGPT Enterprise 및 Edu 고객을 대상으로 베타 배포를 시작했습니다.
모든 도구는 표준 API 모델 가격에 포함되어 추가 비용이 없습니다. OpenAI는 곧 독립형 Workflows API와 ChatGPT용 에이전트 배포 옵션도 추가할 예정입니다.
AI 에이전트 개발의 진입 장벽이 크게 낮아졌습니다. “만들고 싶었지만 너무 복잡해서 포기했던” 아이디어들을 이제 몇 시간 만에 실현할 수 있게 된 것이죠. 8분짜리 라이브 데모가 증명했듯이, 이제는 속도의 시대입니다.
참고자료:
답글 남기기