OM1은 OpenMind가 공개한 모듈형 AI HAL(Hardware Abstraction Layer) 런타임이다. 웹 데이터, 소셜 미디어, 카메라, LIDAR 같은 입력을 처리하고, 음성 응답, 이동, 내비게이션, 로봇 행동 같은 출력을 연결해 멀티모달 AI 에이전트를 물리 로봇과 시뮬레이터에 배포하는 데 초점을 둔다.
핵심 구성
| 영역 | 내용 |
|---|---|
| 런타임 | 성능과 배포 단순성을 위해 Go 런타임 중심, 기존 Python 런타임은 deprecated |
| 센서 입력 | 카메라, 마이크, 웹 데이터, LIDAR 등 확장 가능한 input 플러그인 |
| 모델 연결 | OpenAI, Anthropic, Gemini, Meta, DeepSeek, xAI, Ollama 등 LLM/VLM endpoint |
| 로봇 연결 | ROS2, Zenoh, CycloneDDS, websockets, USB/serial 기반 HAL 연동 |
| 관측성 | Prometheus와 Grafana로 LLM/ASR latency 등 파이프라인 지표 모니터링 |
빠른 시작 흐름
OM1의 기본 예제는 conversation agent다. 사용자의 웹캠과 마이크를 입력으로 받아 시각·음성 컨텍스트를 처리하고, 음성으로 응답한다.
brew install portaudio ffmpeg
export OM_API_KEY="<your_api_key>"
./om1 -config ./config/conversation.json5Docker가 있으면 Prometheus/Grafana 스택으로 실시간 latency 대시보드를 띄울 수 있다.
어디에 적합한가
- 휴머노이드·사족보행 로봇에 LLM/VLM 기반 에이전트를 붙이려는 개발자
- Gazebo, Isaac Sim 같은 시뮬레이터에서 물리 AI 파이프라인을 실험하는 팀
- 로봇별 SDK 차이를 HAL 플러그인으로 흡수하고 싶은 플랫폼 팀
- 온디바이스/엣지 배포를 고려해 단일 Go 바이너리와 낮은 latency가 필요한 환경
관련 문서
- qwen-vla — 조작·탐색·궤적을 통합한 로봇 VLA 모델
- nvidia-cosmos — 로봇·자율주행을 위한 Physical AI 세계 모델 플랫폼
- molmomotion — 언어 지시 기반 3D 물체 움직임 예측 모델
참고 자료
- OpenMind/OM1 — GitHub 공식 저장소