런던에서 라스베이거스까지 10시간. 기내 와이파이는 없었습니다. 드미트리 레르코는 자리에 앉아 MacBook을 펼쳤고, Claude도 ChatGPT도 없이 로컬 LLM만으로 실제 엔지니어링 작업을 시작했습니다.

출처: Running Local LLMs Offline on a Ten-Hour Flight – Dmitri Lerko
10시간 동안 무엇을 만들었나
하드웨어부터 보면, 일주일 된 MacBook Pro M5 Max에 통합 메모리 128GB, 40코어 GPU입니다. 모델은 LM Studio로 돌린 Gemma 4 31B와 Qwen 4.6 36B. 클라우드 없이 이 정도 모델을 로컬에서 돌린다는 것 자체가 2년 전만 해도 상상하기 어려운 일이었습니다.
그가 이 시간에 완성한 건 회사(loveholidays)의 2년치 클라우드 비용을 분석하는 빌링 대시보드였습니다. DuckDB를 내부 엔진으로, 기존 대시보드에서는 볼 수 없던 서비스 간 상관관계를 뽑아내는 커스텀 UI까지. 평소엔 늘 다른 일에 밀려 못 하던 작업이었는데, 10시간의 고립이 오히려 집중을 만들었습니다.
이 외에도 리팩터링, CLI 스캐폴딩, 문서 작업 등으로 약 400만 토큰을 처리했습니다. 범위가 명확한 작업에서는 Gemma와 Qwen이 평소 쓰는 클라우드 프런티어 모델과 비교해도 크게 뒤지지 않는 수준이었습니다.
세 가지 한계
물론 막히는 지점도 있었습니다.
- 전력: 풀 부하 상태에서 분당 약 1% 배터리 소모. 60W 전원이 연결돼 있는데도 배터리가 줄었습니다.
- 발열: 70~80W 지속 부하에서 랩탑 하판이 뜨거워졌고, 기내 담요가 방열구를 막아 문제를 더 키웠습니다.
- 컨텍스트: 100k 토큰을 넘어가면 처리 속도와 응답 지연이 눈에 띄게 나빠졌습니다.
모델이 무한 루프에 빠져 수동 개입이 필요한 상황도 몇 번 있었습니다. 오케스트레이션 레이어 문제인지, 모델 자체 문제인지는 아직 불명확합니다.
케이블 하나로 34W가 날아갔다
이 글에서 가장 재밌는 대목입니다.
영국항공은 좌석당 70W를 제공한다고 광고합니다. 그런데 레르코가 직접 만든 전력 모니터링 CLI(powermonitor)로 측정해 보니 실제 수령은 60W였습니다. “좌석 전원이 약하구나” 하고 넘어갔지만, 호텔에 도착한 뒤 다시 확인해 보니 원인은 엉뚱한 곳에 있었습니다.
같은 어댑터, 같은 소켓, 같은 부하 조건에서 케이블만 바꿔 봤습니다.
- iPhone 케이블: 60W
- MacBook 케이블: 94W
34W 차이, 36% 손실. 비행 내내 자신도 모르게 70W 상한선 아래에서 스스로를 제한하고 있었던 겁니다. 계측 도구가 없었다면 끝까지 몰랐을 실수입니다. 귀국 편에는 올바른 케이블로 다시 테스트할 예정이라고 합니다.
로컬 LLM이 바꾸는 것
레르코가 이 경험에서 꺼낸 가장 흥미로운 통찰은 ‘기계적 공감(mechanical sympathy)’입니다. 클라우드에서 쓸 때는 보이지 않던 것들, 즉 열, 전력, 컨텍스트 비용이 로컬에서는 물리적으로 느껴집니다. 무릎이 뜨거워지면 GPU가 얼마나 일하고 있는지 피부로 압니다. 이런 직접적인 노출이 프롬프트 크기나 툴 호출 오버헤드에 대한 감각을 만들고, 그 감각은 다시 클라우드 사용 습관을 바꿉니다.
로컬 LLM이 클라우드를 대체할 수 있는 영역은 아직 제한적입니다. 범위가 좁은 코딩 작업, 탐색적 툴링, 클라우드 비용 대비 가치가 낮은 작업들이 여기에 해당합니다. 대규모 컨텍스트 추론, 최첨단 지능이 필요한 에이전틱 워크플로우, 고가치 작업은 여전히 클라우드 영역입니다.
하지만 케이블 하나를 바꾸는 것만큼 작은 차이가 36%의 성능 손실을 만든다는 사실은, AI를 제대로 쓴다는 게 얼마나 측정과 관찰에 달려 있는지를 잘 보여줍니다.

답글 남기기