AI Sparkup

복잡한 AI 세상을 읽는 힘 ⚡

AI로 돈 버는 곳은 따로 있다: 22세 창업자의 연매출 5억 달러 비밀

OpenAI는 AGI(인공일반지능)가 곧 온다고 말합니다. 한 번 학습하면 모든 걸 할 수 있는 AI 말이죠. 그런데 실제로는 정반대 일이 벌어지고 있어요. AI는 점점 더 많은 인간 전문가를, 더 특화된 데이터를 요구하고 있습니다. 그리고 그 틈새에서 누군가는 엄청난 돈을 벌고 있죠.

사진 출처: The Verge

The Verge가 AI 학습 데이터 산업의 숨겨진 골드러시를 심층 취재했습니다. ChatGPT와 Claude를 만드는 대형 AI 랩들은 아직 수익을 내지 못하는 반면, 이들에게 학습 데이터를 공급하는 회사들은 폭발적으로 성장하고 있다는 내용이에요. 업계 추산으로 AI 랩들은 올해만 학습 데이터에 100억 달러 이상을 쏟아붓고 있습니다. 이 역설적 상황이 AI의 미래에 대해 말해주는 것은 무엇일까요?

출처: The companies making the most money from AI – The Verge

19세 창업자, 1년 만에 연매출 5억 달러

브렌든 푸디(Brendan Foody)는 19세에 고등학교 친구 둘과 함께 Mercor를 창업했습니다. 해외 소프트웨어 엔지니어를 중개하는 단순한 인력 회사였어요. 2024년 초, Scale AI가 찾아와 소프트웨어 엔지니어 1,200명을 요청했죠. Scale은 자율주행차부터 챗봇까지, 전 세계 수십만 명을 동원해 AI 학습 데이터를 생산하는 회사였습니다.

푸디는 뭔가 큰 변화가 오고 있다고 느꼈어요. 그때까지 AI 학습 데이터는 저임금 크라우드소싱 작업이었거든요. 아마존 메커니컬 터크에서 몇 센트 받고 개와 고양이 사진에 라벨을 붙이는 식이었죠. 그런데 이제 OpenAI와 Anthropic 같은 회사들이 챗봇에게 코딩을 가르치려 하면서, 실제 소프트웨어 엔지니어가 필요해진 겁니다.

푸디는 Scale을 거치지 않고 직접 AI 랩들에게 데이터를 공급하기 시작했습니다. 2024년 9월, Mercor는 연매출 5억 달러를 달성했다고 발표했어요. “역사상 가장 빠르게 성장한 회사”라는 타이틀을 AI 코딩 도구 Cursor로부터 빼앗았죠. 최근 투자 라운드에서 기업가치는 100억 달러로 평가됐고, 푸디와 공동창업자들은 22세의 나이에 자수성가 억만장자가 됐습니다.

이건 Mercor만의 이야기가 아니에요. 또 다른 데이터 회사 Surge AI는 작년에 10억 달러 이상 수익을 냈다고 알려졌습니다. 대학생 취업 플랫폼이던 Handshake는 올해 초 데이터 사업을 시작해 5개월 만에 직원이 3명에서 150명으로 늘었죠. “10억 달러짜리 피냐타가 터진 격”이라고 CEO는 표현했습니다.

모든 전문성을 체크리스트로 만들기

왜 갑자기 이렇게 많은 돈이 데이터에 쏟아질까요? AI 학습 방식이 근본적으로 바뀌었기 때문입니다.

초기 ChatGPT는 사람들이 어떤 답변을 선호하는지 평가하는 방식으로 학습했어요. 하지만 한계가 명확했죠. AI가 “훌륭한 지적이십니다” 같은 말만 배우거나, 변호사 시험은 통과하지만 판례는 지어내는 식이었습니다. MIT 연구에 따르면 생성형 AI를 도입한 기업의 95%가 수익을 전혀 보지 못했어요.

그래서 등장한 게 “강화학습 루브릭(grading rubric)” 방식입니다. OpenAI의 o1이나 DeepSeek의 R1 같은 최신 모델이 수학과 코딩에서 눈에 띄는 성과를 낸 방법이죠. 핵심은 무엇이 “잘한 것”인지 극도로 구체적인 체크리스트를 만들어주는 겁니다.

OpenAI가 공개한 의료 벤치마크를 보세요. “의식 없는 이웃 발견” 상황에서 AI는 맥박 확인, 제세동기 찾기, 심폐소생술 등 19가지 기준을 충족해야 점수를 받아요. 이런 기준이 벤치마크 하나에만 5만 개 가까이 들어있습니다. AI 랩들은 한 번 학습에 수십만 개의 루브릭을, 그 안에 수백만 개의 세부 기준을 주문한다고 해요.

문제는 루브릭 하나 만드는 데 10시간 이상 걸린다는 점입니다. Mercor의 푸디는 컨설팅 루브릭을 예로 들었어요. “먼저 컨설팅 회사가 다루는 모든 산업을 분류하고, 각 산업에서 하는 컨설팅 유형을 나누고, 각 유형별로 만들 수 있는 모든 보고서와 분석을 정리해야 합니다.”

이메일 하나 보내는 것도 마찬가지예요. 브라우저 열기, 새 메시지 작성, 타이핑, 전송… 각 단계를 쪼개서 검증해야 합니다. Scale AI의 엔지니어링 VP는 말했죠. “성공 여부를 이메일이 전송됐는지만으로 확인한다면? 그것만으론 충분하지 않아요. 더 많은 액션을 체크해야 합니다.”

이 작업을 위해 AI 랩들은 골드만삭스 애널리스트, 맥킨지 컨설턴트, 필즈상 수학자, 대법원 소송 변호사를 고용하고 있어요. 소프트웨어 엔지니어가 가장 많고, 금융, 컨설팅, 법률, 물리학, 화학이 뒤를 잇습니다. 심지어 핵공학자와 동물 조련사, 목공 전문가까지 구인 광고가 나왔죠.

Snorkel AI의 CEO는 표현했습니다. “임상 병원 환경부터 법률 심층 조사까지… 인간 전문성의 모든 구석구석이에요.”

AGI를 향한다는데 왜 더 많은 인간이 필요한가

여기서 핵심적인 역설이 드러납니다.

AI 랩들이 목표로 하는 AGI는 한 번 학습하면 모든 걸 일반화해서 할 수 있어야 해요. 수학과 회계를 배웠다면 추가 학습 없이 세금 신고도 할 수 있어야 하는 거죠. 그런데 실제로는 정반대가 일어나고 있습니다. 점점 더 특화된, 더 많은 인간 데이터가 필요해지고 있거든요.

일리노이대 컴퓨팅학과 대니얼 강 교수는 지적합니다. “AI 랩들이 옳다면, 성능이 올라갈수록 인간 데이터 필요성은 줄어야 합니다. 결국 인간을 완전히 배제할 수 있어야 하죠. 그런데 반대 현상이 일어나고 있어요.” 현재 추세라면 각 분야별 고품질 인간 데이터 확보가 AI 발전의 주요 병목이 될 거라고 예측합니다.

왜 이런 일이 벌어질까요? 강화학습이 작동하려면 “성공”에 대한 명확한 신호가 필요하기 때문입니다. 바둑은 이기거나 지거나 둘 중 하나죠. 코드도 실행되거나 안 되거나예요. 그래서 AI가 잘할 수 있습니다.

하지만 인생의 대부분은 그렇지 않아요. 법률 브리핑이나 컨설팅 분석이 “좋은지” 판단하는 보편적 기준은 없습니다. 맥락, 목표, 청중에 따라 달라지죠. Cohere의 AI 책임자 조엘 피노는 말했어요. “커뮤니티에는 단일 보상 함수만 명시하면 된다는 믿음이 있는 것 같습니다. 하지만 현실은 훨씬 복잡해요. 강화학습은 하나의 함수를 원하는데, 여러 상충하는 가치를 동시에 다루는 데는 서툴거든요.”

새로운 패러다임을 찾는 대신, AI 회사들은 수천 명의 전문가를 고용해 모든 상황에서 “잘한 것”의 기준을 빈틈없이 작성하는 방식으로 문제를 우회하고 있습니다. 마치 인류의 모든 기술과 노하우를 체크리스트로 인코딩하려는 거대한 프로젝트처럼 보여요.

AI는 신이 아니라 평범한 기술일 수 있다

이 상황이 의미하는 바는 명확합니다. AI는 “모든 것을 아는 신”이 아니라 증기기관이나 인터넷 같은 “평범한 기술”일 가능성이 커지고 있다는 거예요.

강 교수는 설명합니다. “이 시나리오에서 기업들은 특정 작업을 자동화하고 싶을 때마다 새 데이터를 사야 하고, 업무 방식이 바뀔 때마다 계속 데이터를 구매해야 합니다.” 실제로 스마트 매트리스 회사 Eight Sleep은 “코골이 감지” 기능 하나 추가하려고 데이터 회사에 5만 명을 동원해 코골이 소리에 라벨을 붙이는 작업을 맡겼어요.

데이터 회사들은 바로 이 미래에 베팅하고 있습니다. Mercor의 푸디는 솔직하게 말해요. “랩들은 최대한 빨리 일반화하는 초지능을 갖게 될 거라고 말하고 싶어 하죠. 하지만 실제로는 강화학습의 일반화 반경이 제한적이어서, 최적화하고 싶은 모든 것에 대해 평가 기준을 만들어야 합니다. 그리고 그에 대한 투자가 매우 빠르게 폭발하고 있어요.”

의료 데이터 전문 회사 Centaur AI의 CEO 에릭 두하임은 더 직설적입니다. “신 같은 모델을 만들려는 시도가 어떻게 될지 모르겠어요. 하지만 다른 모든 곳의 수요는 계속 증가할 거라고 확신합니다. 모두가 쉽고 즉시 쓸 수 있는 꿈을 팔았거든요. 이제 그들은 깨닫고 있죠. ‘아, 우리 사례에 맞게 커스터마이징해야 하는구나’라고요.”

Mercor의 푸디는 더 큰 그림을 봅니다. “경제의 모든 산업에 걸쳐 데이터와 평가 기준의 대규모 구축이 필요할 겁니다. 저희 회사에서는 고객 지원팀이 AI 에이전트가 처리 못한 티켓에 응대하지만, 동시에 루브릭을 업데이트해서 다음번엔 처리할 수 있게 만들거든요.” 그는 잠시 멈췄다가 말했어요. “전체 경제가 강화학습 환경이 될 것 같습니다.”

투자자들이 이 비전을 Anthropic CEO 다리오 아모데이가 묘사한 “데이터센터 속 천재들의 나라”만큼 매력적으로 보지 않더라도, 적어도 한 가지는 분명합니다. AGI가 오든 안 오든, 누군가는 그 과정에서 돈을 벌고 있다는 것이죠. 그리고 그 사실 자체가 AI의 미래에 대해 많은 것을 말해줍니다.

참고자료:

Fediverse reactions

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다