AI Sparkup

최신 AI 쉽게 깊게 따라잡기⚡

AI 창의성의 역설, 평균은 넘었지만 천재는 못 따라간다

AI가 당신보다 창의적일까요? 몬트리올대 연구팀이 10만 명의 인간과 여러 대규모 언어모델을 직접 겨뤄봤습니다. 결과는 놀랍지만 동시에 안심이 되는 내용이었습니다.

사진 출처: Lummi.ai

몬트리올대 심리학과 Karim Jerbi 교수 연구팀이 Scientific Reports(Nature Portfolio)에 발표한 이 연구는 인간과 AI의 창의성을 비교한 역대 최대 규모 실험입니다. 연구팀은 ChatGPT, Claude, Gemini 등 주요 LLM들과 10만 명의 참가자를 동일한 창의성 테스트로 평가했습니다. 핵심 발견은 명확했죠. 일부 AI 시스템이 평균 인간의 창의성 점수를 넘어섰지만, 가장 창의적인 사람들은 여전히 모든 AI를 압도했습니다.

출처: Divergent creativity in humans and large language models – Scientific Reports

GPT-4가 평균을 넘어선 방법

연구팀은 DAT(Divergent Association Task)라는 심리학 테스트를 사용했습니다. 규칙은 단순합니다. “의미상 최대한 관련 없는 단어 10개를 나열하라.”

여기서 중요한 건 채점 방식입니다. 연구팀은 GLoVe라는 단어 임베딩 모델로 각 단어 쌍 사이의 의미적 거리를 계산한 뒤, 그 평균값을 창의성 점수로 사용합니다. 예를 들어 “galaxy, fork, freedom, algae, harmonica, quantum, nostalgia, velvet, hurricane, photosynthesis”처럼 우주, 주방용품, 추상개념, 생물, 악기, 물리학, 감정, 직물, 자연현상, 과학 용어가 뒤섞인 목록은 높은 점수를 받습니다.

반대로 “dog, cat, bird, fish, horse”처럼 모두 동물 범주에 속한 단어들은 의미적 거리가 가깝기 때문에 낮은 점수를 받죠. 이 테스트는 2~4분이면 끝나고, 기존의 다른 창의성 테스트(AUT, BAG 등)와 높은 상관관계를 보여 신뢰할 만한 지표로 검증됐습니다.

결과는 명확했습니다. GPT-4는 인간 평균 점수를 통계적으로 유의미하게 초과했고, GeminiPro는 인간 평균과 거의 같은 수준이었습니다. 흥미롭게도 작은 모델인 Vicuna가 일부 대형 모델보다 더 좋은 성적을 냈죠.

하지만 여기서 중요한 전환점이 나타납니다. 연구팀이 인간 참가자를 창의성 수준별로 나눠 분석하자 판도가 바뀌었습니다. 상위 50% 인간의 평균 점수는 모든 AI 모델을 능가했고, 상위 10%로 좁히면 그 격차는 더욱 벌어졌습니다.

사진 출처: Scientific Reports, Nature Portfolio

AI는 ‘평균의 달인’이다

여기서 핵심 통찰이 나옵니다. AI는 평균을 학습합니다. GPT-4는 수십억 개의 텍스트에서 “창의적 답변”의 패턴을 학습했고, 일관되게 그 수준을 재현해냅니다. 그래서 일반인의 평균 점수는 넘을 수 있죠.

하지만 진짜 창의성은 평균에서 벗어나는 능력입니다. 상위 10% 인간은 데이터에 없는 새로운 조합을 만들어냅니다. 연구팀이 발견한 재미있는 패턴이 있습니다. GPT-4는 70% 응답에 “microscope”를, 60%에 “elephant”를 사용했습니다. 반면 인간의 최빈 단어인 “car”는 1.4%에 불과했죠. AI는 “창의적으로 보이는 단어”를 반복하고, 인간은 진짜 다양성을 만들어냅니다.

연구팀은 이 패턴이 실제 창작물에서도 나타나는지 확인했습니다. 하이쿠, 영화 시놉시스, 단편소설 과제에서 GPT-4는 GPT-3.5를 압도했지만, 숙련된 인간 작가들에게는 일관되게 뒤졌습니다. PCA 분석으로 텍스트를 시각화하자 LLM들의 결과물은 각자 뚜렷한 클러스터를 형성했고, 인간 작품은 완전히 다른 영역을 차지했습니다.

Temperature를 올리면 창의성도 올라갈까

연구팀은 GPT-4의 temperature 설정을 조작해봤습니다. 결과는 명확했습니다. Temperature가 높아질수록 DAT 점수도 상승했고, 최고 설정에서는 인간 상위 28% 수준에 도달했습니다.

하지만 여기 함정이 있습니다. Temperature를 높인다고 ‘더 창의적’이 되는 게 아닙니다. 단지 ‘더 무작위적’이 될 뿐이죠. 낮은 temperature에서는 “microscope”, “elephant”를 반복하지만, 높은 temperature에서는 그냥 예측 불가능한 단어를 뱉어냅니다. 진짜 창의성은 무작위가 아니라 의미 있는 새로움인데 말이죠.

더 흥미로운 발견은 프롬프트 전략입니다. “어원을 다양하게 섞어서 답하라”고 지시하자 GPT-3.5와 GPT-4 모두 기본 점수를 넘어섰습니다. 서로 다른 언어 기원의 단어들을 골고루 섞으면 의미적 거리가 자연스럽게 멀어지기 때문이죠. 반대로 “반의어를 사용하라”고 하면 점수가 떨어졌습니다. Light와 dark처럼 반대말은 사실 같은 개념 축에 있어서 의미적으로 가깝거든요.

성능이 아니라 메커니즘이 다르다

이 연구가 정말 중요한 이유는 “AI가 창의적인가”라는 질문을 다시 짜기 때문입니다. 연구팀은 솔직하게 인정합니다. “LLM이 인간과 유사한 메커니즘으로 비슷한 성과를 낸다고 가정하지 않습니다.”

AI는 단어 임베딩의 코사인 유사도를 직접 계산하지 않습니다. 대신 수십억 개 파라미터의 잠재 표현을 반복적으로 변환합니다. 비슷한 점수를 내도, 그 과정은 완전히 다릅니다. 마치 새와 비행기가 둘 다 하늘을 나는 것처럼요.

그래서 연구팀은 조심스럽습니다. “DAT는 LLM의 연관적 사고를 정량화하는 유용한 도구지만, 이 점수를 인간처럼 ‘창의성’이나 ‘확산적 사고’로 해석하려면 더 많은 검증이 필요합니다.” 같은 결과, 다른 경로. 이게 핵심입니다.

실무적 의미는 명확합니다. 평균 수준의 브레인스토밍, 초안 작성, 아이디어 확장에는 AI가 훌륭합니다. 하지만 정말 획기적인 아이디어가 필요한 순간에는 여전히 인간 창작자가 필요합니다. AI는 당신이 생각한 것의 변주를 만들어주지만, 당신이 생각하지 못한 것을 만들어내진 못하는 것 같네요. 적어도 아직까지는요.


AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다