LLM에 감정을 넣으면 성능이 오를까, 6가지 감정 실험 결과

2026-04-10

﹒

AI 인사이트

﹒

2 minutes

“제발 이거 꼭 맞춰줘, 너무 중요해서 떨려” — 이런 식으로 LLM에 감정을 실어 프롬프트를 쓰면 답변 품질이 올라간다는 이야기가 꽤 퍼져 있습니다. 그런데 막상 체계적으로 실험해보니 결과는 달랐습니다.

사진 출처: Wang et al., arXiv:2604.02236

Harvard University 등 공동 연구팀이 최근 arXiv에 발표한 논문에서 기쁨, 슬픔, 공포, 분노, 혐오, 놀람 6가지 감정을 프롬프트 앞에 붙였을 때 LLM 성능이 실제로 달라지는지를 수학 추론, 의료 문답, 독해, 상식 추론 등 6개 벤치마크에 걸쳐 측정했습니다. 전반적인 결론은 한 마디로 요약됩니다. 고정된 감정 프롬프트는 대체로 효과가 없다. 하지만 감정 선택을 질문마다 적응적으로 바꾸면 이야기가 달라진다.

출처: Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models – arXiv (Harvard University 외)

어떻게 실험했나

연구팀은 Qwen3-14B, Llama 3.3-70B, DeepSeek-V3.2 세 가지 오픈소스 모델을 대상으로 실험을 설계했습니다. 프롬프트 앞에 한 문장짜리 감정 표현을 붙이는 방식이었는데, 예를 들어 수학 문제 앞에 “나는 지금 너무 불안해서 이 문제를 꼭 풀어야 해” 같은 문장을 추가하는 식입니다. 감정 표현은 GPT-4o가 생성했고, 질문의 내용이나 난이도는 건드리지 않는 조건을 유지했습니다.

6가지 감정은 심리학자 플루칙(Plutchik)의 기본 감정 분류를 기준으로 선정됐습니다. 감정의 강도도 “슬프다 → 매우 슬프다 → 극도로 슬프다” 세 단계로 나눠 따로 실험했고, 사람이 직접 쓴 감정 표현과 AI가 생성한 것의 효과도 비교했습니다.

감정을 넣어도 성능은 거의 그대로

수학 추론이나 의료 문답처럼 명확한 정답이 있는 과제에서는 어떤 감정을 넣어도 정확도 변화가 미미했습니다. 감정의 강도를 높여도 마찬가지였습니다. 단순 슬픔이든 “극도로 슬프다”는 표현이든, 결과 차이는 거의 나타나지 않았습니다.

사람이 직접 작성한 감정 문장도 AI가 만든 것과 결과가 같았습니다. 즉, 감정 표현이 얼마나 진정성 있게 느껴지느냐와 무관하게 LLM의 정답률은 거의 움직이지 않았습니다.

유일하게 주목할 만한 예외는 사회적 추론 과제(SocialIQA)였습니다. 이 벤치마크는 “A가 B에게 이렇게 말했다면, B의 감정은?”처럼 타인의 감정과 의도를 추론하는 문제들로 구성됩니다. 이 영역에서는 감정 프롬프트가 결과에 더 큰 영향을 미쳤는데, 연구팀은 이를 “감정적 맥락이 사회적 추론 자체와 상호작용하기 때문”으로 해석했습니다. 수학 문제를 풀 때와 달리, 사람 간의 상호작용을 추론할 때는 감정 단서가 모델의 해석 방향에 영향을 주는 셈입니다.

그럼 감정은 완전히 쓸모없나, EmotionRL의 등장

고정된 감정이 효과 없다는 결론과 별개로, 연구팀은 EmotionRL이라는 적응형 프레임워크를 함께 제안했습니다. 핵심 아이디어는 이렇습니다. 어떤 감정이 항상 좋은 게 아니라, 질문에 따라 더 잘 맞는 감정이 따로 있다는 것입니다.

작동 방식은 다음과 같습니다.

각 질문을 의미 벡터로 변환해 상태(state)로 인코딩한다
경량 MLP 정책 모델이 6가지 감정 중 하나를 선택한다
선택된 감정 표현을 질문 앞에 붙여 LLM에 전달한다
정답 여부를 보상(reward)으로 삼아 정책을 업데이트한다

결과적으로 EmotionRL은 감정을 고정해서 쓰거나 아예 쓰지 않는 것보다 더 일관된 성능 향상을 보여줬습니다. 특정 감정이 항상 유리한 게 아니라, 질문의 맥락에 따라 최적 감정이 달라진다는 점을 강화학습으로 학습한 셈입니다.

감정 프롬프트에 대한 시각 교정

이 연구는 감정 프롬프트에 대한 두 가지 극단적인 시각을 동시에 반박합니다. “감정 표현이 LLM 성능을 크게 높인다”는 기대도, “감정은 아무런 영향이 없다”는 회의도 모두 정확하지 않습니다.

연구팀의 표현을 빌리면, 감정적 어조는 LLM 성능의 “지배적인 요인도 아니고 완전한 노이즈도 아닌, 약하고 입력에 따라 달라지는 신호”입니다. 그리고 그 신호를 적응적으로 활용하면 실제 이득이 생긴다는 것이 EmotionRL이 보여주는 방향입니다.

논문에는 각 감정별 과제 성능 변화를 시각화한 히트맵, 강도 실험 결과, 사람이 쓴 감정 표현과의 비교 분석 등 상세한 데이터가 담겨 있습니다.

참고자료: EmotionPrompt: Leveraging Psychology for Large Language Models Enhancement via Emotional Stimulus – arXiv

Like?

AI Sparkup 구독하기

최신 게시물 요약과 더 심층적인 정보를 이메일로 받아 보세요! (무료)

AI Sparkup

LLM에 감정을 넣으면 성능이 오를까, 6가지 감정 실험 결과

어떻게 실험했나

감정을 넣어도 성능은 거의 그대로

그럼 감정은 완전히 쓸모없나, EmotionRL의 등장

감정 프롬프트에 대한 시각 교정

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

Claude Cowork, 코딩보다 보고서 쓰기에 4배 더 쓰인다

Claude Code 점수가 동료 컴퓨터에서 다르게 나오는 이유

에이전트 위해 CLI를 JSON으로 바꾸면, 비용이 11배 뛴다

Claude Code의 모델과 effort, 다른 걸 조절하고 있었다