AI Sparkup

복잡한 AI 세상을 읽는 힘

복잡한 문제 해결 능력을 강화하는 클로드의 새로운 기능, “Think” 툴

인공지능이 복잡한 문제를 해결하는 데 있어 많은 발전을 이루고 있지만, 때로는 인간처럼 ‘잠시 멈추고 생각’하는 단순한 접근법이 놀라운 성과를 가져올 수 있습니다. 최근 Anthropic은 자사의 AI 모델 클로드(Claude)에 “think” 툴이라는 새로운 기능을 도입했으며, 이를 통해 AI의 문제 해결 능력이 크게 향상되었습니다.

“Think” 툴이란 무엇인가?

“Think” 툴은 클로드가 응답을 생성하는 과정에서 추가적인 사고 단계를 포함할 수 있게 해주는 기능입니다. 이 기능을 통해 AI는 최종 답변에 도달하기 전에 별도의 지정된 공간에서 생각을 정리할 수 있습니다.

Anthropic이 최근 출시한 클로드 3.7 소네트의 확장 사고(extended thinking) 기능과 비슷해 보일 수 있지만, 이 두 개념은 실제로 다른 목적을 가지고 있습니다:

  • 확장 사고(Extended thinking): 클로드가 응답을 생성하기 전에 수행하는 사고 과정으로, 행동을 취하기 전에 계획을 심층적으로 고려하고 반복합니다.
  • “Think” 툴: 클로드가 응답을 생성하기 시작한 후, 앞으로 나아가기 위해 필요한 모든 정보를 가지고 있는지 확인하기 위한 추가 단계입니다. 특히 도구 호출의 긴 체인이나 사용자와의 다단계 대화에서 유용합니다.

따라서 “think” 툴은 사용자 쿼리만으로는 응답을 공식화하기에 충분한 정보가 없고, 외부 정보(예: 도구 호출 결과의 정보)를 처리해야 하는 경우에 더 적합합니다.

성능 향상 효과

Anthropic은 “think” 툴의 효과를 τ-bench(타우-벤치)라는 포괄적인 벤치마크를 사용하여 평가했습니다. 이 벤치마크는 현실적인 고객 서비스 시나리오에서 AI 모델의 도구 사용 능력을 테스트하도록 설계되었습니다.

τ-bench 항공 도메인에서의 성능 비교 그래프

결과는 놀라웠습니다:

  • 항공 도메인: 최적화된 프롬프트와 함께 “think” 툴을 사용했을 때, 기준선 대비 54%의 상대적 성능 향상을 보였습니다(pass^1 지표에서 0.370에서 0.570으로 향상).
  • 소매 도메인: 추가 프롬프팅 없이도 “think” 툴만으로 0.812의 점수를 달성했으며, 이는 기준선 0.783보다 향상된 결과입니다.

또한 SWE-bench 설정에서도 유사한 “think” 툴이 추가되어, 클로드 3.7 소네트가 0.623이라는 최첨단 점수를 달성하는 데 기여했습니다. 이 도구를 포함함으로써 평균적으로 1.6%의 성능 향상이 있었습니다.

“Think” 툴은 언제 사용해야 할까?

평가 결과를 기반으로, Anthropic은 클로드가 “think” 툴을 통해 가장 큰 혜택을 얻을 수 있는 세 가지 특정 시나리오를 확인했습니다:

  1. 도구 출력 분석: 클로드가 행동하기 전에 이전 도구 호출의 출력을 신중하게 처리해야 하고, 접근 방식을 되돌릴 필요가 있을 때
  2. 정책 중심 환경: 클로드가 상세한 가이드라인을 따르고 준수 여부를 확인해야 할 때
  3. 순차적 의사 결정: 각 행동이 이전 행동을 기반으로 하고 실수 비용이 높을 때(종종 다단계 도메인에서 발견됨)
소매 도메인에서의 τ-bench 평가 결과

개발자를 위한 구현 방법

“think” 툴을 구현하기 위한 기본적인 코드는 매우 간단합니다:

{
  "name": "think",
  "description": "Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
  "input_schema": {
    "type": "object",
    "properties": {
      "thought": {
        "type": "string",
        "description": "A thought to think about."
      }
    },
    "required": ["thought"]
  }
}

Anthropic은 τ-bench 실험을 기반으로 다음과 같은 구현 모범 사례를 추천합니다:

  1. 도메인 특정 예제가 포함된 전략적 프롬프팅: “think” 툴을 언제, 어떻게 사용할지에 대한 명확한 지침을 제공하는 것이 가장 효과적입니다. 특정 사용 사례에 맞춘 예제를 제공하면 모델이 “think” 툴을 효과적으로 사용하는 방법을 크게 개선할 수 있습니다.
  2. 복잡한 지침은 시스템 프롬프트에 배치: “think” 툴에 대한 지침이 길거나 복잡한 경우, 도구 설명 자체에 배치하는 것보다 시스템 프롬프트에 포함시키는 것이 더 효과적이었습니다.

어떤 상황에서는 사용하지 않는 것이 좋을까?

“think” 툴이 상당한 개선을 제공할 수 있지만, 모든 도구 사용 사례에 적용할 수 있는 것은 아니며, 프롬프트 길이와 출력 토큰 증가라는 비용이 따릅니다. 다음 사례에서는 “think” 툴이 개선을 제공하지 않는 것으로 확인되었습니다:

  1. 비순차적 도구 호출: 클로드가 작업을 완료하기 위해 단일 도구 호출이나 여러 병렬 호출만 필요한 경우, “think”를 추가해도 개선될 가능성이 낮습니다.
  2. 단순한 지침 준수: 클로드가 준수해야 할 제약 조건이 많지 않고 기본 동작이 충분히 좋은 경우, 추가적인 “think” 과정에서 얻을 수 있는 이점이 적을 수 있습니다.

디지털 혁신을 위한 새로운 가능성

“think” 툴이 제공하는 가능성은 단순히 AI 모델의 기술적 성능 향상을 넘어서는 의미가 있습니다. 이 기능은 AI가 인간과 유사한 방식으로 사고하는 능력을 한 단계 발전시켰다는 점에서 중요합니다.

복잡한 문제 해결 과정에서 AI에게 ‘생각할 공간’을 제공하는 것은, 우리 인간이 중요한 결정을 내리기 전에 잠시 멈추고 생각하는 과정과 닮아 있습니다. 이는 단순히 더 정확한 결과를 얻는 것을 넘어, AI 시스템이 더 신중하고 투명한 의사 결정을 할 수 있도록 돕습니다.

특히 금융, 의료, 법률과 같이 규제가 엄격한 산업에서 AI를 활용할 때, “think” 툴과 같은 접근법은 AI가 복잡한 규정을 준수하면서도 유연성을 유지할 수 있게 해줍니다. 이는 기업들이 AI를 도입하는 과정에서 직면하는 규제 준수와 혁신 사이의 균형을 맞추는 데 큰 도움이 될 것입니다.

또한, 이 기능은 AI와 인간 사이의 협업을 더욱 자연스럽게 만들어 줍니다. AI가 단계별로 어떻게 결론에 도달했는지 이해할 수 있다면, 사용자는 AI의 의사 결정 과정을 더 쉽게 신뢰하고 필요한 경우 수정할 수 있게 됩니다.

결론

Anthropic의 연구에 따르면 “think” 툴은 정책 준수와 긴 도구 호출 체인에서의 추론이 필요한 복잡한 작업에서 클로드 3.7 소네트의 성능을 크게 향상시킬 수 있습니다. 이 도구는 모든 사용 사례에 적합한 만능 솔루션은 아니지만, 올바른 사용 사례에서는 최소한의 구현 복잡성으로 상당한 이점을 제공합니다.

“think” 툴은 단순함에도 불구하고 강력한 성능 향상을 가져오는 혁신의 좋은 예입니다. 때때로 가장 효과적인 AI 솔루션은 복잡한 아키텍처가 아니라, 인간의 인지 과정을 모방하는 사려 깊은 디자인에서 비롯된다는 것을 보여줍니다.

이 도구를 통해 개발자들은 더 유능하고, 신뢰할 수 있으며, 투명한 AI 시스템을 구축할 수 있게 되었습니다. 앞으로 이러한 접근 방식이 다양한 모델과 사용 사례에 어떻게 적용될지 기대됩니다.


참고자료The “think” tool: Enabling Claude to stop and think in complex tool use situations


Awsom GPT에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다