90% 확신도 정답은 아니다, AI 시대 판단력을 지키는 법

2024년, 한 승객이 에어캐나다 챗봇에게 유족 할인 요금을 물었습니다. 챗봇은 존재하지도 않는 환불 정책을 자신만만하게 안내했고, 항공사는 약속 이행을 거부했습니다. 결국 법정까지 갔고, 법원은 승객의 손을 들어줬습니다. 챗봇은 무언가를 ‘결정’한 게 아니었습니다. 학습 데이터의 패턴을 바탕으로 답을 ‘예측’했을 뿐이죠. 문제는 회사가 그 예측을 정책처럼 취급한 데서 시작됐습니다.

사진 출처: Smashing Magazine

UX 디자이너 Pratik Joglekar가 Smashing Magazine에 쓴 글은 이 사건을 출발점으로 삼습니다. 핵심은 간단합니다. AI가 내놓는 것은 ‘정답’이 아니라 ‘확률적 추측’인데, 우리는 그것을 마치 확실한 사실처럼 보여주는 인터페이스 안에서 일하고 있다는 것입니다. 글은 디자이너를 향하지만, AI 답변을 매일 받아보는 사람이라면 누구에게나 해당하는 이야기입니다.

출처: Designing With Uncertainty: How AI Supercharges Probabilistic Thinking – Smashing Magazine

확률적 시스템을 결정론적 인터페이스가 감싼다

인간은 결정론적으로 생각하는 데 익숙합니다. 과거의 행동이 미래의 결과를 정한다고 믿고 싶어 하죠. 동전을 999번 던져 전부 앞면이 나오면, 우리 머리는 “이 동전은 조작됐다”고 결론 내립니다. 하지만 확률적으로 보는 사람은 1,000번째도 여전히 반반이라는 걸 받아들입니다. 후자가 더 어렵지만, 지금 AI를 다루는 사람에게 꼭 필요한 사고방식입니다.

AI에게 던지는 대부분의 질문은 이분법적 답을 내놓지 않습니다. 데이터 속 패턴에 기반한 확률을 내놓을 뿐입니다. 그래서 AI의 출력은 ‘결론’이 아니라 ‘신호(signal)’로 읽어야 합니다. 넷플릭스가 당신이 어떤 작품을 좋아할지 ‘아는’ 게 아니라 그럴 확률을 ‘추정’해 화면에 띄우는 것과 같습니다. 인터페이스는 예측에 반응하고 있을 뿐입니다.

위험은 이 확률적 시스템이 결정론적 인터페이스에 포장될 때 생깁니다. AI는 추측을 건네는데, 화면은 그것을 진실처럼 제시하고, 사용자나 조직은 그 위에서 행동합니다. 에어캐나다 챗봇이 정확히 그랬습니다. 챗봇은 그럴듯한 문장을 예측했을 뿐인데, 인터페이스는 “보통 우리 정책은 이렇습니다” 같은 단서도, 사람에게 연결되는 통로도 없이 완전한 확신으로 그 답을 전달했습니다. 사용자는 확신을 약속으로 읽었고, 법정도 그렇게 읽었습니다.

왜곡된 확률을 경계하기, 데이터가 곧 한계다

AI 시스템은 과거 데이터 위에 세워집니다. 그 토대가 출력의 성격을 규정합니다. 그래서 AI는 미래의 변화를 예측한다기보다 과거의 행동을 더 강하게 반영합니다. 터치스크린을 어려워하는 노년층을 위한 음성 인터페이스를 설계한다고 해봅시다. 모바일 사용 데이터로 학습한 모델은 낮은 참여도를 예측할 수 있습니다. 아이디어에 가치가 없어서가 아니라, 데이터셋이 다른 사용자 행동을 담고 있기 때문입니다.

가장 분명한 경고 사례는 아마존의 실험적 AI 채용 도구입니다. 이 모델은 여성 지원자의 이력서를 감점하도록 학습해버렸고, 결국 프로젝트는 폐기됐습니다. 약 10년치 과거 채용 데이터가 남성 후보 쪽으로 기울어 있었고, 모델이 그 편향을 그대로 물려받은 것입니다. ‘women’s chess club captain’처럼 ‘women’s’가 들어간 표현에 페널티를 주고, 남성 이력서에 흔한 표현을 선호하기 시작했습니다. 시스템이 의도적으로 차별한 게 아닙니다. 데이터가 차별하고 있었던 거죠.

신뢰도 점수도 같은 의심이 필요합니다. 90% 확신도가 곧 정답을 뜻하지 않고, 40% 신호가 반드시 쓸모없는 것도 아닙니다. 높은 확신도를 맹신하면 에어캐나다 같은 상황이 벌어지고, 낮은 확신도를 무시하면 노이즈 속에 묻힌 진짜 신호를 놓칩니다. 결국 가능성을 따져보고, 눈앞의 사례를 살피고, AI의 추천에 판단을 더하는 일은 사람의 몫으로 남습니다.

인간을 루프 안에 남겨두기

여기서 ‘Human-in-the-Loop(HITL)’라는 개념이 나옵니다. 사람이 기계의 제안을 검토하고, 반박하고, 수정하거나 뒤집을 수 있는 지점을 명확히 설계해두는 방식입니다. 원문은 HITL을 단순한 안전망이 아니라 ‘정제 엔진’으로 봅니다. 사용자의 모든 수정과 거절이 모델을 개선하는 양질의 피드백이 되기 때문입니다.

위험도가 올라가면 개입은 더 분명해집니다. 사기 탐지 시스템은 확률 점수로 의사결정을 분기합니다. 저위험은 자동 진행, 중위험은 추가 인증, 고위험은 사람 검토로 넘어가는 식이죠. 의료처럼 위험이 큰 영역에서는 인간의 감독이 협상 불가능한 원칙이 됩니다. AI가 이상 징후를 짚거나 진단을 제안할 수 있지만, 최종 권한은 임상의에게 남습니다. 핵심은 인간의 관여를 최대화하는 게 아니라, 불확실성과 영향이 큰 곳에 집중시키는 것입니다.

질문을 바꾸면 태도가 바뀐다

원문이 던지는 가장 단단한 한마디는 이것입니다. “이게 작동할까?”라고 묻지 말고, “얼마나 작동할 것 같고, 안 될 때는 무슨 일이 벌어지나?”라고 물으라는 것. 이 한 번의 재구성이 AI 출력을 해석하는 방식, 실험을 설계하는 방식, 그리고 시스템이 틀렸을 때를 대비하는 방식을 전부 바꿉니다.

결정론에서 확률론으로의 전환은 새로운 도구의 문제가 아니라 태도의 문제입니다. AI가 세상에 불확실성을 들여온 게 아니라, 원래 늘 있던 불확실성을 더 이상 무시할 수 없게 만들었을 뿐이죠. AI는 추정하고, 시뮬레이션하고, 추천합니다. 하지만 무엇이 중요한지, 어떤 사용자가 간과되고 있는지, 어제의 데이터로 학습한 모델에 맞서 어떤 비범한 아이디어를 지켜낼 가치가 있는지는 판단하지 못합니다. 그건 여전히 사람의 책임입니다. 원문은 이 외에도 불확실성을 인터페이스에 드러내는 법, 실험을 가설 검증으로 재구성하는 법, 회복탄력성을 갖춘 설계 원칙까지 실무 단위로 다룹니다. 직접 적용할 단계가 궁금하다면 원문에서 확인할 수 있습니다.

Like?

AI Sparkup

90% 확신도 정답은 아니다, AI 시대 판단력을 지키는 법

확률적 시스템을 결정론적 인터페이스가 감싼다

왜곡된 확률을 경계하기, 데이터가 곧 한계다

인간을 루프 안에 남겨두기

질문을 바꾸면 태도가 바뀐다

AI Sparkup 구독하기

Comments

답글 남기기 응답 취소

More posts

90% 확신도 정답은 아니다, AI 시대 판단력을 지키는 법

AI가 보는 내 제품 페이지, 사람과는 완전히 다르다

API 키 한 줄만 바꾸면 90% 싸진다는데, 그 차액은 누가 채우고 있을까

파일을 작게 만드는 도구가 어떻게 셰익스피어를 쓸까