OpenAI가 6년 만에 공개한 오픈소스 추론 모델 gpt-oss는 GPT-2 대비 8가지 핵심 기술 혁신을 통해 단일 GPU에서도 실행 가능한 고성능 AI를 구현했습니다.
2025년 8월, OpenAI가 gpt-oss라는 특별한 모델을 발표했습니다. 2019년 GPT-2 이후 첫 번째 오픈 웨이트 모델이자, 추론 능력을 갖춘 최초의 오픈소스 모델입니다. AI 전문가 Sebastian Raschka의 상세한 기술 분석과 Nature지의 연구 동향 보고서를 바탕으로, 이 모델이 왜 중요하고 어떻게 활용할 수 있는지 살펴보겠습니다.
GPT-2에서 gpt-oss까지: 핵심 기술 혁신 8가지

6년 동안 트랜스포머 아키텍처는 어떻게 발전했을까요? Sebastian Raschka의 분석에 따르면 8가지 핵심 변화가 있었습니다.
1. 드롭아웃 제거 – 오버피팅 걱정 없는 단일 에포크 학습
GPT-2는 과적합 방지를 위해 드롭아웃을 사용했습니다. 하지만 현대 LLM은 거대한 데이터셋으로 단 한 번만 학습합니다. 각 토큰을 한 번씩만 보기 때문에 과적합 위험이 거의 없어졌습니다. gpt-oss는 드롭아웃을 완전히 제거해 더 안정적인 성능을 얻었습니다.
2. RoPE로 위치 정보 혁신
절대 위치 임베딩 대신 회전 위치 임베딩(RoPE)을 사용합니다. 토큰 위치 정보를 별도로 추가하는 대신, 쿼리와 키 벡터를 회전시켜 위치를 인코딩하는 방식입니다. 이는 더 효율적이고 긴 문맥을 처리하는 데 유리합니다.
3. SwiGLU로 활성화 함수 업그레이드
GELU 대신 Swish를 사용하며, 더 중요한 변화는 GLU(Gated Linear Unit) 구조를 도입한 것입니다. 2개 층 대신 3개 층을 사용하지만, 각 층 크기를 줄여 전체 파라미터는 오히려 감소시켰습니다. 곱셈 상호작용을 추가해 표현력이 크게 향상되었습니다.
4. MoE(Mixture-of-Experts) – 효율적인 대용량 모델
단일 피드포워드 모듈을 여러 전문가 모듈로 교체했습니다. 전체 파라미터는 많지만, 각 토큰마다 일부 전문가만 활성화되어 추론 속도는 빠릅니다. 전문가 가중치가 전체 파라미터의 90% 이상을 차지하지만, 실제로는 소수만 사용됩니다.
5. GQA(Grouped Query Attention) – 메모리 효율성 극대화
멀티헤드 어텐션의 진화된 형태입니다. 여러 쿼리 헤드가 하나의 키-값 쌍을 공유해 메모리 사용량을 크게 줄였습니다. 성능 저하 없이 추론 속도를 높이는 핵심 기술입니다.
6. 슬라이딩 윈도우 어텐션 – 계산량 절약
gpt-oss는 홀수 층에서는 전체 문맥을, 짝수 층에서는 128토큰 윈도우만 보는 방식을 사용합니다. 이는 GPT-3부터 사용된 기법으로, 계산량과 메모리를 크게 절약하면서도 성능 저하는 미미합니다.
7. RMSNorm – 더 빠른 정규화
LayerNorm 대신 RMSNorm을 사용합니다. 평균과 분산 계산을 루트 제곱 평균 하나로 줄여 계산량을 감소시켰습니다. GPU에서 더 효율적으로 실행되며, 대규모 학습에서 통신 오버헤드를 줄입니다.
8. 어텐션 싱크 – 긴 문맥 안정성
특별한 ‘항상 주목받는’ 토큰을 두어 긴 문맥에서도 안정적인 어텐션을 유지합니다. gpt-oss는 입력 시퀀스를 수정하지 않고 학습된 바이어스 로짓을 추가하는 방식을 사용합니다.
gpt-oss만의 차별화된 특징들
추론 능력의 단계별 조절
gpt-oss의 가장 혁신적인 기능은 추론 강도를 조절할 수 있다는 점입니다. 시스템 프롬프트에서 “Reasoning effort: low/medium/high”를 설정하면 응답 길이와 정확도가 달라집니다.
- Low: 간단한 질문에 빠른 답변
- Medium: 적당한 추론 과정
- High: 복잡한 문제에 상세한 분석
이는 비용과 시간을 절약하면서도 필요할 때는 깊이 있는 추론을 얻을 수 있게 해줍니다.
MXFP4 최적화로 단일 GPU 실행

특별한 양자화 기법인 MXFP4를 사용해 큰 모델도 단일 GPU에서 실행할 수 있습니다:
- gpt-oss-20b: 16GB GPU(RTX 50시리즈 이상)에서 실행
- gpt-oss-120b: 80GB H100 또는 AMD MI300X에서 실행
MXFP4 지원 없는 구형 하드웨어에서는 bfloat16으로 실행되어 각각 48GB, 240GB 메모리가 필요합니다.
글로벌 오픈소스 AI 경쟁 구도의 변화
Nature지 보고서에 따르면, gpt-oss 출시는 중국 오픈소스 모델들의 약진에 대한 서구의 대응으로 해석됩니다. DeepSeek R1, Qwen3 같은 중국 모델들이 다운로드 수와 성능에서 Meta의 Llama를 앞지르고 있는 상황입니다.
성능 비교: 중국 vs 미국 모델
- AIME 2025 수학 벤치마크: gpt-oss가 DeepSeek R1보다 우수
- Humanity’s Last Exam: Qwen3와 동등한 수준
- 모델 크기: gpt-oss-120b는 Qwen3-235b보다 절반 크기로 비슷한 성능
주목할 점은 gpt-oss가 더 작은 크기로 경쟁 모델과 동등한 성능을 달성했다는 것입니다.
오픈 웨이트 vs 진정한 오픈소스
gpt-oss는 ‘오픈 웨이트’ 모델입니다. 모델 가중치와 추론 코드는 공개하지만, 학습 코드나 데이터셋은 공개하지 않습니다. 진정한 오픈소스를 원한다면 OLMo 같은 모델을 고려해야 합니다.
개발자를 위한 실용 가이드
설치 및 실행 방법
Hugging Face에서 다운로드:
# 모델 정보 확인
# gpt-oss-20b: https://huggingface.co/openai/gpt-oss-20b
# gpt-oss-120b: https://huggingface.co/openai/gpt-oss-120b
Ollama를 통한 로컬 실행:
gpt-oss-20b는 Mac Mini에서도 약 13.5GB 메모리로 원활하게 실행됩니다.
활용 시나리오
- 연구용: 민감한 데이터를 외부로 전송하지 않고 분석
- 개발용: 로컬 환경에서 AI 기능 프로토타입 개발
- 교육용: AI 모델 내부 구조 연구 및 커스터마이징
- 상업용: Apache 2.0 라이선스로 제품에 자유롭게 통합
성능과 한계
장점:
- 수학과 코딩 작업에서 뛰어난 성능
- 단계별 추론 과정 제공
- 도구 사용 능력 내장
한계:
- 일반 지식에서 상당한 환각(hallucination) 발생
- STEM과 코딩에 집중한 학습으로 인한 지식 편중
gpt-oss는 도구 통합을 염두에 두고 설계되었습니다. 사실 확인이 필요한 질문은 검색 엔진 같은 외부 도구를 활용하는 방향으로 발전할 것으로 예상됩니다.
한국 AI 생태계에 미치는 영향
gpt-oss의 등장은 한국 AI 개발자들에게 새로운 기회를 제공합니다. 높은 클라우드 비용 없이도 고성능 추론 모델을 활용할 수 있게 되었기 때문입니다. 특히 데이터 프라이버시가 중요한 금융, 의료, 공공 분야에서 로컬 실행 가능한 모델의 가치가 클 것입니다.
OpenAI의 이번 움직임은 오픈소스 AI 생태계를 더욱 활성화할 것으로 보입니다. 중국 모델들과의 경쟁이 치열해지면서, 결국 사용자들이 더 나은 모델을 더 쉽게 활용할 수 있는 환경이 조성되고 있습니다.
gpt-oss는 단순한 모델 공개를 넘어, AI 민주화의 새로운 이정표가 될 것입니다. GPT-2에서 시작된 6년간의 기술 혁신이 이제 누구나 사용할 수 있는 형태로 돌아왔습니다.
참고자료:
Comments