GPT-5.4 나왔다 — 컴퓨터를 직접 조작하는 AI가 됐다
※ 이 게시물은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

OpenAI가 3월 5일 GPT-5.4를 발표했다. “가장 강력하고 효율적인 프론티어 모델”이라는 수식어를 붙였는데, 이번엔 그 말이 과장이 아닌 것 같다.
컴퓨터를 직접 조작하고, 엑셀과 구글 시트에서 돌아가고, 100만 토큰 컨텍스트 윈도우를 지원한다. GPT-5.2에서 1~2개월 만에 나온 건데 변화 폭이 꽤 크다. 주요 내용을 정리해봤다.
3가지 버전으로 나뉜다
GPT-5.4는 용도에 따라 세 가지로 나왔다.
| 버전 | 용도 | 특징 |
|---|---|---|
| GPT-5.4 | 범용 | 일반 대화, 코딩, 분석 |
| GPT-5.4 Thinking | 추론 특화 | 복잡한 문제에 더 많은 연산 투입 |
| GPT-5.4 Pro | 고성능 | 엔터프라이즈·과학 연구용 |
GPT-5.4 Thinking은 어려운 질문에 대해 “극한(extreme)” 수준의 사고 시간을 들인다. 과학 연구나 복잡한 문제 해결에 초점을 맞춘 버전이다. ChatGPT Plus, Team, Pro 구독자는 바로 사용 가능하다.
(출처: OpenAI, TechCrunch, The New Stack, 2026년 3월)
네이티브 컴퓨터 사용 — 이게 제일 크다
GPT-5.4의 가장 큰 변화는 컴퓨터를 직접 조작할 수 있다는 것이다.
스크린샷을 보고, 마우스를 클릭하고, 키보드로 입력하고, 소프트웨어를 탐색한다. 별도 특화 모델 없이 GPT-5.4 자체에서 네이티브로 지원한다. 이전까지는 Anthropic의 Claude가 컴퓨터 사용(Computer Use) 기능을 먼저 선보였는데, OpenAI도 본격적으로 따라잡은 셈이다.
OSWorld-Verified 벤치마크에서 75.0% 성공률을 기록했다. GPT-5.2가 47.3%였으니 엄청난 점프다. 참고로 인간 성능이 72.4%인데, 그걸 넘었다.
(출처: OpenAI, VentureBeat, Interesting Engineering, 2026년 3월)
100만 토큰 컨텍스트 윈도우
API 기준으로 최대 100만 토큰을 지원한다. OpenAI 역대 최대 컨텍스트 윈도우다.
이게 얼마나 큰 거냐면:
- 일반 책 약 7~8권 분량을 한 번에 읽을 수 있는 수준
- 대규모 코드베이스 전체를 한 번에 분석 가능
- 장편 문서, 법률 계약서 등을 통째로 처리
Gemini가 먼저 100만 토큰을 지원했고, Claude도 API에서 100만 토큰 베타를 제공하고 있었다. OpenAI가 뒤늦게 합류한 형태인데, 경쟁이 본격화된 거다.

벤치마크 성능 — 숫자로 보자
| 벤치마크 | GPT-5.2 | GPT-5.4 | 비고 |
|---|---|---|---|
| OSWorld-Verified | 47.3% | 75.0% | 인간 수준(72.4%) 초과 |
| GDPval (지식 업무) | - | 83% | 역대 최고 |
| 오류율 (개별 주장) | 기준 | -33% | 사실 오류 33% 감소 |
| 응답 오류 포함률 | 기준 | -18% | 전체 응답 오류 18% 감소 |
코딩, 추론, 전문 업무 전반에서 개선이 이뤄졌고, 특히 토큰 효율이 크게 좋아졌다. 같은 문제를 풀 때 이전보다 훨씬 적은 토큰을 사용한다. API 비용을 아끼면서 성능은 올라간 거니까, 개발자 입장에서는 반가운 소식이다.
(출처: Tom’s Guide, Neowin, OpenAI, 2026년 3월)
엑셀·구글 시트 연동
이번에 ChatGPT가 Microsoft Excel과 Google Sheets에 베타 연동됐다. 스프레드시트 안에서 바로 AI를 활용할 수 있다는 뜻이다.
FactSet, MSCI, Third Bridge, Moody’s 같은 금융 데이터 제공업체와도 파트너십을 맺었다. 금융·회계 업무에서 데이터 분석 → 리포트 작성까지 AI가 직접 도와주는 구조를 만들려는 것 같다.
일반 사용자한테는 아직 큰 변화가 아닐 수 있지만, 엔터프라이즈 쪽에서는 상당히 의미 있는 움직임이다.
(출처: Fortune, VentureBeat, 2026년 3월)
API 가격
| 모델 | 입력 (100만 토큰당) | 출력 (100만 토큰당) |
|---|---|---|
| GPT-5.4 | $2.50 | $15 |
| GPT-5.4 Pro | $30 | $180 |
일반 GPT-5.4는 가격이 꽤 합리적이다. Pro 버전은 12배 비싸지만 그만큼 복잡한 작업에 특화됐다. 가벼운 용도로는 기본 모델, 정밀한 작업에는 Pro를 쓰라는 메시지다.
AI 경쟁, 지금 어디까지 왔나
2026년 3월 기준 주요 AI 모델을 비교해보면:
| 항목 | GPT-5.4 | Claude Opus 4.6 | Gemini 3 Pro |
|---|---|---|---|
| 컴퓨터 사용 | 네이티브 지원 | 지원 (선발) | 부분 지원 |
| 컨텍스트 | 100만 토큰 | 100만 (베타) | 100만+ |
| 코딩 | 강함 (Codex 통합) | SWE-bench 최고 | 강함 |
| 추론 | Thinking 모드 | 강함 | LMArena 1위 |
| 가격 | $2.50/1M | 상대적 고가 | 저렴 |
각 모델마다 강점이 다르다. 코딩은 Claude, 추론은 Gemini, 범용성과 엔터프라이즈 연동은 GPT-5.4가 앞서는 구도다. 하나가 압도적으로 좋은 게 아니라, 용도에 따라 선택하는 시대가 됐다.
운영자 실전 노트
세븐핑거스(Seven Fingers Studio)에서 실제로 GPT-5.4를 써본 소감이다.
- 컴퓨터 사용 기능은 아직 베타 느낌이 강하다. 간단한 웹 탐색은 잘 되는데, 복잡한 UI 조작은 실수가 좀 있다. Claude의 Computer Use와 비슷한 수준인데, 속도는 GPT 쪽이 좀 더 빠른 느낌
- Thinking 모드가 생각보다 좋다. 코드 리뷰할 때 “왜 이 코드가 문제인지” 단계별로 설명해주는데, 이전 모델보다 논리가 훨씬 정교해졌다
- 토큰 효율 개선이 체감된다. 같은 질문을 해도 답변이 더 짧고 정확해졌다. API 비용 관리하는 입장에서 이건 진짜 반가운 변화
- 엑셀 연동은 아직 베타라 기대만큼은 아닌데, 방향 자체는 맞다. AI가 채팅창 밖으로 나와서 실제 업무 도구 안에서 작동하는 게 앞으로의 트렌드가 될 것 같다
FAQ
Q. ChatGPT 무료 사용자도 GPT-5.4를 쓸 수 있나? 기본 GPT-5.4는 무료 사용자에게도 순차적으로 적용될 예정이다. 다만 GPT-5.4 Thinking과 Pro 버전은 Plus($20/월), Team, Pro 구독자만 사용 가능하다. 무료 사용자는 사용량 제한도 있을 수 있다.
Q. GPT-5.4가 나왔는데 Claude나 Gemini는 쓸 필요 없나? 그렇지 않다. 코딩 작업은 Claude가 SWE-bench 기준으로 여전히 1위이고, 순수 추론 능력은 Gemini 3 Pro가 LMArena 최고 점수를 보유하고 있다. GPT-5.4는 범용성과 엔터프라이즈 연동에서 강점이 있다. 하나만 고집하기보다 작업에 따라 골라 쓰는 게 효율적이다.
Q. GPT-5.4 Pro와 일반 버전 차이가 큰가? 가격이 12배 차이나는 만큼 성능 격차가 있다. 일반 대화나 간단한 코딩에는 기본 모델로 충분하다. 과학 연구, 대규모 데이터 분석, 복잡한 법률·금융 문서 처리 같은 전문 작업에서 Pro 버전이 빛을 발한다.