[IT 동아] [위클리AI] 오픈AI, GPT-5.4 출시 ‘워크플로우 특화 모델’ 외
2026년 03월 10일
[IT동아 박귀임 기자] 인공지능(AI)이 세상을 바꾸고 있습니다. AI는 이제 우리 일상에서 떼려야 뗄 수 없는 핵심적인 요소입니다. 한 주간 세계를 들썩이게 만든 글로벌 빅테크 기업부터 우리 일상에 직접 영향을 미칠 새로운 AI 소식까지 핵심만 짚어드립니다.
오픈AI, GPT‑5.2보다 성능 끌어올린 GPT-5.4 출시로 주목
![[IT 동아] [위클리AI] 오픈AI, GPT-5.4 출시 '워크플로우 특화 모델' 외 1 오픈AI가 GPT-5.4를 출시했습니다 / 출처=오픈AI](https://it.donga.com/media/__sized__/images/2026/3/10/2ec07e89d2f24986-thumbnail-1920x1080-70.jpg)
글로벌 AI 기업 오픈AI(OpenAI)가 3월 5일(이하 현지 시간) 새 기본 모델 GPT-5.4와 추론 특화 모델 GPT‑5.4 Thinking, 그리고 전문가용 고사양 모델 GPT‑5.4 Pro를 출시했습니다. 이 모델은 워크플로우에서 추론, 코딩, 툴 사용 성능을 동시에 끌어올린 이른바 ‘워크플로우 특화 모델’로 포지셔닝합니다.
오픈AI는 이날 공식 블로그를 통해 이같이 밝히며 “GPT‑5.4는 전문 작업을 위한 모델 가운데 가장 뛰어난 성능과 효율을 갖춘 프런티어 모델입니다”라면서 “GPT‑5.2와 비교하면 문제 해결에 필요한 토큰 사용량은 감소하고 처리 속도는 더 빨라졌습니다”라고 설명했습니다.
GPT‑5.4는 추론, 코딩, 에이전트 기반 워크플로우를 하나의 모델로 통합했습니다. 오픈AI에 따르면 코딩 능력이 뛰어난 GPT‑5.3‑코덱스(Codex)를 기반으로 각종 도구와 소프트웨어 환경, 그리고 문서 작성과 같은 전문 업무 영역에 대한 성능을 한층 끌어올렸습니다. 이에 복잡한 업무를 더욱 정확하고 효과적으로 처리할 수 있습니다. 또 사용자가 여러 번 추가로 요청하지 않아도 원하는 결과를 빠르게 제공합니다.
GPT‑5.4 Thinking은 응답을 생성하기 전에 자신의 추론 계획을 먼저 제시합니다. 사용자는 모델이 작업을 진행하는 도중에 방향을 조정할 수 있어 메시지를 여러 번 주고받지 않아도 요구사항에 더 가까운 결과물을 얻을 수 있습니다. 또 심층 웹 리서치 기능을 개선, 긴 추론이 필요한 질문에서도 더 안정적이고 일관된 답변을 제공합니다.
결과적으로 GPT‑5.4는 빠르고 효율적이라 가성비와 속도가 중요한 작업에 적합하고, GPT‑5.4 Thinking의 경우 심층 웹 리서치 능력이 강화된 만큼 구체적이고 찾기 힘든 정보를 얻을 때 추천합니다. GPT-5.4 Pro는 더 많은 연산 자원을 투입, 정확도의 한계치를 높여 재무부터 법률까지 오차가 허용되지 않는 전문 업무에 강점을 드러냅니다.
뿐만 아니라 오픈AI는 “GPT‑5.4는 오픈AI가 공개한 범용 모델 가운데 처음으로 최신 수준의 컴퓨터 사용(Computer use) 기능을 기본 제공합니다”라고 강조했습니다. 이에 따라 GPT‑5.4는 코덱스와 API 환경에서 에이전트가 사용자 대신 컴퓨터를 직접 조작하고, 여러 애플리케이션에 걸친 복잡한 워크플로우를 수행할 수 있습니다. 최대 100만 토큰의 컨텍스트를 지원해 장시간에 걸쳐 작업을 계획 및 실행하고 검증하는 것 역시 가능합니다. 또 GPT‑5.4에는 도구 검색 기능도 추가, 성능 저하 없이 필요한 도구를 더 효율적으로 찾고 사용할 수 있게 됐습니다.
GPT‑5.4는 AI 모델의 성능 표준화 테스트인 OS월드 벤치마크 결과, 미국 GDP를 많이 차지하는 9개 산업(44개 직종) 중 명확히 정의된 지식 업무 수행 역량을 평가하는 항목 GDPval에서 전체 비교 사례의 83.0% 가운데 업계 전문가와 동등하거나 그 이상의 성과를 기록했습니다. 이는 GPT‑5.2의 71.0%와 비교해 크게 향상된 수치입니다.
이처럼 GPT-5.4의 출시는 ‘말 잘하는 AI’를 지나 ‘일 잘하는 AI 에이전트’의 시대가 본격화된 것을 시사합니다. AI가 이전에는 텍스트나 코드를 짜주는 ‘조언자’였다면 GPT-5.4 이후 직접 마우스를 움직이고 클릭하며 전용 소프트웨어를 다루는 ‘실행자’ 역할을 하게 된 셈입니다.
결국 GPT-5.4는 AI가 결과를 내놓을 때까지 기다렸다가 다시 질문하는 것이 아니라, AI의 생각 흐름을 실시간으로 보며 중간에 개입할 수 있게 된 부분도 의미있습니다. 이를 통해 환각(Hallucination) 문제를 즉시 해결할 수 있기 때문입니다. GPT-5.4는 전문적인 의사결정 도구로서의 신뢰도 역시 높인 셈입니다. 뿐만 아니라 AI를 그럴듯한 말을 하는 기계로 보던 시각에서 검증된 데이터를 기반으로 업무를 수행하는 도구로 인식이 전환될 것이라는 평가도 있습니다.
구글 노트북LM, 시네마틱 비디오 오버뷰 도입···맞춤형 비디오 제작 가능
![[IT 동아] [위클리AI] 오픈AI, GPT-5.4 출시 '워크플로우 특화 모델' 외 2 구글 노트북LM이 시네마틱 비디오 오버뷰를 도입했습니다 / 출처=구글](https://it.donga.com/media/__sized__/images/2026/3/10/889c51c4327c4b6b-thumbnail-1920x1080-70.jpg)
빅테크 기업 구글(Google)의 AI 도구 노트북LM(NotebookLM)이 AI 기반 비디오 제작 기능을 대폭 개선한 ‘시네마틱 비디오 오버뷰(Cinematic Video Overviews)’ 기능을 도입했습니다. 기존의 정적인 슬라이드 중심 비디오 기능을 넘어 사용자가 업로드한 소스 자료를 한 편의 영화나 다큐멘터리처럼 생동감 있게 재구성하는 데 초점을 맞췄습니다.
구글은 3월 4일 공식 블로그에 시네마틱 비디오 오버뷰를 소개하며 “새로운 이 기능은 기존의 내레이션 슬라이드를 넘어 사용자에게 맞춤화된 독창적이고 몰입감 넘치는 비디오를 제작할 수 있도록 지원합니다”라고 밝혔습니다.
시네마틱 비디오 오버뷰 기능은 구글의 최첨단 AI 모델 3종이 유기적으로 협력하며 작동합니다. 협업을 통해 제작된 영상은 단순한 정보 전달을 넘어, 시청자가 복잡한 주제에 더 깊이 몰입하고 쉽게 이해할 수 있도록 돕습니다.
우선 제미나이3(Gemini3)는 크리에이티브 디렉터로 전체 영상의 서사와 스타일을 결정하는 감독 역할을 수행합니다. 사용자의 소스 자료를 분석해 수백 가지의 구조적·스타일적 의사결정을 내릴 뿐만 아니라 일관성 있는 이야기를 구성하기 위해 스스로의 작업물을 검토하고 다듬습니다.
또 나노 바나나 프로(Nano Banana Pro)는 영상에 생동감을 더하는 고품질의 이미지와 세부적인 시각적 요소를 생성합니다. 비오3(Veo3)의 경우 앞선 모델들이 설계한 스크립트와 이미지를 바탕으로 부드러운 애니메이션과 고화질 영상을 실제로 구현해냅니다.
노트북LM의 철학인 ‘출처 기반 생성’은 시네마틱 비디오 오버뷰 기능에서도 유지됩니다. 생성된 모든 영상은 사용자가 직접 업로드한 PDF, 웹사이트 링크, 구글 문서 등에 근거해 만들어집니다. 사용자는 자신의 학습 목표나 타겟 시청자에 맞춰 영상의 톤과 매너를 자유롭게 설정할 수 있으며, 개인화된 학습 경험을 극대화하는 것도 가능합니다.
피트 에이크로이드(Pete Aykroyd) 구글 소프트웨어 엔지니어는 “시네마틱 비디오 오버뷰는 사용자가 아끼는 주제를 더 깊이 탐구하고 즐길 수 있도록 돕는 혁신적인 도구가 될 것”이라고 전했습니다.
이번 시네마틱 비디오 오버뷰 기능의 도입으로 노트북LM은 텍스트(요약), 오디오(팟캐스트), 비디오(시네마틱)를 아우르는 ‘멀티모달 지식 플랫폼’으로서의 입지를 더욱 공고히 할 것으로 보입니다.
뿐만 아니라 시네마틱 비디오 오버뷰 기능은 기본 생성형 AI 영상의 고질적인 문제인 환각을 억제하면서도 창의적인 표현이 가능하다는 것을 보여줍니다. 이는 교육, 비즈니스, 법률 등 정확성이 생명인 분야에서 AI 영상 기술이 본격적으로 쓰일 수 있는 발판이 마련됐다는 시각이 지배적입니다. 또 누구나 자신만의 데이터를 바탕으로 고품질의 영상 콘텐츠를 생산할 수 있는 시대도 가속화될 전망입니다.
한편 시네마틱 비디오 오버뷰는 구글 AI 울트라 구독자 가운데 만 18세 이상만 이용할 수 있습니다. 웹 버전과 모바일 애플리케이션 모두 이용 가능합니다. 다만 현재 영어 소스를 기반으로 한 생성만 지원하고 있습니다.
마이크로소프트, 차세대 소형 멀티모달 AI 모델 공개 ‘에이전트 시대 전환 가속화’
![[IT 동아] [위클리AI] 오픈AI, GPT-5.4 출시 '워크플로우 특화 모델' 외 3 마이크로소프트가 파이-4-리즈닝-비전-15B를 선보였습니다 / 출처=마이크로소프트](https://it.donga.com/media/__sized__/images/2026/3/10/9ca59bc5979e4d71-thumbnail-1920x1080-70.jpg)
글로벌 IT 기업 마이크로소프트(Microsoft)가 시각적 정보와 관련된 단순한 인식을 넘어 복잡한 논리적 추론까지 수행할 수 있는 새로운 소형 언어 모델(SLM) ‘파이-4-리즈닝-비전-15B(Phi-4-Reasoning-Vision)’을 선보였습니다.
마이크로소프트는 3월 4일 공식 블로그에 이 소식을 전하면서 “파이-4-리즈닝-비전-15B는 개발자에게 수동적 인식을 넘어 시각 정보를 이해하고, 추론하며, 실제로 행동하는 시스템을 구축할 수 있는 핵심 역량을 제공합니다. 마이크로소프트 파운드리와 허깅페이스에 출시했습니다”라고 알렸습니다.
파이-4-리즈닝-비전-15B의 가장 두드러진 특징은 선택적 추론(Selective Reasoning)입니다. 추론이 필요한 경우와 불필요한 경우를 스스로 구분해 처리 방식을 전환할 수 있습니다. 예를 들어 수학 문제 풀이나 과학 다이어그램 분석처럼 깊은 사고가 필요한 작업에는 ‘think 모드’로 단계별 추론 체인을 가동합니다. 반면, 이미지 설명이나 문자 인식처럼 빠른 응답이 더 중요한 작업에서는 ‘nothink’ 모드로 즉각 답변하는 식입니다. 이에 개발자는 프롬프트를 통해 두 모드를 명시적으로 제어해 응답 속도와 정확도를 실시간으로 조율할 수도 있습니다.
기존 비전 AI 모델 대부분이 이미지를 인식하는 수준에 그쳤다면 파이-4-리즈닝-비전-15B는 그 한계를 넘어선다고 마이크로소프트는 강조했습니다. 파이-4-리즈닝-비전-15B는 이미지, 문서, 다이어그램, 화면(GUI) 등 시각 정보의 구조를 파악하고 텍스트 맥락과 연결해 멀티스텝 추론을 수행한 뒤 실행 가능한 결론을 도출합니다.
마이크로소프트에 따르면 파이-4-리즈닝-비전-15B에도 책임 있는 AI 원칙을 적용했습니다. 이번 모델은 공개 안전 데이터셋과 내부 생성 예시를 혼합해 학습합니다. 허용 범위를 벗어난 요청의 경우 모델이 스스로 거절할 수 있도록 설계했습니다.
과거에는 복잡한 시각적 추론을 하기 위해 매개변수(Parameter)가 수천억 개에 달하는 거대 언어 모델(LLM)이 필요했습니다. 파이-4-리즈닝-비전-15B는 150억 개라는 비교적 작은 체급으로도 고해상도 시각 인식과 논리적 추론을 동시에 구현해냈습니다. 이는 기업들이 더 적은 비용과 컴퓨팅 자원으로도 고성능 시각 AI를 도입할 수 있게 되었음을 의미합니다.
뿐만 아니라 파이-4-리즈닝-비전-15B는 또 다른 면에서도 주목받습니다. AI가 단순히 텍스트를 읽는 단계를 넘어 화면과 세상을 시각적으로 이해하고 논리적으로 판단해 인간 대신 업무를 수행하는 에이전트 시대로의 전환을 가속화하는 중요한 지표라는 평가가 나오는 이유입니다.
IT동아 박귀임 기자(luckyim@itdonga.com)
<구체적인 내용이나 첨부파일은 아래 [IT 동아] 사이트의 글에서 확인하시기 바랍니다.>