[IT 동아] “AI 기술 발전 방향을 논하다” 글로벌 AI 프론티어 심포지엄

글로벌 AI 프론티어 심포지엄이 서울에서 개최됐다 / 출처=IT동아
글로벌 AI 프론티어 심포지엄이 서울에서 개최됐다 / 출처=IT동아

[IT동아 강형석 기자] 바야흐로 인공지능(AI) 시대다. 시장에서는 앞으로 AI가 화면 밖으로 나와 현실과 교감하며 추론 능력을 발휘하는 형태로 진화하리라는 전망이 나온다. AI 기술은 발전을 거듭하며 인류의 일상과 산업 구조 전체를 재편하는 중이다. 다만 AI 시스템의 안전성과 신뢰도, 학습 기술 고도화 등 아직 풀지 못한 문제도 적지 않다.
2026년 7월 3일, 글로벌 AI 프론티어 연구소는 웨스틴 서울 파르나스 호텔에서 ‘글로벌 AI 프론티어 심포지엄(Global AI Frontiers Symposium) 2026’을 열고 AI가 나아갈 방향을 논의했다. ‘지능을 넘어 현실 세계로 나아가는 AI(AI Beyond Intelligence: Into the Real World)’를 주제로 열린 이번 행사는 대형언어모델(LLM), 에이전틱(Agentic) AI, 멀티모달(Multimodal) AI, 과학을 위한 AI(AI for Science), 피지컬 AI(Physical AI), 생활을 위한 AI(AI for Life), AI 안전(AI Safety) 등 폭넓은 분야를 다뤘다.

합리적 로봇은 데이터만으로 구현되는 게 아니다

첫 기조연설은 로봇공학과 불확실성 아래 학습·계획 분야를 연구해 온 레슬리 캘블링(Leslie Kaelbling) MIT 파나소닉 석좌교수가 맡았다. 그는 ‘합리적 로봇(Rational Robots)’이라는 개념을 소개하며, 로봇을 논하기에 앞서 “우리가 로봇에게 기대하는 일이 정확히 무엇인가”부터 정의해야 한다고 짚었다. 공장 로봇은 정밀함이 생명이라면, 로봇청소기는 정밀하진 않아도 어떤 환경에서든 굴러가는 강건함이 강점이다. 캘블링 교수는 사람만큼 다양한 일을 유연하게 해내는 로봇을 만드는 것이 자신의 연구 목표라고 밝혔다.
제시한 방법론은 간결했다. 지능형 로봇을 만드는 데 쓸 재료는 결국 ‘엔지니어’와 ‘데이터’ 두 가지라는 것이다. 완벽한 프로그램을 사람이 직접 짜는 일은 이미 불가능하다는 게 증명됐고, 구조 없이 데이터만 쏟아붓는 방식도 한계가 뚜렷하다. 모델이 복잡하고 유연할수록 데이터로부터 그것을 추정하는 데 필요한 데이터양은 기하급수적으로 늘어난다. 레슬리 캘블링 교수는 고전적 로봇공학과 딥러닝을 결합하는 ‘합리적 접근’이 필요하다고 설명했다.
레슬리 캠블링 MIT 석좌교수가 합리적 로봇에 대해 설명하고 있다 / 출처=IT동아
레슬리 캠블링 MIT 석좌교수가 합리적 로봇에 대해 설명하고 있다 / 출처=IT동아
레슬리 캘블링 교수는 “우리는 3차원 세계에서 살아간다. 행동의 결과는 대체로 희소하고 국소적이며, 로봇은 인간으로부터 매우 다양한 요구를 받는다”고 말했다. 이 전제를 받아들이면 ‘합리성(rationality)’이라는 개념을 로봇 설계에 그대로 적용할 수 있다고 덧붙였다.
그는 최근 로봇공학의 주류로 자리 잡은 블랙박스 학습 방식의 문제를 지적했다. 이 방식은 아무것도 가정하지 않고 관찰과 행동만 연결한다는 게 이유다. 작동은 하되, 공간의 일부만 처리하는 데도 방대한 데이터가 필요하다고 말했다.
레슬리 캘블링 교수는 모듈성 전략이 필요하다는 입장을 밝혔다. 시각 정보 처리와 언어 처리, 경로 계획은 각각 다른 전략을 필요로 한다는 것이다. 추론 능력과 언어 능력을 뇌의 서로 다른 영역이 각각 처리한다는 사실은 뇌과학에서도 이미 확인된 바이며, 자연이 택한 이 모듈 구조가 로봇에게도 유효한 설계 원리가 될 수 있다고 그는 설명했다. 모듈화된 학습 문제는 필요한 데이터양을 로그 스케일로 줄여준다는 말도 덧붙였다.
기조연설 마지막에는 연구실에서 나온 성과들을 소개했다. 한 장의 이미지에서 물체 뒷면의 형태까지 추론해 3차원 모델을 복원하는 인지 기술과, 이를 활용한 로봇 시스템 ‘팁탑(TipTop)’이 대표적이다.
레슬리 캠블링 MIT 파나소닉 석좌교수 / 출처=IT동아
레슬리 캠블링 MIT 파나소닉 석좌교수 / 출처=IT동아
팁탑은 장면을 3차원으로 재구성하고 언어 설명과 파지 정보를 결합해 계획을 세운다. 다만 추상화된 인과 행동 모델로 학습하는 구조라는 점이 차별점이다. 예컨대 낮은 수준의 물리 상태를 ‘늪(Swamp)’에 비유하면서 “늪 속을 헤엄치는 대신 이 바위로 건너뛰면 된다”는 식으로 학습을 진행한다. 이어 팁탑이 여섯 차례의 시연만으로 새로운 공간에서 물건을 정리하고 탁자를 닦는 임무를 수행한 사례, 그리고 과일 종류가 바뀌어도 스스로 상황을 파악해 대응한 착즙기 시연 사례를 다뤘다.
로봇 스팟(Spot)도 사례로 언급됐다. 로봇 스스로 서투른 동작을 인지하고 밤새 배터리만 갈아 끼우며 빗자루질을 연습한 사례를 다뤘다. 레슬리 캘블링 교수는 “다음 날 아침 낯선 방해 요소가 등장했을 때도 스팟은 미리 파악해 둔 인과 모델을 활용해 즉석에서 새로운 계획을 세워 임무를 완수했다”고 설명했다. 이어 “구조와 데이터 사이의 트레이드오프(상충요소)를 진지하게 설계해야 한다”며 “적어도 향후 5년에서 20년 가량의 단기 지평에서는 이 균형을 정교하게 다루는 공학적 태도가 로봇의 실질적 진보를 좌우할 것”이라고 강조했다.

이제 AI 평가는 “얼마나 오래 생각했는가”에 초점 맞춰야

이어 연단에 오른 노암 브라운(Noam Brown) 오픈AI 연구 부문 부사장은 ‘대규모 테스트타임 컴퓨팅의 함의(Implications of Large-Scale Test-Time Computing)’를 주제로 발표했다. 그는 “지금 우리가 AI 모델을 평가하는 방식 자체가 틀렸다. 테스트타임 컴퓨트 시대에 맞게 다시 설계해야 한다”고 말했다.
발단은 GPT-5.5 출시였다. GPT-5.5는 벤치마크 점수만 놓고 보면 이전 모델 대비 개선폭이 크지 않았다. 터미널 벤치는 75%에서 83%로, 사이버짐은 79%에서 82%로 향상된 게 전부였다. 노암 브라운 부사장은 “실제 GPT-5.5를 써본 사람들의 반응은 정반대였다. 다들 이번 업데이트가 큰 도약이라고 말한다”며 간극의 원인을 그래프의 축에서 찾았다. 막대 그래프로 점수만 비교하면 모델 간 성능 차이가 없어 보이지만, 가로축을 모델이 답을 내기까지 생성하는 토큰 수로 바꾸면 GPT-5.5는 확연히 다른 성능 곡선을 그린다는 설명이다. 신형 모델은 오래 생각할수록 성능이 계속 오르는 반면, 기존 모델은 어느 지점에서 성능이 정체된다는 뜻이다.
AI 평가 구조를 바꿔야 한다고 주장한 노암 브라운 오픈AI 부사장 / 출처=IT동아
AI 평가 구조를 바꿔야 한다고 주장한 노암 브라운 오픈AI 부사장 / 출처=IT동아
노암 브라운 부사장은 “GPT-3 시절에는 예산을 1만 달러 쓰나 100만 달러 쓰나 성능 차이가 거의 없었다. GPT-o1은 수십 초, GPT-o3는 수 분 단위로 유효하게 작동했다. 2025년 국제수학올림피아드에서 금메달급 성과를 낸 내부 모델은 몇 시간 단위로 사고를 이어갔다. 현행 모델은 스캐폴딩을 붙이면 며칠에서 몇 주 단위로도 작동한다”고 설명했다.
그가 문제 삼은 대목은 안전성 평가였다. 평가를 위해 실행하는 프리페어드니스(Preparedness) 평가는 대체로 낮은 예산으로 수행되는데, 어떤 조직이 수백만 달러를 추론에 쏟아붓는다면 위험하지 않다고 판정받은 모델도 막상 훨씬 위험한 능력을 발휘할지 모른다고 그는 주장했다.
노암 브라운 오픈AI 연구 부문 부사장 / 출처=IT동아
노암 브라운 오픈AI 연구 부문 부사장 / 출처=IT동아
문제의 실례로 제미나이3 딥싱크(Gemini 3 DeepThink)가 언급됐다. 이 모델이 시스템 카드 없이 공개됐다는 이유로 안전 진영에서 거센 비판이 쏟아졌는데, 정작 핵심은 그게 아니라는 게 노암 브라운 부사장의 설명이다. 그는 제미나이3 딥싱크가 제미나이3에 100배 가량 테스트타임 컴퓨트를 더한 ‘스캐폴드’에 가깝다고 강조했다. 제미나이3를 공개할 때 테스트타임 컴퓨트를 함수로 반영한 평가를 했어야 했고, 그랬다면 딥싱크가 특별히 새로운 위험을 더한 게 아니라는 점이 드러났으리라는 논리였다.
물론 테스트타임 컴퓨트가 만능은 아니다. 링컨이 태어난 해를 묻는 질문처럼 사실 조회형 문제는 아무리 오래 생각해도 정답률이 오르지 않는다. 반대로 스도쿠처럼 정답 검증은 쉬워도 풀이 자체는 어려운 문제는 사고 시간에 비례해 성능이 계속 개선된다. 노암 브라운 부사장은 “지금의 어려운 추론 과제 대부분이 스도쿠에 가까우며, 모델이 강력해질수록 더 많은 과제가 이 방향으로 옮겨갈 것”이라고 내다봤다.

AI의 미래는 기술보다 ‘문제를 보는 안목’과 ‘국가의 태도’에 있다

기조연설 이후 진행된 패널토론에는 레슬리 캘블링 교수와 노암 브라운 부사장을 비롯해 에밀리 블랙(Emily Black) 뉴욕대 교수, 그리고 글로벌 AI 프론티어 연구소를 공동으로 이끄는 조경현 뉴욕대 컴퓨터과학과 교수가 패널로 참석해 다양한 주제를 논의했다.
기조연설 이후 진행된 토론에서 AI에 대한 여러 논의가 오갔다 / 출처=IT동아
기조연설 이후 진행된 토론에서 AI에 대한 여러 논의가 오갔다 / 출처=IT동아
먼저 사람들이 AI 연구에서 중요한 문제를 찾는 법을 어떻게 배우는가에 대한 이야기가 오갔다. 레슬리 캘블링 교수는 로봇공학 관점에서 ‘기억과 부분관측성’을 꼽았다. 대부분의 로봇 연구가 완전관측 환경을 전제하지만, 집이나 병원처럼 몇 주에서 몇 달에 걸쳐 작동해야 하는 로봇에게는 과거의 행동과 관측을 축적하는 견고한 기억 체계가 필요하다는 지적이다. 그는 노암 브라운 부사장이 언급한 토큰 스트림 기반 기억 방식을 인정하면서도, ‘물건을 어디에 뒀는가?’ 같은 장기적·공간적 기억을 감당하기엔 부족할 수 있다는 의문을 제기했다.
노암 브라운 부사장은 현재 집중하는 두 가지 연구 방향을 소개했다. 하나는 에이전트의 작업 지평을 몇 시간에서 몇 주로 늘리는 일이고, 다른 하나는 다중 에이전트 협업이다. 여러 모델 중 최선의 결과를 고르는 ‘베스트 오브 엠(best of M)’ 같은 기법은 그저 출발점에 불과하며, 앞으로는 여러 에이전트가 복잡한 문제를 유기적으로 나눠 푸는 협업 체계로 나아가야 한다고 강조했다. 에이전트 간 상호작용을 개선하는 일이 결국 에이전트와 인간 사이의 상호작용을 개선하는 지름길이라는 게 그의 시각이다.
조경현 교수는 레슬리 캘블링 교수의 문제의식에 공감하며 인과성이야말로 다음 단계 지능을 위한 핵심 과제라고 짚었다. 그가 강조한 것은 ‘코딩의 산업화 시대’다. 알고리듬 설계와 구현이 점차 자동화되면서, 연구자는 구현의 디테일 대신 문제 설정과 평가라는 더 높은 층위에 집중할 수 있게 됐다는 것이다. 조경현 교수는 이를 ‘거꾸로 된 통계학’이라 불렀다. 계산 도구가 이미 갖춰진 지금, 관건은 현실 맥락 속에서 풀 만한 문제 집합을 알아보는 안목이라는 뜻으로 풀이된다.
에밀리 블랙 교수는 ‘평가의 불안정성’을 언급했다. 벤치마크를 살짝만 바꿔도 성능 결과가 완전히 달라지는 현상이 존재론적 위험부터 일상적인 공정성·차별 문제까지 모든 층위의 위험 평가를 흔든다는 지적이다. 그는 배포 전 특정 맥락에서 시스템의 성공과 안전을 가늠할 견고하고 맥락화된 평가 방법론에 커뮤니티가 투자해야 한다고 주장했다.
연구 안목을 어떻게 기를 것인가에 대한 토론도 이어졌다. 레슬리 캘블링 교수는 “성공이 거의 확실한 프로젝트라면 이미 야망이 부족한 것”이라며 “다음 학회 발표를 향한 조급함을 이겨내고 긴 호흡을 유지해야 한다. 자신의 연구도 늘 실패의 연속이지만, 그 부산물에서 뜻밖의 통찰이 나온다”고 설명했다. 그는 제자들에게 노트 한 권만 들고 일주일에 반나절씩 그저 생각하는 시간을 가지라고 권한다고 전했다.
노암 브라운 부사장은 문제를 고르는 자신만의 기준을 소개했다. “성공하면 어떻게 되는가”라는 질문을 스스로에게 던져, 답이 게임체인저급이 아니라면 손대지 말라는 것이다. 그는 게임이론에서 테스트타임 컴퓨트 스케일링으로 커리어를 틀었던 개인적 경험을 언급하며, 확신을 따르는 선택이 대체로 옳았다고 회고했다. 새로운 증거 앞에서 기존 관점을 기꺼이 갱신하는 능력이야말로 연구자의 최고 덕목이라는 말도 남겼다.
조경현 뉴욕대 컴퓨터과학 및 데이터사이언스 교수 / 출처=IT동아
조경현 뉴욕대 컴퓨터과학 및 데이터사이언스 교수 / 출처=IT동아
조경현 교수는 가설 생성 중심의 ‘과학을 위한 AI(AI for Science)’ 접근에 우려를 표했다. 대형 모델로 분자 설계나 논문 초안을 대량 생성하는 방식은 공통 플랫폼 위에서 통계적으로 검증되지 않는 한 시간 낭비이자 ‘환상’에 불과하다는 게 그의 진단이다. 연구 안목이 주관적이라는 점을 인정하면서도, 견고한 평가 체계 없는 가설 생성만큼은 지금 시점에서 누구도 손대지 말아야 할 영역이라고 주장했다.
에밀리 블랙 교수는 정부·정책·산업계 등 학계 바깥 사람들과의 협업에서 좋은 질문을 얻는다고 답했다. 고용평등기회위원회 출신 인사들과 나눈 대화에서 AI 채용 모델에 대한 우려를 접하고 새로운 연구 줄기를 발견한 경험이 대표적 사례로 언급됐다.
AI 도구가 대학원 교육을 어떻게 바꾸는지도 짧게 다뤘다. 에밀리 블랙 교수는 지금 대학원생이라도 기본기만큼은 손으로 직접 익히는 데 시간을 쓰겠다고 답했다. 레슬리 캘블링 교수는 컴파일러가 어셈블리 프로그래밍을 대체한 역사에 빗대며 추상화 수준을 높여주는 도구는 반가운 존재라고 평했다. 다만 대학원생을 받는 이유는 그들이 자신을 놀라게 하고 사고의 틀을 깨줄 존재이기 때문이다. 클로드 같은 도구가 그 역할을 대신할 수 있다면 학생을 잘못 활용하는 셈이라고 강조했다.
토론 주제는 한국 AI 전략으로 옮겨갔다. 조경현 교수는 특정 연구 분야를 콕 집어 제안하는 대신, 한국 기술 생태계에 퍼진 묘한 패배주의를 짚었다. 그는 “오픈AI 같은 거대 기업과의 정면 승부를 피할 핑계부터 찾는 경향을 보이며, 이것이 야심 넘치는 인재들의 발목을 잡아 실리콘밸리와 뉴욕으로의 두뇌 유출을 부추긴다”고 지적했다.
에밀리 블랙 뉴욕대 컴퓨터과학 및 데이터사이언스 조교수 / 출처=IT동아
에밀리 블랙 뉴욕대 컴퓨터과학 및 데이터사이언스 조교수 / 출처=IT동아
에밀리 블랙 교수는 규제의 균형점을 찾는 일이 어느 나라에나 던져진 숙제라며, 한국이 세계 최초로 AI 관련 법안을 시행에 옮긴 나라라는 점을 짚었다. 그는 영향평가 항목마다 ‘견고성’을 요구할 것, 단일 결과가 아니라 여러 도메인에 걸친 ‘좋은 행동의 패턴’을 입증하도록 요구할 것을 조언했다.
노암 브라운 부사장은 한국의 하드웨어 경쟁력을 글로벌 리더로 치켜세우며, 인프라(반도체·전력)의 중요성이 알고리즘에 가려져 과소평가된다고 짚었다. 그는 앞으로도 하드웨어가 AI 진보의 병목으로 남으리라 예측하며 한국의 전략적 위치를 강조했다.
레슬리 캘블링 교수는 결이 다른 제안을 던졌다. 지금의 신경망과 그래픽 처리장치(GPU) 중심 흐름이 유일한 길이라고 단정 짓지 말자는 것이다. 과학의 진보는 도약과 정체의 반복이며, 지금은 그 정체기의 열매를 쉽게 따먹는 상황일 수 있다고 진단했다. 대담한 선택은 10년 혹은 20년 뒤의 AI를 상상하는 일이며, 그것은 지금과 전혀 다른 형태일 수도 있다는 것이다. 그는 적은 투자로도 큰 파급력을 낼 ‘엉뚱한’ 아이디어를 밀어붙여 보자고 제안했다.
IT동아 강형석 기자 (redbk@itdonga.com)

<구체적인 내용이나 첨부파일은 아래 [IT 동아] 사이트의 글에서 확인하시기 바랍니다.>