[IT 동아] 퓨리오사AI, 2세대 NPU ‘RNGD’ 양산 본격화··· “AI 추론의 판도 잡는다”
2026년 04월 04일
[IT동아 남시현 기자]
“2030년까지 전 세계 데이터센터 규모가 100GW까지 증설될 것이고, 그중 70%의 자원은 추론용 반도체로 할당될 것이다. AI 데이터센터의 핵심은 여기에 탑재될 인프라와 추론 작업들을 얼마나 낮은 총 소유비용(TCO)으로 운영할 지가 될 것이고, 이를 가장 효율적으로 만드는 것이 퓨리오사AI의 핵심 목표다”
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 1
백준호 퓨리오사AI 대표 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/e8935f4fa46f40f3-thumbnail-1920x1080-70.jpg)
백준호 퓨리오사AI 대표는 회사의 목표를 효율성, 그것을 넘어서 지속가능성을 달성하는 것이라 말한다. AI 반도체 기술 기업 퓨리오사AI(FuriosaAI)는 지난 4월 2일 서울 논현동 SJ 쿤스트할레에서 ‘레니게이드 2026 서밋’을 개최하고 2세대 신경망 처리 장치(NPU) ‘RNGD’가 앞으로 나아갈 방향을 제시했다. 이번 서밋은 RNGD의 본격적인 대량양산 시점에 맞춰 퓨리오사AI 하드웨어 생태계를 지원하는 개발자와 서비스 제공자, 파트너 기업들의 목소리와 실제 시연 상황을 공유하기 위한 자리로 마련됐다.
퓨리오사AI는 지난 2024년 8월 글로벌 반도체 설계 콘퍼런스 ‘핫칩스2024’에서 RNGD를 처음 선보인 이후 1년여 간 RNGD 생태계 구축과 협력 기업 확보에 매진해 왔다. 이후 2026년 1월 제조사로부터 RNGD 1차 양산 물량 4000대를 인도받은 뒤 본격적인 상업 운영을 시작했다. 아울러 HBM3e를 탑재한 RNGD-MAX, 워크스테이션용 하드웨어인 RNGD-S 등 파생형 모델도 올해 본격적으로 출시할 예정이다.
2024년 8월 공개 이후 1년여 만에 ‘상업운영’에 시동
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 2
인클로저 내부에 위치한 RNGD 칩과 기판 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/bbbd1e12ea8e4672-thumbnail-1920x1080-70.jpg)
퓨리오사의 2세대 NPU RNGD는 텐서 축약 프로세서(TCP)라는 자체 설계 칩을 탑재한 AI 가속기다. 현재 AI 학습 및 추론에 활용되는 GPU 등 가속기는 행렬 곱셈을 기본 연산 단위로 활용한다. 이를 처리하려면 2차원 행렬을 단위로 쪼개고 다시 합치는 과정을 거치며, 이 과정에서 많은 데이터가 오가면서 대역폭 한계, 전력 소모량이 급증한다. TCP는 축약된 텐서 그 자체를 기본 연산 단위로 활용해 작업 효율과 병목 현상을 해소한 AI 추론 전용 처리 장치다.
칩 제조는 TSMC 5nm 공정으로 제조되며 대만 에이수스가 제품 제조를 맡고 있다. 메모리는 48GB 용량의 HBM3를 탑재하며 소비전력은 180W다. PCIe 5세대 16레인 구성이어서 지난 오픈AI 코리아 출범 당시 2대의 RNGD를 활용해 gpt-oss-120B 모델을 온디바이스 AI로 구현하는 데모 시스템을 선보이기도 했다. 이제 퓨리오사AI는 서버에서 운영 가능한 RNGD를 인도받고 구매를 원하는 고객들에게 제품을 판매하고, 지원에 나서야 하는 시점이다.
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 3
백준호 퓨리오사 AI 대표가 RNGD 칩과 RNGD-NXT 서버를 소개 중이다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/6d87500cc2844858-thumbnail-1920x1080-70.jpg)
백준호 퓨리오사AI 대표는 “2017년 창업 이후 지난 9년 간 AI 시장은 놀라울 정도로 발전했다. 첫 반도체를 만들 당시에는 레즈넷(ResNet)으로 시작했는데 이후 트랜스포머가 나왔고, 챗GPT가 출현한 뒤 에이전틱 AI로 발전하고 있다. 모델 사이즈만 해도 초창기 매개변수는 몇천 만 개에 불과했지만 지금은 수조 개로 진화했고, 이를 실현하기 위한 추론의 판도(인퍼런스 패러다임)가 바뀌고 있다”라고 말했다.
이어서 “현재 AI는 오픈클로, 에이전틱 AI처럼 개인의 업무 효율을 올리는 방향으로 나아간다. 각 특징을 짚어본다면 수 많은 추론과 요청을 반복적으로 수행하고 검증한다. 단순한 챗봇과 달리 긴 콘텍스트(문장)를 인식하고 더 많은 토큰을 투입하고 생성해야 한다. 이 작업은 AI 데이터센터에서 24시간 진행되고, 2030년까지 전 세계적으로 100GW의 규모가 될 것”이라고 말했다.
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 4
AI 가속기의 핵심은 전력 효율성, 그리고 GPU 대비 효율적인 총소유비용이다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/e93fa6a089cf49ec-thumbnail-1920x1080-70.jpg)
퓨리오사AI는 이 AI 처리 과정에서 가능한 비용 효율적이고, 지속가능한 AI 구동을 제안한다. 백준호 대표는 “RNGD는 200W 열설계전력(TDP) 내에서 성능을 맞추고자 끊임없이 도전해왔고, INT4 기준 1024TOPS(초당 1024조 회 연산)를 달성했다. 여기에 고대역폭메모리(HBM)을 통합하고, 멀티 칩 환경에서 동작할 수 있도록 칩의 CPU와 바이오스까지 모두 만들고 엔터프라이즈 고객들에게 검증했다. 하드웨어 출시 이후 소프트웨어를 갖추고 끊임없이 고도화하는 중”이라고 설명했다.
3월 업데이트로 성능 비약적 향상, 서버 환경 준비 완료
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 5
엑사원 4.0 32B 모델 구동 시 512배치에서도 사용자당 20토큰을 제공해 서버 수준의 대형언어모델 처리도 충분히 대응한다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/d98900c683ac4138-thumbnail-1920x1080-70.jpg)
이어서 성능에 대한 세부 정보를 공개했다. 백준호 대표는 “엑사원 4.0 32B FP8 모델을 다양한 배치에 따라 비교한 표를 보면, 256배치에서 처리량이 9000토큰 정도 나온다. 이때 사용자당 평균 토큰은 약 30토큰 정도, 512배치로 늘려도 사용자당 20토큰 정도 나온다. 전체 처리량은 초당 1만 2000토큰까지 가능했다”라고 말했다.
이어서 엔비디아 RTX PRO 6000 X4 시스템과 RNGD X4 시스템을 활용해 큐웬 3 32B 모델을 구동했을 때의 사용자당 전력 소모량, 토큰 처리량을 제시했다. 처음 토큰 출력 속도는 RNGD가 1에서 256배치까지 전반적으로 더 빠르다. 처리량 측면에서 배치숫자가 작을 경우에는 GPU가 유리하나, 숫자가 많으면 RNGD의 처리량이 더 많다.
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 6
RNGD 4장을 엔비디아 RTX PRO 6000 4장과 비교했을 때 최대 토큰 효율이 약 7.4배까지 차이난다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/9c17d136a7bd4bdd-thumbnail-1920x1080-70.jpg)
관건은 전력소모의 차이다. RTX PRO 6000의 장치당 열설계전력(TDP)은 600W고 RNGD는 180W다. 열설계전력은 장치의 열을 해소할 때 필요한 냉각 장치가 감당해야할 열 용량을 나타내는 단위로 실제 전기 소비량은 아니지만 매우 밀접한 값이다. 열설계전력이 낮다는 말은 그만큼 발열이 적어 서버 상면확보가 용이하고, 냉각 시 전력도 적게 먹는다는 의미다. 단순 계산으로 시스템 운영 효율이 3배 이상 높다고 볼 수 있다.
1킬로와트당 사용자 수를 계산할 경우 RNGD는 약 6.26명, GPU는 약 0.85명으로 약 7.4배 차이 난다. 또한 지난 1월 소프트웨어 버전에서는 RNGD의 사용자당 30토큰 유지 성능이 한계였으나 3월 업데이트를 통해 사용자당 토큰 지원량이 크게 늘었다. 백준호 대표는 소프트웨어 발전에 따라 갈수록 성능이 향상되고 있으며 더 최적화된 결과를 만들기 위해 고도화 중임을 강조했다.
LG AI 연구원·LG유플러스·업스테이지 등 업계 협업 사례 주목
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 7
LG AI 연구원은 엑사원 추론에 필요한 연산 일부를 RNGD로 구현 중이다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/76e666e940234154-thumbnail-1920x1080-70.jpg)
LG AI 연구원은 퓨리오사AI와 밀접하게 협업 중이다. 임우형 LG AI 연구원 공동연구원장은 “LG AI 연구원은 2021년 말부터 퓨리오사AI와 합을 맞춰왔다. 당시만 해도 RNGD 카드가 나오기 전이었지만 필요한 기술이나 향후 개선점 등을 빠르게 수용하는 모습이 감명깊었고, 다양한 서비스 시나리오에 대한 가이드라인도 제공하고 개선점을 논의하는 부분에서 확실한 가능성을 보았다”라면서 “RNGD 출시 시점에는 엑사원 4.0에 최적화한 상태였고, 아키텍처를 바꾼 4.5 버전을 출시할 때에도 바로 성능을 개선하는 것을 통해 우수한 엔지니어링 역량을 엿볼 수 있었다”라고 말했다.
지난 3월 MWC(모바일 월드 콩그레스)에서 협업을 발표한 LG유플러스는 이상엽 CTO가 연단에 섰다. 이상엽 CTO는 “지난해 딥시크를 보면서 우리나라도 보안, 규제, 제어 가능한 형태의 소버린 AI가 필요하다는 것을 느꼈다. 그런데 마침 LG AI 연구원이 엑사원과 RNGD를 엮었고, LG 유플러스 역시 엑사원 기반을 쓰고 있어서 협업하기로 결정했다. RNGD를 통해 LG유플러스의 다양한 에이전트 서비스, 어플라이언스에서 시너지를 낼 것”이라고 말했다.
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 8
김성훈 업스테이지 대표(오른쪽)가 퓨리오사AI와의 협력 방안에 대해 소개 중이다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/260543f3b1a94c1d-thumbnail-1920x1080-70.jpg)
퓨리오사AI와 오랜 기간 협력한 업스테이지의 김성훈 대표도 함께했다. 김성훈 대표는 “네이버 재직 시절부터 백준호 대표와 AI 관련으로 협업해 왔고, 업스테이지 설립 시점에는 경영자이자 업계 동반자로서 더 많은 점을 배우고 있다”라면서 “퓨리오사AI와는 아숙업(AskUp)을 서비스하던 초기에도 GPU 비용을 대신하기 위해 도움을 받았고, 최근에 공개한 솔라 프로 3와 독자AI 파운데이션으로 구축한 솔라 오픈 100B 모델에도 RNGD 칩을 활용하고 있다”라면서 “앞으로 국민들이 쓰는 포털 서비스에도 AI 가속기가 많이 필요하게 될 참이라 많은 부분에서 협력하게 될 것”이라고 밝혔다.
삼성SDS, 메가존클라우드 등 연계하고 국내 AI 생태계 지속 지원
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 9
삼성SDS는 올해 7월 중 RNGD 기반의 NPUaaS 서비스를 시작한다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/4ed87ef64e864afa-thumbnail-1920x1080-70.jpg)
삼성SDS는 퓨리오사AI NPU의 국내 확산에 적극 협력 중이다. 이주평 삼성SDS 삼성 클라우드 플랫폼(SCP) 개발팀장(상무)은 “삼성SDS는 전 세계 20곳에 SCP를 서비스 중이며, 국내에서도 수원, 상암, 동탄에 자체 센터를 갖추고 90여 종 이상의 클라우드 서비스를 제공 중이다”라면서 “퓨리오사AI와는 작년 9월부터 협력 중이며, RNGD 서버를 SCP에 올려서 고객에게 제공하는 NPUaaS(서비스형 NPU) 서비스를 만들고자 한다. 고객이 필요할 때, 필요한 만큼 구독형으로 사용할 수 있으며 올해 7월에 SCP가 국내 최초로 서비스를 시작할 것”이라고 말했다.
이주완 메가존클라우드 대표도 “메가존클라우드는 IT 산업에서 AI의 적용, 전환, 도입, 관리를 도우며 성장했다. 이제 클라우드 혁신에 이어 AI라는 더 큰 변화와 기회에 도전하며, 퓨리오사AI와 이를 가속화하려 한다”라면서 “향후 3년 내 500억 원, 5년 내 3000억 원 규모의 퓨리오사 NPU를 확보해 국내 AI 산업에 대한 혁신과 활성화에 기여하겠다”라고 말했다. 한편 퓨리오사AI는 국내 대학생과 개발자들이 쉽게 NPU에 접근할 수 있도록 자체적인 소규모 데이터 센터를 가동 중이다.
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 10
퓨리오사AI는 워크스테이션용 RNGD-S, 고성능 버전인 RNGD-MAX 등을 출시하고, 2028년 경에 3세대 제품에 도전한다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/c4ebd68e89b74236-thumbnail-1920x1080-70.jpg)
마지막으로 2026년 지금, 그리고 다음 제품 로드맵에 대해서도 밝혔다. RNGD는 현재 HBM3가 탑재됐고, 차세대 버전은 업그레이드 된 메모리를 탑재한다. 또 RNGD-NXT 등 서버 단위로 제품이 출시되는데 이를 더 고도화함과 더불어 RNGD-S라는 경량화 버전도 출시할 예정이다. RNGD-S는 일반 PC나 워크스테이션에 들어갈 제품으로 올해 말에서 내년 초에 출시될 예정이다. 마지막으로 3세대 제품의 경우 정해진 성능과 규격에서 최대한의 성능을 낼 수 있도록 설계되며 2028년 경에 출시된다. 백준호 대표는 “시장에서 원하는 수요가 워낙 빠르게 변하므로 계속 제품을 고도화하는 중”이라고 말했다.
RNGD 기반의 상용 서비스 대거 선보여, 상업 서비스 준비 완료
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 11
행사 참가자가 래블업의 백앤드.AI 엔터프라이즈 데모 시스템에 대한 설명을 듣고 있다 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/6e0003da43fb459d-thumbnail-1920x1080-70.jpg)
현시점 가장 주목받는 AI 반도체 기업답게 현장에 다양한 실증 서비스 및 활용 사례가 전시됐다. RNGD 기반 서버 제품인 RNGD-NXT를 앞세워 시장 생태계 확보를 지원 중인 LG AI 연구원과 LG 유플러스를 비롯해 AI 모델 양자화 기업 노타, 엔터프라이즈용 인프라 최적화 기업 래블업, 데이터 프로세싱 유닛(DPU) 기술 기업 망고부스트, AI 교육 기업 크레버스, AI 인프라 설계 전문 기업 바로AI, AI 에이전트 전문 기업 와이즈넛이 행사에 참여했다.
신정규 래블업 대표는 “RNGD를 대규모 클러스터에서 모델 서빙 용도로 운영하는 백앤드AI 엔터프라이즈(Backend.AI Enterprise)와 여기에 연동된 데스크톱용 에이전틱 AI 플랫폼 백앤드AI 고(Backend.AI GO)를 현장에 시연했다. 백앤드AI를 통해 32B를 포함한 다양한 AI 모델을 고속으로 제공하고, 여러 에이전트를 운영함으로써 RNGD의 상업용 가능성과 검증을 마쳤다”라면서 “AI 반도체 자체 개발이라는 어려운 길을 걷고 있는 퓨리오사AI를 응원하며, 풀스택 인프라 기반의 소프트웨어 지원을 통해 앞으로의 여정에 큰 힘이 되도록 함께 노력하겠다”라고 말했다.
양산화 닻 올린 퓨리오사AI, 시장의 평가만 남았다
![[IT 동아] 퓨리오사AI, 2세대 NPU 'RNGD' 양산 본격화··· "AI 추론의 판도 잡는다" 12
8장의 RNGD 카드가 조합된 RNGD-NXT 서버 제품군 / 출처=IT동아](https://it.donga.com/media/__sized__/images/2026/4/3/d6ff97d6098a4af6-thumbnail-1920x1080-70.jpg)
글로벌 AI 반도체 업계의 속도가 예상보다 너무 빠르다. 엔비디아는 미국의 LPU 기업 그록(Groq)을 우회 인수해 본격적으로 추론 반도체 시장에 입김을 내기 시작했고, 차세대 루빈 GPU를 공개하며 전방위적인 압박을 가하고 있다. 29년 간 반도체 지식재산을 제공하며 서포터 역할을 해왔던 Arm도 고객과 경쟁하지 않는다는 원칙을 깨고 자체 반도체를 출시했고, 구글의 터보퀀트 기술로 메모리 시장 지각이 흔들리고 있다. 메타는 네 종류의 3세대 자체 칩을 공개해 시장 의존성을 낮추는 등 하이퍼스케일러들도 발빠르게 움직이고 있다.
시장의 수요와 공급이 굉장히 가변적이어서 국내 AI 반도체 업계에 가해지는 외풍도 상당하지만, 이들은 기술력을 바탕으로 나름의 영역을 만들어가고 있다. 퓨리오사AI는 그 중심에서 우리나라 AI 반도체 시장이 가야 할 방향을 잡고, 글로벌 시장이 우리 기술을 주목하도록 노력하고 있다. 국내 주요 AI 기업과 클라우드 기업과의 협업을 통해 첫 단추는 잘 뀄고, 이제는 다음 단계에 집중할 시간이다.
IT동아 남시현 기자 (sh@itdonga.com)
<구체적인 내용이나 첨부파일은 아래 [IT 동아] 사이트의 글에서 확인하시기 바랍니다.>