[IT 동아] ‘피지컬 AI 인프라 기업’ 선언한 딥엑스, 전성비·총소유비용 앞세워 세계 시장 공략

[IT동아 남시현 기자] 피지컬 AI 시장의 성장세는 반도체 산업의 격전지가 AI 데이터센터에서 현실 세계로 이전 중임을 증명하는 주요 지표다. 최근 몇 년 간 AI 시장은 모델을 구축하는 학습 시장을 바탕으로 성장했지만 현재는 이미 구축된 AI 모델을 실행하는 추론용 반도체로 추세가 전환됐다. 피지컬 AI는 모델 구동을 물리적인 현실에서 구현하는 기술 전반을 의미하며, 실제 현장에서 입력지연 없이 즉시 적용되고 네트워크 연결 없이도 직접 작업을 수행하는데 초점을 맞추고 있다. 이에 따라 많은 엣지AI용 반도체가 직접 피지컬 AI용 반도체로 전환되고 있으며, 총소유비용과 전력 효율, 그리고 성능 등이 제품의 경쟁력을 좌우하는 요소가 되고 있다.

김녹원 딥엑스 대표 / 출처=IT동아
김녹원 딥엑스 대표 / 출처=IT동아

글로벌에서는 엔비디아, 퀄컴, Arm 등 전통적인 반도체 기업들이 주류를 차지하고 있으며, 특수 분야에서는 모빌아이나 암바렐라, 시마AI같은 특정 분야에 최적화된 피지컬 AI 반도체 기업들이 성과를 올리고 있다. 국내 AI 반도체 분야에서는 딥엑스와 모빌린트, 하이퍼엑셀이 선의의 경쟁을 펼치고 있다. 그중에서도 딥엑스는 2024년 8월 1세대 제품을 출시한데 이어 지난해 미국과 대만에 지사를 설립하는 등 가장 적극적인 행보를 보이고 있다. 이번 기자간담회는 딥엑스가 그간의 행보를 정리하고, 향후 출시할 차세대 반도체인 DX-M2의 개발현황을 공유하기 위해 개최됐다.

“딥엑스는 전 세계에서 가장 경제적인 AI 칩을 만드는 기업”

김녹원 대표는 “딥엑스는 전 세계에서 가장 경제적인 AI 칩을 공급하는 회사다. 만약 무료로 AI 반도체 칩을 받아서 사용한다고 해도 장기적으로 총 소유비용과 운영비용을 고려하면 딥엑스 칩이 더 경제적이다. 경쟁력 측면에서는 세계적인 수준”이라며 발표를 시작했다.
김녹원 대표가 구상 중인 앞으로의 딥엑스는 AI 반도체를 설계하는 ‘팹리스’ 기업을 넘어서 ‘ 피지컬 AI 인프라 기업’으로 나아가는 것이다. 팹리스 기업이라 하면 반도체를 설계하고 파운드리에 반도체를 위탁 생산하는 설계 업체를 의미하는데, 칩과 하드웨어, 소프트웨어 생태계를 아우르는 종합 피지컬 AI 인프라 기업이 되고자 함이다.

딥엑스는 지난해 8월 DX-M1 양산을 시작했다. DX-M1은 신용카드보다 작은 칩 형태의 제품이며 딥엑스가 자체 설계한 NPU가 탑재돼 있다 / 출처=IT동아
딥엑스는 지난해 8월 DX-M1 양산을 시작했다. DX-M1은 신용카드보다 작은 칩 형태의 제품이며 딥엑스가 자체 설계한 NPU가 탑재돼 있다 / 출처=IT동아
그 시작점은 지난해 8월 양산을 시작한 5나노 반도체 기반 칩 DX-M1이다. DX-M1의 소비전력은 약 2~3W 수준이며 INT8 기준 약 25TOPS(초당 25조 회 연산)의 AI 성능을 발휘한다. 25TOPS는 가벼운 이미지 생성이나 양자화 반영 시 8B(80억 개) 크기의 소형언어모델 등을 소화할 수 있으며, 실제 시연에서는 FHD급 YOLO v5s 영상 모델을 약 20채널에서 최대 30채널까지 구동한다.
성능 시연에서는 YOLO v8 모델을 동급 GPU가 52.75프레임일때 DX-M1은 52.77프레임으로 처리하고, YOLO v5s 모델은 200TOPS급 엔비디아 젯슨 AGX 오린이 551프레임을 발휘할 때 DX-M1은 590프레임으로 처리했다. 딥엑스가 제시하는 전력 효율성은 GPU 대비 약 20배까지 높고, 크기 역시 M.2로 작기 때문에 온디바이스 AI나 로봇 등에 탑재하기 좋다.

신경망처리장치(NPU) 특성상 전력 효율 및 특정 작업 성능이 좋다. 덕분에 엔비디아, 퀄컴 등의 GPU와 비교해 전력 소모대 성능비, 작업 성능이 뛰어난 편이다 / 출처=IT동아
신경망처리장치(NPU) 특성상 전력 효율 및 특정 작업 성능이 좋다. 덕분에 엔비디아, 퀄컴 등의 GPU와 비교해 전력 소모대 성능비, 작업 성능이 뛰어난 편이다 / 출처=IT동아
MLPerf ResNet-50 테스트를 기준으로 DX-M1은 와트당 498.3프레임을 처리하고, 전력 소모는 약 2~3W다. 엔비디아는 비슷한 급의 반도체가 프레임당 161프레임이지만 40W가 소요된다. 주요 경쟁사인 헤일로(HAILO)의 반도체는 6W 소비전력에 415프레임 정도를 처리했다. 초기 투입 비용과 장기적인 사용성, 그리고 M.2 형태의 독특한 제품 구성에서 차별화된다.

생태계 확장 위한 소프트웨어, 꾸준한 업데이트와 도입사례 확보 중

AI 반도체 생태계 확산에 중요한 소프트웨어 역시 계속 지원 중임을 밝혔다. 김녹원 대표는 “비전 AI에 한해 딥엑스의 소프트웨어 기술은 독보적이라고 생각한다. DXNN도 이제 업그레이드를 거쳐 수십 개 기업의 양산 제품에 대응 중이며 두 달에 한 번은 업데이트한다. 여전히 엔비디아 쿠다 생태계와 비교하기 어렵지만, 우리 제품을 활용하는 고객들이 보내는 의견을 매일 답변하고, 실무자의 의견을 바탕으로 소프트웨어를 개선 중”이라면서 “DXNN을 활용하는 고객이 부족함을 느끼지 않는다면 시장 리더십을 가져갈 수 있다는 목표를 두고 개발에 집중한다”라고 말했다.
딥엑스는 간단한 코드 교환을 통해 DX 칩에서 엔비디아 아이작 플랫폼이 구동되도록 돕는 ‘DX-뉴턴’ 기능을 개발 중이다 / 출처=IT동아
딥엑스는 간단한 코드 교환을 통해 DX 칩에서 엔비디아 아이작 플랫폼이 구동되도록 돕는 ‘DX-뉴턴’ 기능을 개발 중이다 / 출처=IT동아
또한 피지컬 AI 생태계와의 호환을 위해 엔비디아의 AI 기반 로보틱스 플랫폼 ‘아이작(Issac)’ 기반 결과를 딥엑스 반도체로 손쉽게 옮길 수 있도록 돕는 ‘DX-뉴턴’도 소개했다. 김녹원 대표는 “엔비디아 아이작 플랫폼에서 내부 코드를 아이작에서 뉴턴으로 변경한 뒤, DX 칩을 꽂으면 AI 추론 작업을 수행할 수 있도록 하는 기술을 개발 중”이라고 소개했다. 즉 AI 개발은 엔비디아 쿠다 기반으로 진행한 뒤, 이후 추론 과정에서는 딥엑스 칩을 활용해 개발과 운영 효율을 모두 잡겠다는 말이다.
딥엑스는 올해 안에 해당 기능 개발을 마무리할 계획이다. 다만 오픈소스로 엔비디아 GPU용 애플리케이션을 다른 하드웨어에서 사용하도록 지원하는 ZLUDA 프로젝트도 난항을 겪고 있고, 엔비디아 쿠다의 클론에 가까운 AMD의 ROCm/HIP도 완벽한 변환이 어렵다는 지적이 나오는 것으로 볼 때 딥엑스의 DX-뉴턴 기능이 넘어야 할 벽은 매우 높아 보인다.

딥엑스는 중국 바이두, 현대차·기아 로보틱스랩 등 주목할만한 도입 사례를 확보했다 / 출처=IT동아
딥엑스는 중국 바이두, 현대차·기아 로보틱스랩 등 주목할만한 도입 사례를 확보했다 / 출처=IT동아
딥엑스 하드웨어와 소프트웨어를 활용하는 사례에서는 긍정적인 결과가 나오고 있다. 대표적으로 바이두는 지난해 4만 개 이상의 DX-M1을 주문했고, 딥러닝 프레임워크인 패들패들 운용에 딥엑스 칩을 활용 중이다. AI에이전트 기반의 자동화 기술인 오픈클로에 DX-M1을 비롯한 반도체를 활용하려는 시도도 준비 중이다. 현대차·기아 로보틱스랩 역시 2024년 텍사스인스트루먼트 기반 칩을 딥엑스와 록칩 기반 칩으로 교체하며 크게 비용을 절감했으며, 배송로봇 DAL-e와 모빌리티 플랫폼 MobED 등에 탑재된다.
김녹원 대표는 “보통 최소기능제품(MVP) 구현에 18개월까지는 소요되나, 양산 7개월 만에 8개 국가에서 30곳의 도입 사례를 확보했다. 개념증명(PoC)은 350곳에서 진행 중이며 올해 안에 100곳 이상이 고객 기업과 얘기해 볼 수 있을 것 같다”라고 말했다.

칩의 구조적 특성상 산업용 PC 제조사와 협업해 유통 경로를 확장 중이다 / 출처=IT동아
칩의 구조적 특성상 산업용 PC 제조사와 협업해 유통 경로를 확장 중이다 / 출처=IT동아
딥엑스는 2026년 현재 대만, 미국에 법인을 갖추고 있으며 일본과 중국 진출도 고려 중이다. 현재 15곳의 인프라 유통 기업과 협력 계약을 맺고 있고, 인텔, 삼성전자, NXP, 텍사스인스트루먼트, 브로드컴 등 다양한 기업들에 칩을 제공 중이다. 또한 교육용 PC로 잘 알려진 라즈베리파이에도 딥엑스 칩 탑재가 확정됐다. 매출 목표는 올해 약 200억 원에서 최대 1000억을 설정하면서도 양산 첫 해인만큼 확정값은 아니라고 덧붙였다.

차세대 DX-M2 준비 완료 수순··· DX-M3 정보도 일부 공개


DX-M2는 5W 소비전력으로 최대 80TOPS를 지원해 소형 장치에서도 지금보다 더 고성능의 AI 모델을 구동할 수 있다 / 출처=IT동아
DX-M2는 5W 소비전력으로 최대 80TOPS를 지원해 소형 장치에서도 지금보다 더 고성능의 AI 모델을 구동할 수 있다 / 출처=IT동아
내년 3~4분기 양산하는 딥엑스의 2세대 NPU DX-M2, 그리고 그다음 버전인 DX-M3에 대한 간략한 정보도 제시됐다. DX-M2는 삼성전자 2nm 공정으로 제조되며, 현재 세대와 비슷하게 5W 이내의 소비전력을 요구한다. 성능 면에서는 최대 80TOPS과 초당 10~30TOPS(초당 토큰 생성 수)를 갖춰 최대 20B(200억 개) 및 전문가 모델(MoE) 기반 100B(1000억 개) 매개변수 LLM을 지원한다. 모델 양자화를 통한 압축 모델이나 구글 터보퀀트 등 메모리 효율화를 적용하면 온프레미스 환경에서의 성능은 더 잘 발휘될 것으로 예상된다.

현재 구상 중인 3세대 반도체 DX-M3에 대한 기획안도 일부 공개했다 / 출처=IT동아
현재 구상 중인 3세대 반도체 DX-M3에 대한 기획안도 일부 공개했다 / 출처=IT동아
3세대 모델인 DX-M3는 2028년 출시를 목표로 올해부터 개발에 착수한다. 성능은 자체 성능 추산으로 1024 eTOPS을 낼 수 있으며, 현장에서 공개된 정보로는 Arm 말리-G78AE와 코텍스-A78AE를 활용한다. 또한 각 칩을 1개에서 최대 8개까지 연결하는 칩렛 구조도 채택하며, 차세대 메모리 반도체인 LPDDR6-PIM 도입도 구상 중이다.
기획 단계인 만큼 구체적으로 내용이 확정된 것은 아니지만 ▲ AE 라인업 도입을 바탕으로 로봇, 차량 등 높은 신뢰성을 필요로 하는 시장 공략 ▲ 칩렛 구조를 바탕으로 시스템 전반의 성능 상한선 향상 ▲ 차세대 메모리 규격 선제 반영을 통해 AI 실용성 확보 등을 엿볼 수 있다. 특히 DX-M3의 가격은 가능한 100달러 미만으로 설정할 예정이어서 시장의 주목도가 높을 것으로 보인다.

피지컬 AI 업계의 엔비디아 꿈꾸는 딥엑스


반도체 양산은 곧 매출을 창출해야 한다는 뜻이다. DX-M1이 성공해야 차세대 반도체들이 등장할 수 있는 원동력이 마련된다 / 출처=IT동아
반도체 양산은 곧 매출을 창출해야 한다는 뜻이다. DX-M1이 성공해야 차세대 반도체들이 등장할 수 있는 원동력이 마련된다 / 출처=IT동아
이란발 공급망 위기, 메모리 수급의 어려움 등으로 반도체 위탁생산 시장 전반에 외풍이 상당하지만 딥엑스 자체는 여전히 순항하고 있다. 딥엑스 DX-M1은 삼성전자 5나노미터 공정에서 수율을 최대 90%까지 확보하며 안정적인 공급이 가능한 상황이고, DX-M2 역시 삼성전자 2나노미터 공정 제조가 확정돼 있다. 메모리 반도체 가격에 따른 영향이 크겠지만 글로벌 시장에서 딥엑스 제품에 대한 관심이 많고, 350여 곳의 PoC를 통해 분명히 매출을 만들어낼 수 있을 것으로 보인다.
이외에도 딥엑스의 국내외 상장 여부나 매출에 대한 질문이 많았지만 가장 중요한 것은 ‘상업적 실적’을 내는 것이며, 딥엑스 임직원들 역시 이 부분을 최우선 목표로 삼고 있다. 국산 시스템 반도체도 전 세계 시장에서 영향력을 발휘할 수 있음을 김녹원 대표가 직접 증명해 주기를 바란다.
IT동아 남시현 기자 (sh@itdonga.com)

<구체적인 내용이나 첨부파일은 아래 [IT 동아] 사이트의 글에서 확인하시기 바랍니다.>