[IT 동아] ‘1.58비트의 마법’··· 에너자이, 초정밀도 양자화로 글로벌 엣지 AI 시장서 선전

2026년 04월 30일

[IT동아 남시현 기자] 시장조사기업 마켓앤마켓이 발간한 인공지능(AI) 양자화 도구 시장 보고서 2026에 따르면, 지난해 모델 양자화 시장 규모는 9억 2000만 달러(약 1조 3600억 원)에서 올해는 10억 9000만 달러(약 1조 6100억 원)로 약 19% 성장할 예정이다. 성장세는 2030년까지 19.2%를 유지해 22억 달러(약 3조 2600억 원)까지 성장할 예정이며. 엣지 AI와 온디바이스 AI의 도입 증가로 인해 성장의 폭은 더 커질 수 있다. 또한 AI 데이터센터의 확장 한계를 해소하기 위해 장치 자체에서 AI를 연산하는 온디바이스 AI가 해결법으로 제시되며 성장 가도가 확실한 상황이다.

AI 모델 양자화를 활용하면 초소형 기기에서도 보다 고성능의 AI 기술을 활용할 수 있다 / 출처=엔비디아

시장 자체는 양자화 기술이 적용되는 환경에 따라 ▲ GPU, 데이터센터를 위한 표준 하드웨어, 클라우드 서비스를 위한 고정밀도 양자화 ▲ 온디바이스 AI를 위한 저정밀도 양자화 ▲ 에지 AI 기기 수준까지 맞춘 초저정밀도 양자화 등으로 나뉜다. 서버 수준의 하드웨어용 양자화는 2024년까지 16비트(FP16)를 낮춘 FP8 정밀도 수준이 대세였지만 지금은 엔비디아의 NVFP4 같은 FP4 단위의 양자화도 활용되고 있다. AI 추론 엔진 등에 활용되는 범용 PTQ(학습 후 양자화)는 오차를 최소화한 GPTQ, 중요 값에 집중하는 AWQ 등 다양한 양자화 기법이 널리 활용되고 있다.

개인 PC나 워크스테이션 등의 장치에서 거대언어모델(LLM)을 효율적으로 구동하는 기술에는 중요도에 따라 비트 수를 다르게 배분하는 양자화 기법과 함께, GGUF와 같은 양자화된 모델을 실행하기 위한 포맷이 널리 활용되고 있으며, 엔비디아 GPU를 위한 3~5비트 최적화 기술인 EXL2와 같은 기법도 일부 환경에서 적용되고 있다. AI 모델 양자화 기술을 활용하면 더 적은 자원으로 AI를 효율적으로 구동할 수 있으며, 총소유비용과 전력 효율, 장치 수준에서의 AI 구현을 모두 달성할 수 있다.

스타트업부터 빅테크까지 모두 뛰어든 초저정밀도 양자화 기술

이중에서도 초저정밀도 양자화는 가장 첨예한 경쟁이 벌어지는 분야다. 초저정밀도 양자화 기술을 활용하면 초소형 하드웨어에서도 장치 내에서 AI를 구동할 수 있다. 현재 초저정밀도 양자화 분야에서 마이크로소프트에서 발표한 1.58비트 기반 언어 모델 아키텍처인 ‘비트넷’이 주목받고 있다. 비트넷은 기존의 양자화 방식과 달리 모델 구조 자체를 초저정밀도 환경에 맞게 설계한 접근 방식이라는 점에서 의미가 있다. 다만 해당 기술은 아직 범용적으로 활용되지는 않는 단계에 있으며, N:M 구조적 희소성을 비롯한 다양한 기법과 결합하려는 시도 역시 연구 단계에서 활발히 논의되고 있는 상황이다. N:M 구조적 희소성은 중요도가 낮은 정보를 하드웨어가 이해하기 쉬운 규칙에 따라 0으로 만드는 기술이다. 데이터의 양은 절반 가까이 줄어들지만 위치가 예측 가능한 구조화가 되는 게 특징이다.

AI 모델은 기본 FP32로 동작하며 이를 낮은 정밀도로 구동해 전력 및 메모리 효율을 끌어올리는 게 핵심이다. 다만 정확도가 손실될 수 있는데 이를 최대한 유지하는 것이 AI 모델 양자화 기업의 기술이다 / 출처=제미나이 AI 이미지 생성

초저정밀도 양자화 분야는 현재 특정 기업이 주도하기보다는, 글로벌 빅테크 기업과 오픈소스 커뮤니티를 중심으로 다양한 접근법이 경쟁적으로 발전하고 있다. 미국에서는 레드헷과 엔비디아 등 주요 기업들이 스타트업을 인수해 관련 시장에 진입했고, 중국에서는 텐센트가 엔젤슬림 프레임워크를 기반으로 산업 현장에서 초저정밀도 양자화의 시장성을 확인하고 있다. 오픈소스 AI 플랫폼 허깅페이스를 비롯한 글로벌 AI 커뮤니티에서도 저비트 모델 관련 구현과 활용이 활발히 공유되고 있다. 우리나라에서는 에너자이(ENERZAi)가 1.58비트 양자화에 집중하며 시냅틱스, 브로드컴, 어드밴텍, 미디어텍, 퀄컴 등과 협력 중이다.

가장 미세한 단위에서 글로벌 광폭 행보 걷는 ‘에너자이’

에너자이는 1.58비트 초저정밀도 양자화를 포함한 기술과 자체 AI 추론 엔진 옵티미엄(Optimium)과 관련된 기술을 개발 중이다. 에너자이의 양자화 기술력을 활용하면 AI 전용 칩이 없는 일반 연산용 엣지 AI 기기에서도 AI를 구동할 수 있고, AI 기기에서는 일반 연산 환경보다 더 뛰어난 AI 성능을 구현할 수 있다. 최적화된 양자화 환경에서는 AI 모델의 메모리 사용은 4배, 소비전력은 3배 줄이면서도 추론 속도는 두 배, 정확성은 100%에 가깝게 유지하는 것이 기술력이다.

전 세계적으로 초저정밀도 양자화를 다루는 기업이 적다보니 에너자이를 찾는 곳도 많다. 올해 1분기만 짚어보더라도 1월 소비자가전전시회(CES) 참여를 시작으로 스페인 바르셀로나에서 개최되는 세계 최대 규모의 통신 박람회 모바일월드콩그레스(MWC26)도 참가했고, 직후 진행된 글로벌 임베디드 시스템 전문 박람회인 임베디드 월드 2026, 엣지 AI 샌디에고 2026, 엔비디아 GTC 2026 등에 참석해 전 세계 기업들을 상대로 기술력을 소개했다.

장한힘 에너자이 대표가 MWC 26 현장에서 참관객들을 상대로 기술을 소개 중이다 / 출처=에너자이

올해 1월 6일부터 9일 사이 개최된 CES 2026에서는 K-스타트업 통합관으로 참석했다. 현장에서는 Arm 기반 엣지 SoC를 활용해 초저정밀도 양자화 기술을 적용한 음성 기반 실시간 명령 제어 모델과 실시간 자막 생성 및 번역을 수행하는 모델을 선보인 바 있다. CES는 기업, 산업용 보다는 일반 소비자용 제품 전시가 주류인 행사인 만큼 기술을 대중에게 소개하는 취지로 참석했다.

본격적인 행보는 올해 3월 2일부터 5일 사이 개최된 MWC 2026부터다. 에너자이는 MWC 부대행사 4YFN에 SK텔레콤 지원 스타트업 15곳과 함께 참석했다. 현장에서는 소형 기기 하나에서 영어와 스페인어를 클라우드 없이 수백 MB의 소형 모델로 실시간 번역하는 모델을 선보였다.

어드밴텍 장치에서 스피치 RAG 모델을 구현하는 예시, 연산력이 작고 가벼운 장치에서 음성명령 모델을 구현했다는 것 자체의 의미가 크다 / 출처=에너자이

그 직후 3월 11일 진행된 임베디드 월드는 네덜란드의 시스템 반도체 기업 NXP, 미국의 엣지AI, 사물인터넷 전문 기업 시냅틱스 등 등 주요 파트너사와 함께 참여했다. NXP는 차량용 반도체 전문 기업이며 다양한 산업용, 로봇용 칩을 공급한다. 최근에는 소프트웨어 중심 자동차(SDV)용 플랫폼 기업으로 사업을 확장하고 있다. 시냅틱스는 노트북 터치패드 드라이버, 지문인식 센서 기업으로 알려졌지만 현재는 스마트홈 기기, 산업용 로봇, 웨어러블용 AI 전용 프로세서 제품군 ‘아스트라’, 와이파이 7 등 표준 무선 연결성을 지원하는 베로스 칩셋 등을 취급한다.

NXP와는 차세대 칩셋 i.MX95가 장착된 어드밴텍 시스템에서 스피치 RAG(검색증강생성) 모델을 구현했다. 스피치 RAG는 음성 인식 시 전문 데이터 등을 참조해서 대답하는 모델이다. 이를 인터넷 연결없이 온디바이스에서 구현했다는 점 자체가 특이사항이다.

에너자이가 임베디드 월드 2026 시냅틱스 부스에 그린과 에너자이의 기술력을 적용한 로봇 암 장치를 전시했다 / 출처=에너자이

시냅틱스는 피지컬 AI 관련 분야에서 협력한다. 현장에서는 폴란드의 IoT 기업 그린(GRINN)이 시냅틱스 아스트라 칩을 활용해 만든 온디바이스 음성 로봇 암 앤 그리퍼를 제어하는 시연이 전시됐다. 현재 로봇은 정해진 알고리즘 기반으로 수행하거나 별도 제어가 필요한데 이를 음성 명령이 가능하도록 만들었다. 이외에도 ‘신규 임베디드 비전 및 오디오 기술’ 세션에서 현실 세계를 위한 초저정밀도 양자화 기술을 주제로 발표를 진행했다.

초저정밀도 양자화로 초소형 장치서 LLM 구동 현실화

에너자이의 기술이 주목받는 이유는 스마트폰같은 소형 장치에서 대형언어모델 활용 범위를 대폭 확장하는 방안이라서다. 지난 3월 엔비디아가 개최한 GTC 2026에서는 8GB 메모리를 갖춘 젯슨 오린 나노 시스템에서 2.5GB 메모리만 활용해 메타 Llama 3.1-8B 모델 구현에 성공했다.

엔비디아 젯슨 오린 나노에서 메타 Llama 3.1-8B 모델을 구현한 예시, 좌측이 4비트 양자화고 우측은 1.58비트 양자화 적용 결과다. 4비트 양자화로도 GPU 메모리가 5.2GB가 필요했는데 에너자이 기술을 통해 2.5GB까지 낮춘 게 핵심이다 / 출처=에너자이

Llama 3.1 8B는 FP16 표준으로는 16GB 메모리가 필요하고, INT8 최적화를 하더라도 8GB는 필요하다. 여기에 2비트 이하 양자화를 활용해 2.5GB 메모리만으로 모델을 구현한 게 핵심이다. 조금 더 비약적으로 해석하자면 엔비디아 GPU를 갖춘 게이밍 노트북에서도 4GB 이내 메모리로 온디바이스 AI를 구동할 수 있을 정도다. 해당 성과는 GTC서 ‘엣지 GPU 기반에서 1.58비트 양자화를 활용해 8B LLM을 구동하는 방안’을 주제로 발표가 이뤄졌다.

엣지 AI 샌디에고 2026는 어드밴텍 소프트웨어 개발 환경 및 시스템인 WEDA를 기반으로 LLM 컨테이너가 결합된 AI 에이전트를 구현했고, 퀄컴 헥사곤 NPU용 퀄컴 소프트웨어 도구(QNN)에서 마이크로소프트 1.58비트 양자화 연산을 위한 실행 명령어 세트를 직접 구현했다. 신경망 처리 장치는 칩 제조사가 제공하는 소프트웨어 환경에 의존하는데 에너자이가 퀄컴 소프트웨어 도구에서 범용 양자화 기술을 구현해냄으로써 다각적으로 활용할 길을 열었다. 이 역시 넓게 보자면 8GB 이상 하이엔드 스마트폰에서 인터넷 연결 없이 AI 모델이 구동될 수 있음을 뜻한다.

에너자이의 양자화 기술, 시험 단계 넘어 사업화 단계 진입

에너자이는 시냅틱스의 엣지AI 반도체와 관련해 기술적 협력 관계를 맺고 있다 / 출처=시냅틱스

AI 양자화 기술은 향후 AI 반도체 생태계의 성장 한계를 높일 기술로 2026년은 본격적인 사업화가 시작되는 해다. 에너자이와 초저정밀도 양자화 기술을 적용한 엣지 AI 모델 관련 협력을 맺은 시냅틱스는 최근 AI 컴파일러 분야로 협력 범위를 확대하는 계약을 맺었다. AI 컴파일러는 AI 모델이 특정 하드웨어에서 작동하도록 번역하는 기능을 수행한다.

시냅틱스는 자사 반도체를 위한 토크(Torq) 소프트웨어를 개발 중이며, 최근 구글 주도의 LLVM 프로젝트 일부로 구현된 MLIR 컴파일러 인프라, 실제 장치에서 실행 가능한 형태로 배포하는 IREE 연산기 일부를 오픈소스로 공개하는 등 생태계를 확장하고 있다. 이러한 맥락에서 시냅틱스는 에너자이와 함께 토크 컴파일러 및 런타임의 기능 고도화를 위한 협력을 시작했다. 본 협력은 에너자이가 자체 개발한 AI 컴파일러 옵티미엄과 프로그래밍 언어 나디아(Nadya)를 통해 입증된 기술력을 바탕으로, 호환성을 강화하고 오픈소스 엣지 AI 개발자 생태계의 성장을 촉진하는 것을 목표로 한다.

아울러 유럽 대기업과도 라이선스 계약을 체결을 앞두고 있으며, 국내에서도 방산, 자동차, 가전, 통신, 키오스크 등 다양한 엣지 AI 분야 기업들과 계약 협의를 진행 중이다.

엣지 AI 산업, 2026년은 확장성과 상용화의 원년 될 것

그간 엣지 AI 시장은 제한된 성능으로 인해 서버 환경에 종속된 부가적인 분야로 여겨졌다. 하지만 반도체 성능이 강화됨과 동시에 AI 양자화 기술 발전으로 엣지 AI 반도체에서도 수준급의 AI 모델 구현이 가능해지며 상황이 반전됐다. 포화상태에 이른 AI 데이터센터의 부하를 엣지 AI 장치로 분산시켜 신속성과 전력 효율, 안정성을 모두 끌어올리는 것에 대한 가능성이 열린 것이다. 특히 AI 모델 양자화는 작은 장치에서도 고성능 AI가 구현되도록 하는 핵심 기술이어서 앞으로도 AI 업계 전반의 주목도가 굉장히 높을 전망이다.

지난 3월 28일, 에너자이가 어드밴텍, 시냅틱스의 지원을 바탕으로 국내 엣지 AI 개발자들을 상대로 ‘AI on Edge - From bits to real world’ 세미나를 진행했다 / 출처=에너자이 — 지난 3월 28일, 에너자이가 어드밴텍, 시냅틱스의 지원을 바탕으로 국내 엣지 AI 개발자들을 상대로 ‘AI on Edge – From bits to real world’ 세미나를 진행했다 / 출처=에너자이

국내외에서도 관심이 뜨겁다. 에너자이가 지난 3월 말 개최한 AI 온 엣지 – 프롬 비츠 투 리얼 월드 세미나에서는 수십여 명의 국내 AI 엣지 기술 및 반도체 전문가들이 직접 참여해 AI 모델 양자화 기술 사례를 공유하고 논의한 바 있다. 게다가 세계적인 엣지 AI 협회인 엣지 AI 앤 비전 얼라이언스도 에너자이의 초저정밀도 양자화 기반 음성 및 언어 모델을 올해의 제품상으로 선정해 기술력을 인정했다. 수상 작품은 오는 5월 미국에서 열리는 임베디드 비전 서밋에서 선보이게 된다.

에너자이의 성공 여정은 기술력이 널리 인정받는다는 점을 넘어서 앞으로 AI 양자화 기술이 전 세계적으로 대두될 것임을 보여준다. 이미 글로벌 빅테크들은 몇 년전부터 기술 선점을 시작했고, 에너자이같은 스타트업의 기술도 굉장히 주목도가 높다는 점이 이를 증명한다. 반도체 시장이 2나노미터 이하로 진입하며 엣지 AI 의 성능도 비약적으로 발전하고 있고, 시장에서는 여기에 더 높은 성능의 AI를 심으려 한다. 아마도 올해를 시작으로 엣지 AI와 초저정밀도 양자화 기술이 상용화에 접어들 것으로 예상된다.

IT동아 남시현 기자 (sh@itdonga.com)

<구체적인 내용이나 첨부파일은 아래 [IT 동아] 사이트의 글에서 확인하시기 바랍니다.>

헤세드온

[IT 동아] ‘1.58비트의 마법’··· 에너자이, 초정밀도 양자화로 글로벌 엣지 AI 시장서 선전

스타트업부터 빅테크까지 모두 뛰어든 초저정밀도 양자화 기술

가장 미세한 단위에서 글로벌 광폭 행보 걷는 ‘에너자이’

초저정밀도 양자화로 초소형 장치서 LLM 구동 현실화

에너자이의 양자화 기술, 시험 단계 넘어 사업화 단계 진입

엣지 AI 산업, 2026년은 확장성과 상용화의 원년 될 것

About The Author

hesedon

스타트업부터 빅테크까지 모두 뛰어든 초저정밀도 양자화 기술

가장 미세한 단위에서 글로벌 광폭 행보 걷는 ‘에너자이’

초저정밀도 양자화로 초소형 장치서 LLM 구동 현실화

에너자이의 양자화 기술, 시험 단계 넘어 사업화 단계 진입

엣지 AI 산업, 2026년은 확장성과 상용화의 원년 될 것

Related Posts

About The Author

hesedon