![[전자신문] 데이터산업진흥원, '독자 AI 파운데이션 모델' 학습데이터 품질 검증 착수 1 [사진= 한국데이터산업진흥원 제공]](https://img.etnews.com/news/article/2025/08/18/news-p.v1.20250818.f1d2a01af674471c874782527e697deb_P1.png)
18일 진흥원은 독자 AI 파운데이션 모델 프로젝트를 통해 AI 모델을 개발하는 사업수행기관에 제공되는 공동구매 데이터가 구성·품질 기준을 충족하는지 검증하는 절차에 착수했다.
앞서 정부는 이달 4일 네이버클라우드, 업스테이지, SK텔레콤, NC AI(엔씨에이아이), LG AI연구원 등 5개 컨소시엄을 독자 AI 파운데이션 모델 프로젝트 사업수행기관으로 선정한 바 있다.
데이터 품질 검증 대상은 2025년부터 2027년까지 매년 100억원 규모 예산으로 구매하는 데이터다. 데이터는 사전에 모집한 공급기관 풀에 등록된 후보 데이터 중에서 사업수행기관 수요를 반영해 최종 선정한다.
검증 범위에는 데이터 종류·형식·구조·규모 등 구성 요소와 완전성, 정확성, 유효성, 일관성, 안전성, 유해성 등 품질 지표가 포함된다. 원천저작물 포함 여부, 개인정보 처리 적정성, 중복·유사도, 차별·혐오 표현 여부도 점검한다. 절차는 기획·환경 구축·기준 수립·검증 수행·보완 요청 및 재검증·결과보고서 작성 순으로 진행된다.
진흥원이 이 사업을 추진하는 것은 고품질 데이터 확보가 곧 AI 모델 경쟁력으로 직결되기 때문이다. 데이터 품질이 낮으면 학습 결과가 왜곡되거나 신뢰성이 떨어져 산업 현장에서 활용도가 제한된다.
반대로 체계적인 검증을 거친 데이터는 학습 효율과 성능을 높이고, 개발 기간을 단축한다. 향후 서비스 품질 향상에도 이바지할 수 있다.
이를 통해 국가 차원의 데이터 품질 관리 표준을 정립하고 AI 개발 환경 전반의 신뢰성을 높일 수 있다.
정부는 독자 AI 파운데이션 모델 프로젝트를 AI 강국 도약의 핵심 기반으로 보고, 고품질 데이터 공급 체계와 검증 시스템을 함께 구축해서 세계적으로 경쟁력을 갖춘 AI 생태계를 완성한다는 계획이다.
진흥원은 학습데이터 품질 검증을 통해 AI 개발 현장에서 즉시 활용할 수 있는 데이터 품질 관리 체계를 마련하고, 한국형 AI 모델 개발 완성도를 높이는데 이바지할 방침이다.
류태웅 기자 bigheroryu@etnews.com