인공지능(AI) 학습에 활용할 수 있는 데이터가 점차 고갈되면서 '데이터 파운드리'가 AI 경쟁력의 핵심 동력으로 떠오르고 있다.
8일 IT 업계에 따르면 현재의 데이터 소비 속도로 오는 2028년이면 인터넷에서 활용 가능한 텍스트 데이터가 대부분 소진돼 AI 발전이 정체기에 접어들 것으로 전망된다.
AI 대전환 흐름 속에서 기존 자연어 처리 인공지능 모델은 GPT-3 이후 라마 3, 팔콘-180B 등과 같은 초거대 언어 모델로 진화했고, 챗GPT·클로드 등 대화형 AI의 확산과 텍스트·이미지·음성을 통합 처리하는 멀티모달 AI 등장으로 학습에 필요한 데이터 수요가 기하급수적으로 증가했다.
문제는 이러한 수요에 비해 고품질 데이터 공급은 턱없이 부족하다는 점이다. 정보통신기획평가원(IITP)은 최근 발표한 'AI·ICT 브리프(2025-19호)' 보고서에서 AI 학습에 활용되는 기존 데이터의 중복성, 편향성, 노이즈 등 구조적인 문제가 드러났다고 진단했다.
보고서는 ▲인터넷에서 수집한 데이터의 대규모 중복 문제로 AI 학습의 비효율성 심화, 새로운 지식 습득보다는 반복 학습이 증가하는 악순환 ▲웹페이지에서 추출한 텍스트에 각종 불필요한 요소가 섞여들어가 AI가 학습해야 할 콘텐츠 품질 저하 ▲특정 언어와 문화권에 치우친 데이터 분포로 인해 AI의 글로벌 활용성 제한 및 다양성 결여를 문제점으로 지적했다.
IITP는 데이터 기근으로 인해 데이터 전문 공급 체계인 '데이터 파운드리'가 AI 시대 기업의 경쟁력을 결정짓는 중요 인프라로 주목받고 있다고 설명했다.
데이터 파운드리는 반도체 파운드리 모델을 벤치마킹한 것으로, 단순 데이터 저장소를 넘어 수집·정제·라벨링·관리·품질보증까지 전 과정을 전문적으로 수행하는 종합 데이터 처리 서비스다.
보고서는 "AI 모델의 성능은 알고리즘보다 데이터 품질에 더 크게 좌우된다는 것이 업계 정설로 자리잡으면서 체계적인 데이터 파운드리 구축·활용이 AI 시대 기업 경쟁력의 핵심 요소로 부상했다"며 "온전한 데이터 파운드리의 형태를 갖추기 위해서는 데이터의 수집·통합, 전처리·정제, 라벨링·주석, 저장·관리, 품질 관리·거버넌스 확보가 필요하다"고 밝혔다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성