AI 모델 성능 향상이 둔화되면서, AI 개발의 패러다임이 기존 '모델 중심 AI(Model-Centric AI)'에서 '데이터 중심 AI(Data-Centric AI)'로 이동하고 있다. 더 나은 모델보다 더 나은 데이터가 생성형 AI의 성능을 결정짓는 핵심 요소로 부상한 것이다.
해외 주요 빅테크 기업들이 다양한 데이터 소스를 효율적으로 수집·정제·전달하는 '데이터 파이프라인' 기술을 고도화하며 AI 경쟁력 강화에 나서는 가운데, 한국형 통합 데이터 생태계 구축이 필요하다는 목소리가 나왔다.
4일 정보통신기획평가원(IITP)이 최근 발간한 'AI·ICT 브리프 2025-26호' 보고서에 따르면, 업계는 고정된 데이터로 모델 성능을 최적화하는 기존 '모델 중심 AI'의 한계를 자각하고, 데이터셋의 품질과 처리 방식을 체계적으로 개선하는 '데이터 중심 AI'로 개발 전략을 전환하고 있다.
오픈AI, 구글, 마이크로소프트 등 빅테크 기업들은 단순한 데이터셋 보유를 넘어, 수집부터 정제·학습·검증·피드백까지 전 과정을 자동화하는 '통합 데이터 파이프라인'을 AI 사업의 핵심 차별화 전략으로 삼고 있다.
보고서에 의하면, 글로벌 데이터 파이프라인 시장은 올해 136억8000만달러(약 18조9331억원)에서 오는 2028년 296억3000만달러(약 41조79억원) 규모로 성장할 전망이다. 데이터 파이프라인은 다양한 데이터 소스의 '로 데이터(Raw Data·가공 전 자료)'를 수집·변환·적재해 분석 가능한 형태로 지속 전달하는 자동화된 워크플로우 체계를 의미한다.
전체 데이터의 약 90%를 차지하는 이미지, 음성, 영상, 문서 등 비정형 데이터를 AI가 활용 가능한 구조로 전환하는 데이터 파이프라인 구축은 이제 선택이 아닌 필수 요소로 자리 잡았다고 IITP는 설명했다.
보고서는 데이터 파이프라인 기술이 ▲실시간 처리 ▲완전 자동화 ▲시스템 통합 및 호환 ▲크라우드 소싱에서 전문가 검증으로 고도화되고 있다고 분석했다.
정해진 시간에 일괄 처리하던 방식이 실시간 스트리밍 처리로 진화했고, 모든 과정이 AI 알고리즘에 의해 자동 실행되며 오류 감지·수정까지 스스로 수행하는 지능형 시스템으로 발전했다.
또 과거에는 각각의 툴을 따로 운영했다면, 이제는 수집·분석·AI 적용까지 하나의 통합 플랫폼에서 중앙 관리되며, 일반 대중을 활용한 단순 작업도 고학력 전문가와 AI의 정밀 검증 체계로 대체돼 고품질 데이터 확보가 가능해졌다.
보고서는 "해외에서는 실시간 데이터 처리와 통합 플랫폼으로 빠르게 전환하고 있지만, 국내는 여전히 각 기관이 독립적으로 구형 시스템을 운영해 실시간 데이터 활용에 뒤처지는 상황"이라며 "글로벌 기업들이 통합 시스템으로 효율성을 크게 향상시키는 반면, 국내는 기관별 다른 데이터 형식과 연결 방식을 사용해 시스템 간 데이터 공유와 통합에 어려움을 겪고 있다"고 지적했다.
이어 "각 기관이 자체 데이터를 관리하되, 표준화된 방식으로 서로 연결하는 '연합형 데이터 관리 체계' 마련을 통해 데이터 공유와 활용 효율성을 제고해야 한다"며 "산업 현장 수요를 바탕으로 데이터 수집부터 AI 서비스 개발까지 연결하는 실용적인 데이터 파이프라인 구축으로 실시간 처리 역량 격차를 단계적으로 해소할 필요가 있다"고 제언했다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성