인공지능(AI) 기술 경쟁력이 모델 성능이 아닌 데이터 품질로 갈리는 흐름이 본격화되고 있다. AI 기술 패러다임이 모델 경쟁을 넘어 데이터 중심으로 이동한 것.
25일 정보통신기획평가원(IITP)이 발표한 '주간기술동향(2198호)' 보고서에 따르면, 최근 AI 분야에서 모델 복잡성보다 데이터 품질 및 관리가 성능을 결정하는 핵심 요인으로 주목받고 있다. 전통적인 모델 중심 접근법이 한계에 다다르며, 데이터 개선을 통해 성능을 높이는 방향으로 프레임워크가 변화하기 시작한 것이다.
전체 업무 프로세스 중 80%의 시간이 데이터 정리에 소요되는 현실에서, 수동 데이터 관리는 비용과 속도 면에서 비효율적이다. 이에 대한 해법으로 보고서는 데이터 수집부터 정제·저장·가공·모니터링 전 과정을 자동화하는 '데이터 파이프라인' 구축을 제시했다.
자동화된 데이터 관리 체계는 비용, 속도, 재현성 측면에서 강력한 이점을 제공한다. 수동 데이터 파이프라인은 인적 오류에 취약하고 반복 작업이 많아 효율이 떨어진다. 반면 자동화된 데이터 관리 체계는 도입 초기 투자 비용이 발생할 수 있지만, 장기적으로는 총소유비용(TCO)을 낮추고 생산성을 끌어올리는 효과가 있다. 금융권에서는 데이터 파이프라인 자동화를 통해 사기 탐지와 같이 실시간 데이터 처리가 필요한 영역에서 비즈니스 가치를 창출하는 중이라고 보고서는 설명했다.
또 자동화된 데이터 관리 체계는 동일한 입력에 대해 같은 결과를 보장하는 재현성을 확보해 시스템 신뢰도를 높인다. 개인정보 보호 규정(GDPR) 준수를 위한 암호화·가명화, '프라이버시-바이-디자인(프라이버시 설계 원칙)' 적용으로 데이터 유출 위험도 최소화한다.
최근에는 자율적인 의사결정을 수행하는 에이전틱 AI가 등장하면서, 데이터 파이프라인 자체가 스스로 오류를 감지하고 복구하는 셀프 힐링 능력을 갖춘 형태로 진화하고 있다.
박재휘 서울시립대학교 부교수는 보고서에서 "데이터 중심 AI로의 전환은 단순히 학습 효율 향상을 넘어 산업, 사회 전반에서 신뢰성과 확장성을 갖춘 AI 구현을 가능하게 한다"며 "특히 자동화된 데이터 관리 체계는 보안·프라이버시·재현성 확보와 같은 새로운 요구에 대응할 수 있는 기반이 된다"고 강조했다.
이어 "자동화된 데이터 관리 체계, 데이터 파이프라인을 구축해 일정하고 신뢰할 수 있는 데이터를 지속적으로 공급받을 수 있다면, 데이터 전문가나 개발자가 모델 성능을 안정적으로 끌어올리는 데에 시간을 투자할 수 있을 것"이라며 "성공적인 AI 연구를 위해서는 모델 설계와 알고리즘 못지않게 양질의 데이터를 생산·공급하는 데이터 파이프라인에 대한 체계적인 투자와 노력이 필수적이다"고 제언했다.
Copyright ⓒ 메트로신문 & metroseoul.co.kr
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성