정부는 신종 코로나바이러스 감염증(코로나19) 사태가 불러온 경제 위기를 극복하고 새로운 미래를 위해 지난해 7월 ‘한국판 뉴딜 종합 계획’을 발표했다. ‘디지털 뉴딜’과 ‘그린 뉴딜’을 두 축으로 오는 2025년까지 국비 114조 1,000억 원을 포함한 총사업비 160조 원을 투자해 일자리 190만 개를 창출할 계획이다.
한국판 뉴딜에서 ‘디지털 뉴딜’은 정보통신기술(ICT), 그중 D·N·A(데이터·네트워크·인공지능)로 집약되는 대표 기술을 기반으로 진행된다. 디지털 뉴딜의 가장 핵심은 데이터이며 원유와 같다. 나아가 데이터는 재생산이 가능해 활용하면 할수록 가치가 증대한다.
데이터의 활용성을 높이려면 용도에 맞는 가공이 필요하다. 가령 자율주행에 필요한 데이터는 기본적으로 도로 영상에서 물체를 정확하게 식별하도록 라벨링 작업을 해야 하고, 의사 결정을 도와주는 인공지능(AI)에 활용하는 데이터는 기계 학습이 용이하도록 만들어야 하며, 공장에서 디지털 제조에 활용하려면 기계 설비나 운전·검사 등 제조 공정에 필요한 데이터로 가공해야 하는 것이다.
산골짜기 계곡에서 흐르는 물이 시내와 하천을 이루고 강과 바다로 흘러가듯이 데이터도 어디에서든 발생 시점에서 데이터를 모으고 저장하고 활용할 수 있도록 경로와 방법을 전 주기 차원에서 설계하고 표준화해 효율성과 생산성을 높일 수 있다. 이렇듯 ‘디지털 뉴딜’의 핵심으로 ‘데이터 댐’이 중요한 것이다. ‘디지털 뉴딜’을 추진할 때 첨단 기술의 개발도 중요하지만 비즈니스에 적용하고 활용하기 위한 앱 개발, 가시화 소프트웨어, 사용자 환경(UI) 개발 등도 함께 병행해야 한다. 더불어 데이터 수집·가공 등 데이터 구축과 관련한 인력 양성도 중요하다.
데이터를 자동으로 수집하고 일정한 형태로 변환해 구축하는 기술이 이용되고 있으나 정확성이 요구되는 과학기술 분야에서는 전문 지식에 대한 질의 답변을 위한 정답 세트를 만들거나 특정 단어나 문장에 의미를 부여하는 작업 등을 자동화하는 것은 한계가 있다. 특히 AI 기반의 의사 결정에는 대규모의 고품질 기계 학습용 데이터가 필요하다. 기계 학습용 데이터를 구축하려면 전문적으로 숙련된 많은 인력이 필요하다. 소프트웨어 개발자, 인공지능 전문가들도 필요하지만 이와 함께 AI 데이터 라벨러 또는 데이터 어노테이터로 불리는 AI 데이터 구축 인력 양성을 통한 전문적인 인력 풀 확보도 필요하다. 누구나 기본 교육을 받으면 데이터 구축 업무에 참여할 수 있으나 실제 구축 업무의 숙련도를 높여 학습 데이터의 품질을 높이려면 일정 기간 참여 경험을 통해 능력을 향상시키는 것이 중요하다.
정부의 ‘디지털 뉴딜’ 사업의 일환으로 추진되고 있는 ‘AI 데이터 구축’ 사업은 방대한 데이터를 구축하는 것뿐만 아니라 일자리 창출과 함께 숙련된 데이터 라벨러를 양성하는 효과를 보고 있다. 코로나 상황에서 비대면으로도 참여할 수 있도록 함으로써 불필요한 이동과 접촉을 줄이는 것도 특징이다.
기계 학습 데이터 구축 사업에 참여하고 있거나 참여했던 사람들의 의견을 청취해보면 전반적인 만족도가 높은 편이었고 앞으로도 참여하고 싶다는 바람이 많았다. 또한 진로나 취업에 도움이 될 것으로 기대하고 있었고 향후 이 사업이 국가적으로 더 확대되기를 희망하고 있었다.
고품질의 AI 데이터 구축은 ‘디지털 뉴딜’ 사업의 성공적 열쇠가 될 것이다. 인공지능이 진화할 수 있도록 AI 데이터 구축이 대규모로 확대되고 지속돼 더 많은 고급 일자리가 창출되기를 기대한다.
최근 도서관 데이터베이스(DB), 교육 콘텐츠, 박물관·미술관 실감 콘텐츠 등을 연계하고 활용할 수 있는 디지털 집현전 사업의 지속 추진을 위해 법적 기반이 마련되고 있다. 이처럼 정부는 공공 분야에의 전문적인 청년 일자리 창출을 위해 지속적이고 생산적인 투자와 안정적인 조직, 꾸준한 관리 체계 등을 구축해야 한다. 여기에 정부 출연 연구원도 동참해 진정한 디지털 포용 사회 구현을 앞당겨야 한다.