산업 IT

'생활속 디지털 자료 집적체' 빅데이터서 '가치' 찾아내라

미래 예측하는 빅데이터의 원리·응용 분야는

사람 행위는 반복·누적적

데이터 보면 미래도 보여

의료·마케팅 등 쓰임새 무한

댓글·온라인 영상·GPS 등

비정형 데이터가 80%

텍스트마이닝·군집분석 등

전문 인력 확보 중요해져





빅데이터는 생활 속에서 끊임없이 생성되는 디지털 자료의 집합체로 실시간으로 만들어지고 있는 정형·비정형 정보를 모아 의미 있는 결과를 도출하는 데 사용된다. /사진=서울경제DB빅데이터는 생활 속에서 끊임없이 생성되는 디지털 자료의 집합체로 실시간으로 만들어지고 있는 정형·비정형 정보를 모아 의미 있는 결과를 도출하는 데 사용된다. /사진=서울경제DB


1분 동안 인터넷에서 나오는 데이터 양/사진제공=kt경제경영연구소1분 동안 인터넷에서 나오는 데이터 양/사진제공=kt경제경영연구소



◇데이터 종류

정형 데이터 매출, 영수증, 신문 기사, 방송, 책, 정부 발표 등 모습을 갖춘 데이터
비정형 데이터 인터넷 댓글, GPS 위치, 블로그, 온라인상 사진동영상 등 일반인이들이 실시간으로 만드는 데이터


신산업으로 대변되는 4차 산업혁명을 뒷받침하는 빅데이터의 과학적 원리와 응용 분야에 대한 관심이 커지고 있다. 빅데이터는 스마트팩토리 구현의 필수품이며 생로병사를 다루는 의료산업과도 직결된다. 전자상거래를 비롯한 마케팅 활동, 기업의 위험관리, 탈세 등의 부정행위 방지 등 쓰임새가 무궁무진하다. 구글의 자동번역 시스템, IBM의 슈퍼컴퓨터 ‘왓슨’, 아마존의 도서추천 시스템 등도 빅데이터 없이는 이뤄질 수 없다.

실례로 특허가 많은 A사는 과거 사내정보를 유출한 여러 사례를 분석해 유출자들의 행동 패턴을 찾아냈다. 이들은 업무와 관련 없는 회사 파일을 자주 내려받고 구직 사이트를 자주 방문하는 버릇이 있었다. 외부 업체와도 e메일을 자주 주고받았다. 유출자의 이런 특성을 알아내자 사전에 비밀유출 우려가 있는 임직원을 가려내고 유출된 후에도 대처할 수 있게 됐다. IBM 왓슨의 경우도 보건의료와 관련된 빅데이터인 ‘스마트헬스 데이터’를 분석, 보건의료·생명공학·정보기술을 융합한 뒤 발병과 DNA 등의 정보를 수집해 맞춤형 서비스를 하고 있다. 스마트팩토리의 경우 공장에 있는 여러 장비에 센서를 부착하고 이를 디지털로 연결해 여기서 생성되는 빅데이터를 분석하면 품질과 생산성을 높일 수 있다.


소비자 입장에서도 일본 도쿄에 거주하는 K씨는 생활용품 등을 판매하는 ‘무인양품’ 가게에 들어서면 스마트폰으로 그날 적용되는 할인쿠폰을 받는다. 트레저데이터라는 데이터 회사에서 고객의 취향과 방문 지점의 재고량, 매출 규모 등을 데이터로 분석해 맞춤형 쿠폰을 제공하는 것이다. 트레저데이터코리아의 고영혁 수석 데이터아키텍처어드바이저는 “무인양품은 빅데이터를 통해 진정한 O2O(Online to Offline) 서비스를 실현하고 있다”고 전했다.

관련기사



‘알파고’로 관심이 부쩍 커진 인공지능(AI)도 빅데이터가 축적돼야 가능하다. 로봇이나 드론, 자율주행차, 사물인터넷(IoT) 등의 기저에도 빅데이터가 있다. 미래창조과학부가 빅데이터 등 신산업 활성화를 위해 개인정보 관련 규제완화에 나서는 것도 이 때문이다.

빅데이터는 아날로그 세상의 모든 것을 0과 1의 이진법을 사용한 디지털 정보로 변환해 보관하고 이를 컴퓨터로 빠르게 분석해 이뤄진다. 분석 결과는 기업 마케팅을 비롯해 미래 예측, AI, 비용절감 등 다양한 분야에 적용되며 우리의 일상과 산업현장을 변화시키고 있다. 김성태 고려대 미디어학부 교수는 “사람의 행위나 인류의 역사는 반복적이면서도 누적적”이라며 “과거와 현재의 모든 이용 가능한 데이터를 잘 분석하면 미래를 예측할 수 있다”고 설명했다.

IBM에 따르면 하루에 쏟아지는 데이터만도 250경바이트 이상이다. 600MB 영화 39억편 분량의 자료가 매일 만들어지고 있는 셈이다. 인터넷·모바일이 폭발적으로 성장하며 지금까지 인류가 쌓은 데이터의 90%가 최근 2년간 발생했다고 한다.

빅데이터는 공식 자료나 고객의 사용내역 등 정형화된 데이터가 20%에 불과한 반면 인터넷 댓글이나 UCC 동영상, GPS 위치 데이터, 블로그, 온라인상의 사진·동영상 등 비정형 데이터가 대부분을 차지한다. 이런 비정형화된 정보를 모아 가치를 찾아내야 하는 것이다. 김기사나 T맵 등 스마트폰 내비게이션, 과거 데이터 기반 범죄예방 시스템, 소비 패턴 분석을 통한 상품추천 서비스 등이 이를 활용한 대표적인 사례다.

빅데이터에서 의미 있는 자료를 만들어내려면 분석기술과 전문인력이 필요하다. 봇물 터지듯 쏟아지는 데이터도 서점처럼 목적에 맞게 분류해 여러 산업과 과학기술에 활용된다. 예컨대 맛집 평가를 빅데이터를 활용해 분석한다면 블로그나 댓글, 각종 소셜네트워크서비스(SNS) 등에서 무작위로 수집한 정보를 ‘맛있다’ ’별로다’ ‘또 오고 싶다’ ‘맛집’ 등의 키워드로 분류하는 식이다. ‘매우’ ‘정말’ ‘아주’ 등 감성 관련 단어를 통해 긍정·부정 정도의 판단도 내릴 수 있다.

빅데이터 분석기술은 자연어 처리기술에 기반을 둔 ‘텍스트마이닝’, 선호도를 판별하는 ‘오피니언마이닝’, 소셜네트워크를 활용하는 ‘소셜네트워크 분석’, 유사한 특성을 가진 군집을 발굴하는 ‘군집분석’ 등이 있다. 매일 생산되는 엄청난 규모의 데이터는 컴퓨터에 의해 가공·처리·분석돼 학습된다. 이를 통해 컴퓨터는 마치 사람처럼 스스로 생각하고 사물들과 연결돼 IoT를 중심으로 인간의 개입 없이 판단할 수 있게 된다.

서병조 한국정보화진흥원장은 “ AI가 빅데이터와 클라우드 산업 발전으로 현실화되고 있다”며 “민간 데이터뿐 아니라 공공 데이터 정보까지 활용해 시너지를 내야 한다”고 말했다. 리서치 업체인 트렌드스펙트럼의 박정배 연구원은 “빅데이터는 사용자의 맥락(context)을 파악해 미래 행동 패턴이나 해결책을 제시할 수 있어야 한다”며 “사람에 대한 관심이 높을수록 더 정확한 정보를 확보할 수 있다”고 말했다. /권용민·김지영기자 minizzang@sedaily.com

권용민 기자
<저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지>




더보기
더보기





top버튼
팝업창 닫기
글자크기 설정
팝업창 닫기
공유하기