회원가입을 하면 원하는 문장을
저장할 수 있어요!
다음
AWS 이용 중이라면 최대 700만 원 지원받으세요
국내 IT 기업은 한국을 넘어 세계를 무대로 할 정도로 뛰어난 기술과 아이디어를 자랑합니다. 이들은 기업 블로그를 통해 이러한 정보를 공개하고 있습니다. 요즘IT는 각 기업의 특색 있고 유익한 콘텐츠를 소개하는 시리즈를 준비했습니다. 이들은 어떻게 사고하고, 어떤 방식으로 일하고 있을까요?
회원가입을 하면 원하는 문장을
저장할 수 있어요!
다음
회원가입을 하면
성장에 도움이 되는 콘텐츠를
스크랩할 수 있어요!
확인
국내 IT 기업은 한국을 넘어 세계를 무대로 할 정도로 뛰어난 기술과 아이디어를 자랑합니다. 이들은 기업 블로그를 통해 이러한 정보를 공개하고 있습니다. 요즘IT는 각 기업의 특색 있고 유익한 콘텐츠를 소개하는 시리즈를 준비했습니다. 이들은 어떻게 사고하고, 어떤 방식으로 일하고 있을까요?
이번 글에서는 커뮤니티 기반 교육 플랫폼 기업 모두의연구소가 빅데이터 개념과 활용 사례를 소개합니다.
“빅데이터”라는 단어가 주는 직관적인 느낌은 “아주아주 많고 방대한 데이터”라고 느껴집니다. “Why? 이런 단어로 표현했을까?” 하는 궁금증이 생깁니다. 구글 검색 엔진을 통해 “빅데이터” 검색을 해보면 아래와 같이 나열할 수 있을 것 같습니다.
데이터 베이스 등 기존의 데이터 처리 응용 소프트웨어(data-processing application software)로는 수집 · 저장 · 분석 · 처리하기 어려울 정도로 방대한 양의 데이터를 의미
대용량 데이터를 활용, 분석하여 가치 있는 정보를 추출하고, 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술
기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합
기존 시스템의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 데이터셋(Dataset, 1개 단위로 취급하는 데이터의 집합) 규모로 빅데이터의 분량 기준은 산업 분야에 따라 상대적이며 앞으로도 계속 변화될 것
위와 같이 빅데이터는 바라보는 관점에 따라 다양하게 정의되고 있습니다. “빅데이터” 단어에서 떠오르는 직관적인 의미보다 상당히 다양한 정의를 담고 있는 단어라고 생각됩니다.
위 내용들을 바탕으로 정리해 보면,
“기존의 데이터베이스 관리 도구, 관리 시스템의 능력을 넘어 대량의 정형, 비정형 데이터 세트, 이를 포함한 데이터로부터 분석하여 의미 있는 가치를 추출하고 결과를 분석하는 기술”이라고 정리할 수 있습니다.
의미를 파악하기 힘든 비정형 데이터가 빅데이터를 더욱 활발하게 연구하는데 한몫을 하게 되는데요, 그동안은 의미를 분석하기 힘들었던 대용량의 비정형 데이터를 분석함으로써 새로운 인사이트(Insight)를 얻게 되기 때문이었습니다.
데이터 양이 얼마 정도의 크기(용량)부터 빅데이터라고 부를 수 있을까요? 일반적인 핸드폰에서 찍은 사진의 크기가 3MB(메가바이트) 정도라고 가정하다면, 1,000장의 사진은 3,000MB, 즉 3GB(기가바이트) 정도가 됩니다. 이 정도면 빅데이터라고 할 수 있을까요?
“내가 바로 빅데이터야!!”라고 말할 수 있을 정도의 크기는 수십 TB(테라바이트)에서 PB(페타바이트)는 되어야 한다고 합니다. 어느 정도의 크기인지 감이 잘 안 오시지요? 1PB는 100GB 용량의 핸드폰이 10,000대 분량이라고 하면 이해하시는데 도움이 될 듯합니다. 이렇게 일반적으로 생각할 수 없는 정도의 크기가 빅데이터라고 생각하면 되겠습니다.
1990년 이후 인터넷이 전 세계로 확장되면서 정형/비정형 데이터들이 방대한 양으로 발생하면서 “정보 홍수” , “정보화 시대”라는 개념들이 등장하였고, 2007년 스마트폰의 탄생이 영향을 미쳤습니다. 특히 모바일의 확산은 많은 정보를 만들게 해 줬고 빅데이터 개념을 좀 더 빠르게 발전시켰습니다.
아울러 컴퓨터 성능의 증대, 데이터 저장장치의 비용 감소는 빅데이터 발전을 앞당겼습니다. 메모리 저장 비용의 하락, 정보를 저장하고 관리하는 클라우팅 컴퓨팅 기술의 확산, 데이터를 쉽고 싸게 이용할 수 있는 분산파일시스템의 개발 등도 큰 요인이 되었습니다.
위와 같이 기존 데이터베이스 저장, 관리, 분석, 처리에 Software, Hardware 적인 한계가 있어 테라(Tera) 단위의 데이터 세트들을 위한 패러다임도 변화하게 되었습니다. (아래 그림 참조)
오늘날의 데이터는 자산, 자본, 돈이라고 말합니다. 어떤 이는 경쟁력을 좌우할 21세기 원유라고도 합니다. 원유는 정제 과정을 거쳐 석유나 휘발유가 되기도 하지만 플라스틱, 의약품 원료, 섬유류로도 재탄생합니다. 이처럼 데이터는 여러 분석 과정을 거치면서 전혀 의도하지 않았던 정보도 만들어주기에 원유에 비유된다고 합니다.
이처럼 빅데이터는 좀 더 편리한 생활을 누리는데 도움을 주고 있습니다.
빅데이터는 정치, 사회, 경제, 과학 기술 등 전 영역에 걸쳐 사회와 인류에게 가치 있는 정보를 제공할 가능성을 제시하며 그 중요성이 주목받고 있습니다. 하지만 빅데이터의 문제점은 바로 사생활 침해와 보안 측면에 자리하고 있습니다. 빅데이터는 수많은 개인 정보의 집합입니다. 그렇기에 빅데이터를 수집, 분석할 때 개인들의 사적인 정보까지 수집하여 관리하는 모습이 될 수도 있습니다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람의 정보가 유출되는 것이기에 큰 문제가 될 수 있습니다.
현명한 ‘빅데이터’와 사생활을 침해하는 ‘빅브라더’는 동전의 양면입니다. 빅데이터의 성공적인 활용은 개인정보침해에 대한 대책이 얼마나 잘 수립되어 있는가에 달려있다고 해도 과언이 아닙니다. 빅데이터 시대를 맞이하여 새로운 사업기회를 포착함과 동시에 정보보안리스크에 대한 대책마련에도 힘써야 할 것입니다.
3V : 규모(Volume), 다양성(Variety), 속도(Velocity)
5V : 규모(Volume), 다양성(Variety), 속도(Velocity), 정확성(Veracity), 가치(Value)
정보를 담고 있고, 새롭고 가치 있는 의미를 담은 정보를 재가공할 수 있어 4차 산업혁명의 대표 기술로 등장합니다.
근대사에서는 제한된 양의 데이터라도 가장 어려운 도전과제에 대한 해결책을 찾아내는 통찰력을 제공하는데 기여했습니다. 비석이나 파피루스 두루마리, 계몽책자, 인쇄물 등에 기록되었는지에 관계없이 데이터와 데이터의 보편성 및 중요성은 경제 성장 및 인류 발전의 주요 원동력이었습니다. 21세기에는 이러한 과정이 급속하게 가속화되고 있습니다. 데이터의 양은 더 많아지지만 데이터 저장 비용이 급감하면서 데이터 과학자들은 새로운 기술로 개발된 첨단 도구로 무장하여 다량의 데이터에서 중요한 통찰력을 얻고 있습니다. 데이터를 처리하는 기술이 점점 다양화되면서 그러한 기술의 영향도 더욱 커지고 있고 기회도 더 많아지고 있습니다.
갈수록 증가하고 있는 온라인 쇼핑몰 사기수법을 분석 및 예방하기 위해 딥러닝(Deep learning)을 도입했습니다.
딥러닝은 머신러닝(Machine learning)이나 인공지능(Artificial Intelligence)에 대한 또 다른 접근 방법입니다. 구글, 페이스북, 마이크로소프트 등 꾸준히 연구하고 있는 분야이기도 합니다.
페이팔은 사기방지 전문가와 함께 ‘탐정이 하는 것과 같은 방법론(Detectivelike Methodology)’을 적용할 수 있게 했습니다. 이로 인해 페이팔은 전 세계에서 이뤄지고 있는 온라인 결제에서 발견된 수만 개의 잠재적 특징을 분석해 특정 사기유형과 비교하거나 사기방식을 탐지하고 다양한 유사수법을 파악할 수 있게 됐습니다.
MLB(Major League Baseball)는 1950년대까지만 해도 가장 인기 있는 스포츠였습니다. 하지만 TV의 등장 이후 NFL(National Football League)의 등장으로 시청률, 스폰서쉽, 구단용품 판매 등에서 NFL에 시장을 빼앗겼으며, 야구팬의 고령화와 시청자수 감소로 대책 마련이 필요했습니다.
MLB는 2015년부터 투구, 타구, 선수들의 움직임을 모두 포착하는 스탯캐스트(Statcast) 시스템을 30개 구장 모두에 설치하고 공의 궤적을 추적할 수 있는 레이더 장비업체인 트랙맨(Trackman)과 영상 장비 업체 카이론 히고(ChyronHego)와 협력했습니다.
트랙맨(Trackman)에서 들여온 도플러 효과를 이용한 레이더 카메라로 공의 궤적을 분석하고, 카이론히고(ChyronHego)의 카메라는 모든 선수들을 1초당 30개의 사진으로 찍어 움직임을 추적하고 분석할 수 있었습니다. 도플러 효과란 레이더 카메라가 전파를 발송하면 날아오는 공으로 인해 반사전파의 진동수가 증가하는데, 진동수 변화로 속도와 궤적을 측정하는 것을 말합니다.
MLB는 이 스탯캐스트 시스템을 통해 모든 경기 이닝마다 투수의 피칭, 타자의 배팅, 타구에 대한 수비수들의 움직임 등을 추적하고 기록했습니다. 축적된 기록은 세밀한 통계 분석을 가능하게 해 야구의 흥미를 배가시켰고, 그 흐름은 과학적 통계로 야구를 분석해 의미 있는 인사이트를 찾아내는 것에 초점을 맞출 수 있게 됐습니다. 투구 분석뿐만 아니라 타구와 선수의 움직임을 모두 처리한 데이터양은 경기당 3 TB ~ 7 TB에 이른다고 합니다.
스탯캐스트 시스템은 투구의 속도와 궤적, 공의 회전 방향부터 투수의 보폭과 자세를 보고 타자가 예측하는 속도와 어떻게 다른 지까지 분석할 수 있습니다.
MLB의 빅데이터 도입은 데이터 분석을 통해 고객 만족 실현에 있었으며, 이외에 다양한 채널을 통한 야구 중계, 게임, 마케팅, 스포츠 교육 등 다양한 분야에 활용할 수 있음을 보여주고 있습니다.
SW 및 데이터 분석 기업으로 전환을 선언한 GE는 자사에서 생산 중인 비행기 엔진 (Genx)에 센서를 부착했습니다. 그리고 이 센서로부터 수집된 빅데이터를 자사의 클라우드 인공지능 플랫폼인 ‘프리딕스(Predi x)’에서 분석합니다. 이를 통해 실시간 엔진상태 점검, 정비 시기 알림 제공, 비행경로 관리, 비행시간 단축 및 연료절감 등 항공기 유지보수 비용 감소와 안전보장 서비스를 고객(항공사 등)에게 제공하고 있습니다.
빅데이터를 활용해 새로운 비즈니스 아이템을 발굴하는 대표 분야로 금융권을 들 수 있습니다. 국내 은행 및 카드사들은 빅데이터 분석을 통해 고객의 연령, 성별대 별로 라이프 스타일을 파악하고 각각의 관심사에 맞는 금융상품을 설계해 출시하고 있습니다. 보험사들도 마찬가지입니다. 그간의 보험 사례 빅데이터를 분석해 임산부나 어린 자녀를 둔 부모가 사고를 적게 낸다는 사실을 발견하고 관련 상품개발에 응용했습니다.
이처럼 다양한 분야에서 고객의 니즈에 맞는 상품을 개발, 보완, 출시하기 위해 빅데이터를 수집, 활용, 분석하여 가치 있는 의미를 추출하여 능동적으로 대응하고 있습니다.
<참고 자료>
<원문>
빅데이터(Big Data) – 빅데이터, 정의, 특징, 활용 사례
요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.