요즘IT
위시켓
최근 검색어
전체 삭제
최근 검색어가 없습니다.

데이터 시각화라는 말을 들어본 적이 있나요? 데이터의 양이 늘어나고 복잡해질 수록 데이터를 좀 더 쉽게 이해하고 인사이트를 발견하는 것의 필요성이 높아지고 있는데요. 데이터 시각화란 말 그대로 데이터에서 발견한 정보를 시각적으로 이해할 수 있도록 그래픽 형태로 표현한 것을 말합니다.

회원가입을 하면 원하는 문장을
저장할 수 있어요!

다음

회원가입을 하면
성장에 도움이 되는 콘텐츠를
스크랩할 수 있어요!

확인

디자인

데이터 시각화 101: ① 데이터 시각화는 왜 중요할까?

년차,
어떤 스킬
,
어떤 직무
독자들이 봤을까요?
어떤 독자들이 봤는지 궁금하다면?
로그인

 

데이터 시각화라는 말을 들어본 적이 있나요? 데이터의 양이 늘어나고 복잡해질 수록 데이터를 좀 더 쉽게 이해하고 인사이트를 발견하는 것의 필요성이 높아지고 있는데요. 데이터 시각화란 말 그대로 데이터에서 발견한 정보를 시각적으로 이해할 수 있도록 그래픽 형태로 표현한 것을 말합니다.

 

그렇다면 데이터 시각화는 우리에게 어떤 역할을 하고 있으며, 어떻게 이를 잘 활용할 수 있을까요? ‘데이터 시각화 101’ 시리즈를 통해 이러한 질문들에 대한 답을 구해보려고 합니다. 먼저 이번 글에서는 우리의 일상 가까이에 있는 여러 데이터 시각화를 살펴보고, 시각화의 중요성에 대해 다뤄보겠습니다.

 

우리 주변의 데이터 시각화

저는 하루에도 몇 번씩 네이버 지도를 사용합니다. 한 번은 종각역에서 인천공항까지 지하철로 이동하는 경로를 찾아보았습니다. 검색 결과가 아래와 같이 보여집니다. 오른쪽 패널에는 출발점과 도착점이 보이고 이를 잇는 경로가 지도 위에 표시됩니다. 가장 빠른 경로는 2호선을 타서 공항철도로 갈아타는 것인데, 약 1시간 25분의 시간이 걸리네요. 저는 이런 정보들을 어떻게 파악할 수 있었던 것일까요? 바로 교통 정보가 시각요소로 매핑(어떤 값을 다른 값에 대응시키는 과정)되었기 때문입니다.

 

대중교통 데이터시각화
출발점과 도착점을 잇는 경로 <출처: 네이버 지도>

 

그럼 교통 정보, 즉 데이터가 어떻게 시각요소로 매핑되었는지 살펴봅시다.

  • 노선 정보: 2호선은 초록색, 1호선은 남색, 공항철도는 하늘색 등 각 노선을 색으로 구별.
  • 총 소요 시간: 왼쪽 패널에 총 소요시간이 짧은 경로부터 순서대로 나열되어 있음.
  • 경로별 소요 시간: 총 소요 시간이 바(Bar) 전체 길이로 되어있고, 각 노선 별 소요 시간이 이에 비례해서 해당하는 색으로 표현됨.
  • 경로의 위치정보: 오른쪽 패널에서 출발점, 도착점 및 각 노선 경로의 지도상 위치를 보여줌.

 

이 외에도 도착시간, 금액, 노선 출발 시간 등 다양한 정보가 포함되어 있습니다. 이렇게 정보들이 시각요소로 매핑되어 그래픽 형태로 표현된 것을 데이터 시각화라고 합니다.

 

또 하나의 예를 들어보겠습니다. 다음은 최근 한반도에 큰 영향을 미쳤던 태풍 ‘힌남노’의 예상 이동 경로를 보여주는 지도입니다. 아래 이미지의 왼쪽 지도는 8월 30일 기상청 발표 자료로, 9월 4일까지의 예상 이동 경로를 나타냅니다. 힌남노가 한반도 방향으로 올 예정이며 ‘초강력’에서 ‘매우 강’ 상태의 태풍 강도를 유지할 것으로 보입니다. 오른쪽은 9월 5일 자료입니다. 힌남노가 제주도와 부산을 거쳐 한반도에 영향을 주며 지나갈 것임을 알 수 있죠. ‘매우 강’의 강도를 유지할 것으로 보이며, 한반도 대부분이 강한 바람의 영향권에 드는 걸 지도를 통해 직관적으로 확인할 수 있습니다.

 

<출처: (좌) 중앙일보 2022.08.30, (우) 중앙일보 2022.09.05>

 

이처럼 태풍의 예상 경로 지도와 같은 날씨 지도는 우리가 일상생활에서 자주 이용하는 데이터 시각화입니다. 이 외에도 코로나바이러스의 확진자 현황이나 선거 결과를 알려주는 다양한 차트 등 생각보다 많은 곳에서 우리는 데이터 시각화를 통해 정보를 찾고, 공유하고, 이것을 바탕으로 의사결정을 내리고 있습니다. 그렇다면 이런 정보들은 왜 텍스트나 데이터 테이블이 아니라 시각화를 통해 공유되는 것일까요? 그 이유를 한 번 살펴봅시다.

 

 

시각정보는 쉽게 알 수 있다

덴마크의 물리학자 토르(Tor Norretranders)는 인체의 감각마다 시간당 처리할 수 있는 정보의 양이 많은 차이를 보이는 것을 알게 되었습니다. 이를 이해하기 위해 아래와 같이 컴퓨터 시스템과 비교해 보았습니다. 하늘색 부분을 차지하는 시각(Sight)의 정보 처리 속도는 1,250MB/s로 컴퓨터 네트워크와 비슷합니다.

 

이에 반해 분홍색인 촉각(Touch)은 USB, 노란색인 청각(Hearing)이나 후각(Smell)은 하드디스크와 비교됩니다. 한눈에 봐도 시각이 시간당 처리하는 정보의 양이 다른 감각들에 비해 훨씬 많은 것을 알 수 있습니다. 오른쪽 아래에 있는 아주 작은 하얀색 면적은 뇌에 들어온 모든 정보 중 실제로 우리가 인식하는 부분입니다. 즉, 인식하는 부분에 비해 훨씬 많은 양의 정보를 시각을 통해 처리하고 그 정보를 알아차리고 있는 것입니다.

 

시각정보 비교
The bandwidth of our senses by Tor Norretranders
<출처: David McCandless: The Beauty of Data Visualization from AWWWARDS>

 

시각으로 처리되는 정보 중 텍스트와 그래픽은 과연 어떤 차이가 있을까요? 포스트잇으로 유명한 기업 3M의 연구에 따르면, 그래픽은 텍스트에 비해 60,000배 빠르게 처리됩니다. 비슷한 결과를 보여주는 다른 연구들도 있습니다. HubSpot의 소셜미디어 사이언티스트인 댄(Dan Zarrella)은 이미지를 포함한 트윗이 이미지가 없는 트윗에 비해 95% 이상 리트윗되는 사실을 발견하였습니다. 이는 그래픽을 활용하여 정보를 전달할 때, 텍스트에 비해 정보가 훨씬 더 빨리 전달되기 때문입니다.

 

 

‘아하’ 순간을 통해 인사이트를 발견하다

데이터가 시각화되어 전달되면 우리의 뇌는 빠른 속도로 많은 양의 정보를 처리할 수 있습니다. 때문에 트렌드, 패턴이나 아웃라이어 등을 쉽게 파악할 수 있게 됩니다. 이는 ‘아하’하고 깨닫는 순간으로 이어집니다. 데이터에 대한 인사이트를 발견하는 순간입니다.

 

How People in America Spend Their Day

아래는 2008년에 미국인들이 하루를 어떻게 보내는지 조사한 설문조사 결과의 일부입니다. 수면, 집안일 등의 활동들을 여러 카테고리로 나누고, 카테고리별로 하루 중 얼마의 시간을 할애하는지가 정리되어 있습니다. 하지만 이 데이터 테이블만으로는 이 데이터가 가지고 있는 숨겨진 정보를 파악하기가 쉽지 않습니다.

 

미국인들의 하루
<출처: American Time Use Survey, Bureau of Labor Statistics>

 

뉴욕타임스에서 이를 아래와 같이 시각화하였습니다. 각 활동은 카테고리별로 나누어 고유한 색으로 정의하였고, 할애 시간은 면적으로 보여주었습니다. 오른쪽 위에는 직업별, 성별, 인종별 그룹으로 나누어서 궁금한 부분을 클릭하면 그룹별로 하루를 어떻게 보내는지 해당하는 시각화를 확인할 수 있도록 하였습니다.

 

취업 인구(The employed)와 실업 인구(The unemployed)의 하루는 어떻게 다른지 살펴봅시다. 짙은 갈색 면적으로 표현된 TV 시청은 두 인구 모두 비슷한 시간을 할애하는 것을 알 수 있습니다. 취업 인구의 경우 일하는 시간이 실업인구에 비해 훨씬 많고, 교육에는 적은 시간을 보냅니다. 또한, 밥 먹는 시간이 상대적으로 규칙적인 것도 알 수 있죠.

 

이 시각화에는 활동별, 그룹별로 매우 많은 정보가 담겨있습니다. 하지만 시각화를 이해하기 위해 수학이나 통계학과 같은 지식이 필요로 하지는 않습니다. 이 시각화는 데이터 테이블만으로는 찾기 어려운 많은 정보를 직관적으로 이해하고, 패턴을 찾고, 인사이트를 발견해낼 수 있도록 도와줍니다.

 

How People in America Spend Their Day in 2008: The employed <출처: NYT>

 

Million Dollar Blocks

콜럼비아 대학교의 Center for Spatial Research에서 미국 내 수감자들을 대상으로 연구를 수행하였습니다. 우리는 범죄를 생각하면 어느 지역에서 언제 어떤 범죄가 일어났는지를 생각하곤 합니다. 하지만 이 연구에서는 범죄자들을 수감하기 위해 필요한 비용과 이들이 어느 곳에 사는지 집중하였습니다.

 

아래는 각 범죄자의 수감 비용을 그들이 사는 지역에 매핑한 지도입니다. 수감 비용이 높을수록 붉은색이 더 밝고 눈에 띄도록 디자인되었습니다. 우리는 한눈에 특정 지역에 수감 비용이 집중된 것을 알 수 있습니다. 확대된 지도는 뉴욕 브루클린의 11블록으로, 이곳 출신의 수감자들에게 뉴욕은 2003년에만 150억 원 이상의 어마어마한 비용을 지불했습니다.

 

이 연구를 이끈 로라(Laura Kurgan)는 수감 비용이 집중된 지역들은 공통적으로 교육 등의 공공자원이 많이 부족한 지역이라고 말합니다. 아래의 데이터 시각화는 수감비용이 일부지역에 집중되어 있다는 것을 직관적으로 파악할 수 있도록 도와주는 동시에 지역사회와 연관 지어 범죄 문제를 시스템적으로 이해할 수 있도록 새로운 시각을 제공해줍니다.

 

The Million Dollar Blocks project, visualizing prison expenditures in Brooklyn <출처: Propublica>

 

 

의사 결정에 도움을 준다

데이터를 기반으로 올바른 의사 결정을 내리기 위해서는 의사 결정에 관여한 사람들이 데이터를 쉽게 이해하고, 데이터 안의 인사이트를 발견할 수 있어야 합니다. 데이터 시각화는 어떻게 의사 결정에 도움을 줄까요?

 

첫째, 데이터 시각화는 많은 양의 데이터와 정보를 담을 수 있습니다. 몇천 줄의 데이터가 하나의 시각화로 정리되곤 합니다. 이를 통해 의사 결정자들은 한눈에 많은 양의 데이터를 파악하고 큰 그림을 그릴 수 있습니다.

 

둘째, 데이터 시각화를 이해하는데 특별한 과학이나 통계 등의 교육이 필요하지 않습니다. 의사 결정에 관여한 사람들이 데이터를 쉽게 이해하고, 데이터 안의 정보를 찾을 수 있습니다.

 

셋째, 우리의 뇌는 시각화된 정보를 처리하는데 탁월합니다. 즉, 데이터 시각화는 트렌드, 패턴, 아웃라이어 등을 직관적으로 파악해서 인사이트를 도출할 수 있도록 돕습니다. 이는 특히 복잡한 데이터를 이해하는데 도움이 됩니다.

 

넷째, 데이터 시각화는 흥미로운 디자인으로 주제에 대한 관심을 끌고, 집중을 보다 오래 유지할 수 있습니다. 때문에 의사 결정자들에게 다소 생소하거나 관심이 적은 주제를 다룰 때도 도움이 됩니다.

 

몇 가지 사례로 데이터 시각화가 실제로 의사결정에 도움을 주었던 사례들을 알아보겠습니다.

 

 

전염병의 원인을 알린 고스트맵

고스트맵, 전체 지도 <출처: TED>

 

1854년 당시 지구상 가장 큰 도시였던 런던에서 콜레라가 발생했고, 열흘 만에 500명이 사망하게 됩니다. 악취가 콜레라의 원인이라고 생각했던 보건당국은 시민들에게 오물을 템스강에 버리도록 했습니다. 하지만, 이 강물은 식수로 쓰여 실제로 콜레라가 더 자주 발생하게 됩니다.

 

존 스노(John Snow)라는 의사는 많은 연구와 논문을 통해 ‘콜레라는 물을 통해 전염된다’고 수년 동안 주장해 왔지만, 보건 당국은 그의 주장을 대부분 무시했습니다. 그는 1854년 런던의 콜레라 발병 시 근처에 살고 있던 주민들과 면담을 시작했고, 주소별 사망자의 수를 검은색 막대로 나타내는 지도를 만들었습니다. 이 지도를 통해 우리는 중앙에 있는 물 펌프에서 멀어질수록 사망자 수가 줄어들고 있는 패턴을 쉽게 파악할 할 수 있습니다. 즉, 물 펌프에서 무언가 해로운 것이 나오는 것을 알 수 있죠.

 

존 스노가 이 지도의 도움을 받아 열심히 알린 끝에 정부 당국은 점차 의견을 바꾸기 시작했습니다. 공기가 아닌 물을 통해 콜레라가 확산한다고 믿고 정수장을 짓고 사람들에게 물을 끓이도록 했습니다. 이것이 런던이 경험한 마지막 콜레라 유행이었습니다.

 

코로나 바이러스 시뮬레이션

워싱턴 포스트의 그래픽 기자 해리(Harry Stevens)는 사회적 거리두기가 코로나 확산에 미치는 영향을 이해하기 위해 가상의 바이러스를 이용한 시뮬레이션을 제작하였습니다. 이 가상의 바이러스는 건강한 사람이라도 감염자와 만나기만 하면 감염되고, 완전히 회복된 사람은 감염증을 전파할 수 없을 뿐만 아니라 다시 감염되지 않는다고 가정했습니다.

 

아래에서 하나의 점은 한 사람을 나타냅니다. 200명의 인구 집단에서 가상 바이러스 감염증이 전파될 때 어떻게 되는지 살펴봅시다. 이 점들은 무작위 방향으로 이동하며, 단 한 사람이 감염된 상태로 시뮬레이션이 시작됩니다. 감염자가 증가하면서 감염된 상태의 수를 나타내는 붉은 곡선의 기울기가 가파르게 증가하다가 사람들이 회복하기 시작하면서 꺾이는 것을 확인할 수 있습니다.

 

감염병 확산 시뮬레이션
감염병 확산 시뮬레이션 <출처: Twitter>

 

해리는 위의 시뮬레이션을 아래와 같이 이동에 대한 제한이 없을 때(Free-for-all), 강제 격리를 시도했을 때(Attempted quarantine), 보통 수준의 사회적 거리두기(Moderate distancing), 철저한 사회적 거리두기(Extensive distancing) 등 4가지 상황에 적용해 보았습니다. 그 결과, 이 시뮬레이션을 통해 철저한 사회적 거리두기가 그 어떤 방식보다도 효과적임을 사람들에게 직관적으로 이해시킬 수 있었습니다.

 

코로나 시뮬레이션
4가지 시뮬레이션 결과 (출처: Washington Post)

 

오바마 미국 전 대통령은 이 시각화를 트위터에 공유하면서 철저한 사회적 거리두기를 강조했습니다. 즉, 사회적 거리두기의 영향을 이해시키기 위해 데이터 시각화를 이용한 것입니다. 이 시각화는 워싱턴 포스트 역사상 가장 많이 읽힌 아티클이 되었고, 각국의 언어로 번역되어 전 세계 사람들에게 읽혔습니다. 사회적 거리두기의 영향이라는 복잡한 주제를 쉽게 이해시키고, 흥미로운 시뮬레이션을 통해 주제에 대한 관심을 높일 수 있었습니다.

 

오바마 트위터
데이터 시각화 자료를 인용해 거리두기를 강조한 오바마 전 대통령. <출처: Twitter>

 

 

일상 속 데이터 시각화의 중요성

이처럼 데이터 시각화는 생각보다 우리의 일상과 매우 가까이 있습니다. 날씨에서 교통정보, 선거 결과에 이르기까지. 우리는 많은 정보를 데이터 시각화를 통해 이해하고 의사결정을 내립니다. 특히 지금처럼 데이터의 양이 늘어나고 복잡해질수록, 데이터를 이해하기 위해 그 중요성이 커지고 있습니다.

 

데이터 시각화는 많은 정보를 시각화 안에 담을 수 있어 큰 그림을 파악하는데 도움을 줍니다. 시각화를 해석하는데 특별한 교육이 필요하지 않기 때문에 많은 사람이 쉽게 데이터를 이해하고 정보를 찾을 수 있습니다. 또한, 우리의 뇌는 데이터가 시각화되었을 때 패턴이나 트렌드 등을 훨씬 쉽게 파악할 수 있어 인사이트를 발견하기 쉽습니다. 때문에 데이터 시각화는 데이터에 기반한 의사결정에 중요한 역할을 합니다.

 

하지만 모든 데이터 시각화가 쉽고 직관적으로 이해되고 인사이트를 도출하도록 돕지는 않습니다. 그 이유는 무엇일까요? 바로 정보가 시각요소로 매핑되는 과정이 적절하게 디자인되지 않았기 때문입니다. 다음 글에서는 직관적인 데이터 시각화를 만드는 법에 대해 좀 더 자세히 살펴보도록 하겠습니다.

 

요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.

좋아요

댓글

공유

공유

댓글 7
데이터 시각화 디자이너
278
명 알림 받는 중

작가 홈

데이터 시각화 디자이너
278
명 알림 받는 중
데이터 시각화 스튜디오 VisualPlot을 운영하고 있습니다. MIT 데이터 시각화 전문 연구원을 거쳐 월스트리트 저널과 워싱턴포스트에서 비주얼 저널리스트로 근무했습니다. 데이터 시각화를 좋아하고, 이를 새로운 방식의 이야기로 전달하는 비주얼 스토리텔링에 관심이 많습니다.

좋아요

댓글

스크랩

공유

공유

요즘IT가 PICK한 뉴스레터를 매주 목요일에 만나보세요

요즘IT가 PICK한 뉴스레터를
매주 목요일에 만나보세요

뉴스레터를 구독하려면 동의가 필요합니다.
https://auth.wishket.com/login