요즘IT
위시켓
최근 검색어
전체 삭제
최근 검색어가 없습니다.

이상 탐지에 대해 들어보셨나요? 이상 탐지란 일반적인 값과 다른 특이한 값(outlier)나 드문 사건을 탐지하는 기법으로, 최근 해외뿐만 아니라 국내에서도 이상 탐지 기술이 활용되고 있습니다. 주로 금융, 의료, 게임, 콘텐츠, 제조 등의 산업에서 활용되고 있는데, 이번 글을 통해 이상 탐지의 개념, 알고리즘 종류, 활용 사례에 대해 살펴보겠습니다.

회원가입을 하면 원하는 문장을
저장할 수 있어요!

다음

회원가입을 하면
성장에 도움이 되는 콘텐츠를
스크랩할 수 있어요!

확인

개발

게임, 금융, 의료...비즈니스 곳곳 '이상 탐지 모델' 살펴보기

년차,
어떤 스킬
,
어떤 직무
독자들이 봤을까요?
어떤 독자들이 봤는지 궁금하다면?
로그인

 

이상 탐지에 대해 들어보셨나요? 이상 탐지란 일반적인 값과 다른 특이한 값(outlier)나 드문 사건을 탐지하는 기법으로, 최근 해외뿐만 아니라 국내에서도 이상 탐지 기술이 활용되고 있습니다. 주로 금융, 의료, 게임, 콘텐츠, 제조 등의 산업에서 활용되고 있는데, 이번 글을 통해 이상 탐지의 개념, 알고리즘 종류, 활용 사례에 대해 살펴보겠습니다.

 

이상치(Outlier)란?

이상치(Outlier)
<출처: 작가>

 

먼저 이상 탐지 소개하기 앞서 이상치(Outlier)에 대해 알아야 합니다. 이상치란 정상적인 데이터와는 반대로 특이한 값을 가진 이상 데이터를 말합니다. 위 그래프에서도 여러 개의 회색 데이터들과 다르게 멀리 떨어져 있는 하늘색 데이터를 볼 수 있는데요. 이와 같은 데이터를 이상치(Outlier)라고 합니다.

 

상자 수염 그림을 활용한 이상치 시각화

<출처: 작가>

 

이상치는 위 그림과 같이 상자 수염 그림(Box Plot)을 통해, 데이터를 간단히 시각화하여 확인해 볼 수 있습니다. 통계적으로 어느 구간까지 기준을 잡고 이상치라고 판단할 수 있는 간단한 방법이 있는데요. 바로 사분범위 개념을 활용하여 이상치를 알아보는 IQR 방법입니다. 사분범위 값의 편차를 이용하는 것인데, IQR에 1.5배를 곱하고 곱한 값에서 벗어난 데이터를 이상치라고 판단합니다.

 

 

이상 탐지(Anomaly Detection)란?

그렇다면 이상 탐지란 무엇일까요? 말 그대로 이상한 패턴을 찾는 것입니다. 일반적인 데이터의 정상 패턴에서 벗어난 데이터를 식별하기 위한 것을 이상 탐지(Anomaly Detection)라고 합니다. 구체적으로는 특정 산업에서 일반적으로 예상되는 특징을 따르지 않는 데이터나, 정상으로 규정된 데이터와 다른 특징을 가지는 데이터를 찾아내는 것을 말합니다.

이상 탐지(Anomaly Detection)
<출처: 작가>

 

위 그래프는 아침 9시부터 저녁 9시까지의 카드 거래 시계열 데이터인데요. 여기서 정상 데이터가 아닌 이상 데이터는 무엇일까요? 바로 오후 3시에 유독 튀는 이상 데이터(빨간색 데이터)를 발견할 수 있습니다. 카드 거래에서 급격하게 상승하는 오후 3시를 거래 이상 징후로 볼 수 있는 것입니다.

 

 

이상 탐지 알고리즘의 종류

1) 기존 머신러닝 모델과 비교하면?

기본적으로 이상 탐지 모델은 딥러닝, 머신러닝 모델의 원리와 유사하며, 지도 학습, 준지도 학습, 비지도 학습으로 나눌 수 있습니다. 머신러닝 기본 개념과 차이점이 있다면 데이터셋이 정상 데이터, 비정상 데이터(이상 데이터), 레이블 데이터로 이루어져 있다는 것입니다. 

 

이상 탐지(Anomaly Detection)
<출처: 작가>

 

하지만 실무에서 이상 탐지는 구현하기 어려운 편인데요. 회사에서 비정상 데이터와 레이블 데이터를 구하기 어렵고, 이상 패턴의 기준이 바뀜에 따라 새로운 레이블 데이터를 만들어야 하기 때문입니다.

 

2) 이상 탐지 알고리즘 종류

이상 탐지(Anomaly Detection)
<출처: 작가>

 

이상 탐지 알고리즘은 머신러닝, 딥러닝 알고리즘을 기반으로 크게 지도 학습, 준지도 학습, 비지도 학습으로 나눌 수 있습니다. 레이블 데이터가 없는 비지도 학습에는 대표적으로 머신러닝 비지도 학습 모델인 클러스터링 모델 K-means, DBSCAN이 있고, 최근 많이 사용되고 있는 이상 탐지 모델로는 딥러닝 기반 Auto Encoder, Isolation Forest 알고리즘이 있습니다.

 

그렇다면 Isolation Forest는 어떤 원리로 이루어져 있을까요? Isolation Forest는 랜덤 포레스트 작동 원리와 유사한 트리 기반 알고리즘 접근 방식입니다. 이 알고리즘은 정상 데이터보다 비정상 데이터를 분리하기 더 쉽다는 원리에서 시작됩니다.

 

먼저 랜덤으로 임의의 데이터를 2가지 부분으로 분리하여 모든 관측치 데이터를 고립시킵니다. 그다음, ITree에서 분할 과정을 계속 반복합니다. 여기서 고립되기 가장 쉬운 포인트가 이상 데이터일 가능성이 가장 높습니다.

 

 

이상 탐지 모델 활용 사례

비즈니스에서는 이상 징후를 사전에 발견하여 방지하는 것이 중요하며, 이럴 때 이상 탐지를 통해 비용 절감, 서비스 개선 효과를 얻을 수 있습니다. 또한 이상 데이터 때문에 잘못된 의사결정을 내릴 수도 있는데, 이상 탐지를 이용하면 올바른 의사결정 기준을 둘 수 있어 도움이 됩니다. 

 

1) 산업별 이상 탐지 활용

각 산업별로 이상 탐지를 활용해 다양한 문제를 해결하고 있습니다. 다만 산업마다 해결해야 할 이상 탐지 문제가 다르기 때문에, 정상 데이터, 비정상 데이터(이상 데이터)를 정의하는 기준 또한 다릅니다.

 

  • 중고 거래/금융: 고객의 거래 사기 탐지, 불법 행위 감지
  • 게임: 핵 감지, 유저의 도용 탐지
  • 콘텐츠:스트리밍 서비스 어뷰징 탐지
  • 제조:제조 공정 이상 징후 감지

 

예를 들어, 게임 산업에서는 핵 감지, 도용 등 유저의 어뷰징 행위를 탐지할 수 있고, 금융 산업에서는 신용 카드 거래 데이터에서 일반적이지 않은 패턴을 발견하여 신용 카드 사기 행위를 탐지할 수 있습니다. 이렇듯 이상 탐지를 통해 문제를 미리 발견하고 적절한 조치를 취할 수 있습니다. 이외에도 모빌리티, 이커머스, 제조, 의학 등 다양한 산업에서 활용하고 있습니다.

 

2) 의료 산업에서의 이상 탐지 활용

국내 의료 산업에서도 이상 탐지 기술을 활용해, 업무 자동화 및 간소화로 업무 시간 단축 효과를 얻고 있는데요. 관련 기사에 따르면, 이상 탐지 알고리즘으로 낙상 이상 징후를 탐지하는 시스템을 구축해 의료진이 낙상 발생 후 현장에 도착하는 시간을 120초에서 10초로 대폭 줄이는 효과가 나타났습니다.

 

더불어 삼성서울병원은 지능형 물류관리 시스템을 병원에 도입하여, 병동에서 사용하는 진료 재료의 표준수량을 예측, 각 병동별로 요일별 실사용량을 분석하여 도출한 표준수량으로 별도의 물품 청구 업무 없이 매일 표준수량만큼의 물품을 자동 공급하는 체계를 마련했다고 합니다. 만약 수술을 마친 입원환자가 새벽에 갑자기 수술 부위 처치를 해야 하는 이상 상황이 발생한 경우, 야간에 미리 배송된 물품을 통해 의료진에게 바로 치료받을 수 있게 됐습니다. 의료진은 물품 관리 등 행정업무에 투입하는 시간이 절약되어, 환자 관리 업무에 더욱 집중할 수 있게 되었다고 말합니다. (출처: 헬스포커스 기사)

 

3) 우버의 이상 탐지 활용

다음으로 우버(Uber)에서 활용하고 있는 이상 탐지 활용 사례를 살펴보겠습니다. 우버는 고품질 데이터를 활용한 의사결정을 내리기 위해 데이터 품질 모니터링 시스템인 Data Quality Monitor(DQM)를 개발하여, 이상 탐지를 모니터링합니다. 만약 이상이 있을 경우, 데이터 사용자는 다운스트림 분석 및 모델링에서 주의하여 진행하라는 경고를 받습니다. 

 

<출처: 우버 기술 블로그>

 

데이터 품질 이상 탐지 시스템의 경고를 통해, 데이터 품질이 저하되었는지 미리 확인할 수 있는 것이죠. 데이터팀은 데이터를 기반으로 비즈니스 결정을 내리기 때문에, 이것이 신뢰할 수 있는 데이터라는 것을 사전에 인지할 수 있도록 도와줍니다.

 

 

마치며

지금까지 이상치와 이상 탐지의 개념, 알고리즘 종류, 활용 사례에 대해 살펴봤습니다. 이러한 이상 탐지 모델을 활용하면 각 산업별 문제를 쉽게 해결할 수 있다는 점에서 가능성이 무궁무진합니다. 더불어 비즈니스 및 서비스에서 이상 우려 상황에 대한 사전 방지와 비용 절감 효과도 얻을 수 있습니다. 앞으로 더 많은 산업에서 이상 탐지 기법을 활용해, 우리의 삶을 더 편리하게 만들 수 있길 기대해 봅니다.

 

요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.

좋아요

댓글

공유

공유

댓글 0
데이터 분석가
10
명 알림 받는 중

작가 홈

데이터 분석가
10
명 알림 받는 중
다양한 도메인(패션 커머스, 배달 플랫폼 등)을 거쳐 BI 대시보드 컨설팅, 데이터 분석 교육을 하고 있습니다.

- 블로그: https://medium.com/@jeongmin-ju
- 링크드인: https://www.linkedin.com/in/jeongmin-ju/
* 문의: contact@judatahub.com

좋아요

댓글

스크랩

공유

공유

요즘IT가 PICK한 뉴스레터를 매주 목요일에 만나보세요

요즘IT가 PICK한 뉴스레터를
매주 목요일에 만나보세요

뉴스레터를 구독하려면 동의가 필요합니다.
https://auth.wishket.com/login