요즘IT
위시켓
최근 검색어
전체 삭제
최근 검색어가 없습니다.

국내 IT 기업은 한국을 넘어 세계를 무대로 할 정도로 뛰어난 기술과 아이디어를 자랑합니다. 이들은 기업 블로그를 통해 이러한 정보를 공개하고 있습니다. 요즘IT는 각 기업의 특색 있고 유익한 콘텐츠를 소개하는 시리즈를 준비했습니다. 이들은 어떻게 사고하고, 어떤 방식으로 일하고 있을까요?

회원가입을 하면 원하는 문장을
저장할 수 있어요!

다음

회원가입을 하면
성장에 도움이 되는 콘텐츠를
스크랩할 수 있어요!

확인

개발

데이터 아키텍처? 쉽게 배워봅시다

년차,
어떤 스킬
,
어떤 직무
독자들이 봤을까요?
어떤 독자들이 봤는지 궁금하다면?
로그인

국내 IT 기업은 한국을 넘어 세계를 무대로 할 정도로 뛰어난 기술과 아이디어를 자랑합니다. 이들은 기업 블로그를 통해 이러한 정보를 공개하고 있습니다. 요즘IT는 각 기업의 특색 있고 유익한 콘텐츠를 소개하는 시리즈를 준비했습니다. 이들은 어떻게 사고하고, 어떤 방식으로 일하고 있을까요?

 

이번 글은 데이터 분석 도구 하트카운트(HEARTCOUT)를 개발하는 하트카운트 팀이 ‘데이터 아키텍처’라는 개념을 소개하는 글입니다. 

 

안녕하세요! 'Everyone is an analyst, 하트카운트'의 Jaden입니다.

 

오늘은 데이터 아키텍처에 대한 이야기를 나누려고 합니다. 처음 접하면 낯설고 복잡할 수 있지만, 함께 차근차근 알아보면 더 이해하기 쉬울 거예요.

 

 

0. 데이터 아키텍처(Data Architecture)란?

먼저 '데이터 아키텍처'가 무엇을 의미하는지부터 알아봅시다. 비개발자들에게는 '아키텍처'라는 용어가 낯설게 느껴질 수 있습니다. 이 용어는 직역하면 '건축학'이라는 단어이며, 시스템 및 소프트웨어 산업에서는 '시스템이 어떻게 구성되며 동작하는지 원리를 나타내는 원칙'을 의미합니다.

 

데이터 아키텍처(Data Architecture)는 조직이 데이터를 수집, 저장, 처리 및 관리하는 방법을 설계하고 구현하는 일련의 과정 또는 체계를 나타냅니다. 본 글에서는 ETL, 데이터 마트, 데이터 웨어하우스 등 데이터 아키텍처를 구성하는 개별 요소에 대해서 자세히 알아보고자 합니다.

 

 

1. 데이터 원천: 데이터의 시작점

 

데이터는 우리의 일상에서도, 비즈니스에서도 끊임없이 생성됩니다. 그런데 이 데이터는 어디서 오는 걸까요?

 

  • OLTP 데이터베이스: 우리가 온라인 쇼핑을 할 때나 은행 업무를 볼 때 생성되는 트랜잭션 데이터입니다. 구매 내역, 입출금 내역 등을 생각하면 됩니다.
  • 기업 애플리케이션: 대기업부터 중소기업까지, 모든 회사에서는 ERP나 CRM 같은 시스템을 통해 데이터를 관리합니다. 고객 정보, 재고, 매출 등의 데이터가 여기에 포함됩니다.
  • 서드파티: 외부에서 제공되는 데이터로, 다양한 시장 조사나 경쟁사 분석 데이터가 이곳에 포함됩니다.
  • 웹/로그 데이터: 우리가 인터넷을 사용하면서 남기는 발자취입니다. 어떤 광고를 클릭했는지, 어떤 페이지를 얼마나 오래 보았는지 등의 정보가 여기에 저장됩니다.
  • IoT 데이터: 스마트폰은 물론, 스마트 TV, 냉장고, 에어컨 등 IoT 기기들이 생성하는 데이터입니다.

 

데이터는 위와 같이 여러 원천에서 옵니다.  여러 원천의 데이터를 가져와, 쓸만한 부분을 추출하고, 형태를 가공하여 사용해야 합니다. 마치 정유사에서, 원유를 뽑아내어 정제를 하여 사용하는 것과 마찬가지죠. 그렇기에 데이터가 4차 산업에서 원유와 같다고 하는 것은 전혀 과장이 아니죠.

 

 

2. ETL: 데이터의 변신

앞서 말씀드렸듯이, 데이터는 생성되는 그 자체로는 종종 원하는 형태나 구조가 아닙니다. 이 상태를 우리는 원시 데이터, Raw Data라고 부릅니다. 따라서 우리는 이 데이터를 용도에 맞게 변형시켜야 합니다. 이렇게 데이터를 추출, 변환, 그리고 로드하는 과정을 ETL(추출, 변환, 적재)이라고 부릅니다.

 

  • 추출 (Extraction): 원천에서 데이터를 가져오는 첫 단계입니다. 이때 중요한 것은 필요한 데이터만 정확하게, 빠짐없이 가져오는 것입니다. 간혹 다양한 원천으로부터 데이터를 추출하게 될 때, 이 과정이 복잡해질 수 있습니다.
  • 변환 (Transformation): 가져온 데이터는 다양한 이유로 원하는 형태가 아닐 수 있습니다. 여기서 데이터는 필요한 형식으로 변환되며, 불필요한 데이터는 제거됩니다. 또한 여러 원천에서 가져온 데이터를 합치거나, 데이터의 품질을 향상시키는 등의 작업이 이루어집니다.
  • 로드 (Load): 이제 변환된 데이터를 최종적으로 데이터 웨어하우스나 데이터 레이크 같은 저장 공간에 넣습니다. 이 데이터는 추후 분석이나 다양한 업무에 사용됩니다.

 

 

3. 웨어하우스와 레이크: 데이터의 보관소

데이터를 안전하고 효율적으로 저장하는 곳이 필요합니다. 이러한 공간을 데이터 웨어하우스(Data Warehouse)데이터 레이크(Data Lake)라고 부릅니다.

 

데이터 웨어하우스

 

이곳은 주로 구조화된 데이터(Stuctured Data), 즉 테이블 형태의 데이터를 저장하는 곳입니다. 데이터 웨어하우스는 긴 시간 동안 안정적으로 큰 규모의 데이터를 저장하고, 필요할 때 빠르게 조회할 수 있도록 설계되어 있습니다. 여러 비즈니스 질의나 보고를 위해 주로 사용됩니다.

 

데이터 레이크

 

최근 많은 관심을 받고 있는 데이터 저장소로, 정형뿐만 아니라 반정형, 비정형 데이터도 저장할 수 있습니다. 예를 들면, 로그 파일이나 소셜 미디어 데이터, 이미지 등 다양한 형태의 데이터를 포함할 수 있습니다. 데이터 레이크는 큰 규모의 원시 데이터를 저장하고, 필요에 따라 이를 처리하여 사용할 수 있게 합니다.

 

 

4. 데이터 마트: 용도에 따라 관리

 

기업에서는 데이터 웨어하우스의 데이터 전체를 항상 사용하는 것이 아니라, 특정 부서나 목적에 맞는 일부 데이터만 필요한 경우가 많습니다. 이럴 때 사용되는 것이 데이터 마트(Data Mart)입니다.

 

데이터 마트의 정의

데이터 웨어하우스의 특정 주제나 부서에 특화된 부분집합을 의미합니다. 예를 들어 마케팅팀은 고객 데이터나 광고 데이터에만 관심이 있을 수 있으므로, 이런 데이터만 따로 모아놓은 것이 마케팅 데이터 마트가 될 수 있습니다.

 

데이터 마트의 장점

  1. 효율적인 데이터 관리와 접근성: 데이터 마트는 작은 규모로 인해 데이터 관리가 용이합니다. 이는 특정 부서나 팀이 필요로 하는 데이터에 빠르고 쉽게 접근할 수 있게 해 주며, 이로 인해 데이터 관리와 유지 보수의 복잡성이 감소합니다.
  2. 증가된 성능: 전체 데이터 웨어하우스에 비해 규모가 작기 때문에, 쿼리 처리 속도가 빨라집니다. 이는 사용자가 데이터를 더 빠르게 분석하고 인사이트를 얻을 수 있게 해 줍니다.
  3. 사용자 맞춤형 데이터 제공: 데이터 마트는 특정 업무나 부서의 요구에 맞춰진 데이터를 제공합니다. 이는 해당 부서의 사용자가 더 관련성 높은 데이터에 집중할 수 있게 해 주며, 결국 더 정확하고 효율적인 의사결정을 가능하게 합니다.
  4. 보안과 데이터 보호: 데이터 마트는 특정 데이터 세트에 대한 접근을 제한함으로써, 보안과 데이터 보호를 강화할 수 있습니다. 이는 민감한 데이터를 다루는 조직에 특히 중요한 장점입니다.

 

 

5. 다양한 분야에서의 데이터 활용

데이터는 그 자체로 중요하지만, 그것을 어떻게 활용하느냐에 따라 진정한 가치가 발휘됩니다. 여러 분야에서의 데이터 활용은 기업의 성장과 혁신에 기여하며, 더 나은 의사결정을 위한 기반이 됩니다.

 

기업 내부의 핵심 부서별 활용

  • BI/Analytics: 비즈니스 인텔리전스를 통해 기업 전략 설정 및 분석.
  • 마케팅: 고객 행동 및 선호도 분석, 타겟팅 및 캠페인 전략 수립.
  • 재무 (Finance): 재무 상태 분석, 예산 설정 및 투자 전략.
  • 인사 (HR): 직원의 성과 및 만족도 분석, 인사 전략 및 평가 기준 설정.

 

개발 및 테스트 환경에서의 활용

  • 테스트/개발 (Test/Dev): 제품 성능 테스트, 버그 추적 및 최적화.
  • 실시간 분석 (Real-time Analysis): 실시간 사용자 반응 및 시스템 성능 모니터링.
  • 제품 관리 (Product Management): 사용자 경험 분석, 제품 기능 개선 및 roadmap 설정.

 

데이터 전문가들의 고도화된 활용

  • 데이터 과학 (Data Science): 복잡한 데이터 분석, 머신러닝 모델링.
  • 데이터 수익화 (Data Monetization): 데이터를 기반으로 한 새로운 비즈니스 모델 탐색.
  • 보안 (Security): 보안 위협 및 침입 감지, 데이터 보호 전략 수립.

 

일반적인 운영 및 보고 활용

  • 운영 보고서 (Operational Reporting): 일일/주간/월간 업무 보고 및 성과 관리.
  • 외부 사용자 (Externals): 외부 파트너, 고객, 협력사 대상 데이터 제공.
  • 고객 지원 (Customer Support): 고객 문의 및 문제 해결을 위한 데이터 분석.

 

특별한 활용 분야

  • 건강 관리 (Healthcare): 환자의 건강 데이터를 분석하여 개인별 치료 전략 설정, 예방조치 및 병원 운영 효율화.
  • 공공 부문 (Public Sector): 시민들의 의견과 데이터를 통한 정책 결정, 도시 계획 및 공공 서비스 개선.
  • 교육 (Education): 학생들의 학습 패턴 분석, 교육 커리큘럼 및 교육 방법의 최적화.
  • 물류 및 운송 (Logistics & Transportation): 운송 수단의 효율적인 관리, 경로 최적화 및 물류비용 절감.
  • 에너지 (Energy): 에너지 소비 패턴 분석, 지속 가능한 에너지 솔루션 연구 및 구현.
  • 부동산 (Real Estate): 시장 트렌드 분석, 투자 가치 평가 및 부동산 가격 예측.
  • 미디어 및 엔터테인먼트 (Media & Entertainment): 사용자의 콘텐츠 선호도 분석, 맞춤형 광고 전략 및 콘텐츠 추천.

 

<원문>

데이터 아키텍처(Data Architecture)? 쉽게 배워봅시다!

 

요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.

좋아요

댓글

공유

공유

댓글 1
metis041
            제기랄 위시캣 난 네놈들이 너무 좋다
          
2024.01.03. 오후 15:33
작가
173
명 알림 받는 중

작가 홈

작가
173
명 알림 받는 중
데이터 시각화/자동 분석 툴 하트카운트입니다.
실무자를 위한 데이터 콘텐츠를 다룹니다.
하트카운트 커뮤니티에서 더 많은 콘텐츠를 만나보세요.

좋아요

댓글

스크랩

공유

공유

지금 회원가입하고,
요즘IT가 PICK한 뉴스레터를 받아보세요!

회원가입하기
요즘IT의 멤버가 되어주세요! 요즘IT의 멤버가 되어주세요!
요즘IT의 멤버가 되어주세요!
모든 콘텐츠를 편하게 보고 스크랩해요.
모든 콘텐츠를 편하게 보고 스크랩 하기
매주 PICK한 콘텐츠를 뉴스레터로 받아요.
매주 PICK한 콘텐츠를 뉴스레터로 받기
로그인하고 무료로 사용하기