지금까지 데이터 산업에서 데이터를 표나 그래프로 정리해서 본다는 것을 배웠습니다. 그렇다면 표에 정리했을 때, 독립변수와 종속변수는 어떻게 표현될까요? 표에서 어떤 열의 값이 변할 때 함께 변하는 다른 열이 있고, 이러한 상황이 해당 열에 모두 적용된다면 두 변수는 서로 엮여있다고 볼 수 있습니다.
지금까지 데이터 산업에서 데이터를 표나 그래프로 정리해서 본다는 것을 배웠습니다. 그렇다면 표에 정리했을 때, 독립변수와 종속변수는 어떻게 표현될까요? 표에서 어떤 열의 값이 변할 때 함께 변하는 다른 열이 있고, 이러한 상황이 해당 열에 모두 적용된다면 두 변수는 서로 엮여있다고 볼 수 있습니다.
이런 변화의 모습은 상관관계와 인과관계로 나뉘며, 상관관계가 인과관계를 포함하고 있습니다. 모든 인과관계는 상관관계이지만, 모든 상관관계가 인과관계는 아닐 수도 있습니다.
예를 들어, 바깥 기온이 높아질수록 실내 에어컨 온도가 낮아진다면, 실내 온도에 따라 실내 에어컨 온도가 변화해 둘은 인과관계에 있다고 볼 수 있습니다.
다른 예시로 키와 체중은 상관관계가 있지만 인과관계라고는 볼 수 없습니다. 대체적으로 키가 크면 체중이 많이 나갈 수도 있는데, 꼭 그런 것만은 아닙니다. 반대로 체중이 많이 나간다고 해서 키가 큰 것은 아니기 때문이죠.
이렇게 설명한 예시를 보더라도 애매한 부분이 있는데요. 그래서 실제 데이터에서 상관관계와 인과관계를 정하는 것은 어려운 일입니다. 그에 따른 가중치 정보로 결과가 전혀 달라지기 때문에, 데이터를 정리하는 과정에서 상관관계를 지정하는 것은 매우 중요한 과정입니다.