[Data Science] 데이터 속의 진실: Causality을 통해 본 원인과 결과

우리는 매일 수많은 정보와 데이터에 둘러싸여 살고 있습니다. 스마트폰 앱, 뉴스, 소셜 미디어... 이 모든 곳에서 다양한 통계와 데이터가 우리의 눈 앞을 지나갑니다. 그 중 몇몇은 우리의 생활에 큰 영향을 미칠 수도 있습니다. 하지만 그 모든 데이터가 정말로 의미 있는 것일까요?

데이터는 눈에 보이는 현상을 설명하거나 예측하는 데 도움을 주는 강력한 도구입니다. 그러나 그것만으로는 부족합니다. 데이터 뒤에 숨겨진 원인과 결과의 관계를 제대로 이해하지 않으면, 잘못된 해석으로 인해 심각한 오류에 빠질 수 있습니다.

예를 들어, 누군가가 말했다: "데이터에 따르면 A가 B의 원인이다." 그런데 정말로 A가 B의 원인인 것일까요? 아니면 그저 우연히 두 데이터가 비슷한 패턴을 보이는 것일까요? 아니면 다른 외부 요인이 두 데이터에 영향을 주고 있을까요?

인과관계와 상관관계의 차이, 그리고 데이터를 올바르게 해석하는 방법에 대한 이해는 우리가 매일 마주하는 다양한 정보 속에서 더욱 명확하고 올바른 판단을 내리는 데 도움을 줄 것입니다. 정보의 바다에서 방향을 잃지 않기 위해, 데이터 뒤의 진짜 이야기를 찾아내는 능력을 키워나가기를 바랍니다.

통계의 오해와 함정

잘못된 상관관계: 두 사건이 함께 발생하는 것만으로 그들 사이에 실제 연관성이 있는 것은 아닙니다. 상관관계는 인과관계를 의미하지 않습니다.
심슨의 패러덕스: 작은 그룹 내에서는 보이지 않는 패턴이 전체 데이터에서 드러날 때가 있습니다. 그 반대도 마찬가지입니다. 따라서 전체적인 맥락을 놓치지 않고 데이터를 바라보는 시각이 필요합니다.
생존자 편향: 성공한 사례만 분석하면 전체 그림을 볼 수 없습니다. 실패한 사례도 중요한 통찰력을 제공할 수 있습니다.

1. 잘못된 상관관계 (Spurious Correlation)

잘못된 상관관계는 두 데이터 세트 사이에 통계적으로 상관관계가 있어 보이지만 실제로는 관련이 없는 경우입니다. 예를 들어, 어떤 도시에서 아이스크림 판매량과 범죄 발생률이 모두 증가하는 것을 관찰할 수 있지만, 이 둘 사이에 직접적인 연관이 있다고 보기는 어렵습니다. 사실, 둘 다 여름철에 발생하기 때문에 상관관계가 나타나는 것일 뿐입니다.

출처: https://www.tylervigen.com/spurious-correlations

이 그림을 보면 켄터키 주에서 결혼하는 사람의 수와 낚시배에서 빠져서 익사하는 사람의 수가 비슷한 패턴으로 변하는 것처럼 보여요. 그런데 실제로 이 두 가지는 서로 아무 관계가 없어요.

이렇게 두 가지 사이에 실제로는 관계가 없는데도 불구하고 비슷한 패턴이 나타나는 것을 '잘못된 상관관계'라고 해요. 이런 경우를 보고 "아, 이 두 가지는 서로 영향을 주는구나!"라고 생각할 수도 있지만, 실제로는 그렇지 않아요.

2. Simpson's Paradox 심슨의 패러덕스

출처: http://svmiller.com/blog/2020/01/illustrate-correlation-fallacies-limitations-in-r/

심슨의 패러덕스는 통계 데이터를 잘못 해석할 때 발생하는 현상입니다. 이해를 돕기 위해 위의 이미지를 예시로 들어 설명해보겠습니다.

이 이미지를 보면, 바트와 리사, 마지 그리고 호머 등 심슨 가족의 캐릭터들이 있죠. 빨간색 선을 기준으로 캐릭터들이 배치되어 있는 것을 볼 수 있습니다.

바트와 리사만 봤을 때, 바트가 빨간색 선 아래에 더 많이 있고, 리사는 빨간색 선 위에 더 많이 위치해 있습니다. 따라서, 우리는 "리사가 바트보다 빨간색 선 위에 더 많이 위치해 있다"고 결론 지을 수 있습니다.

하지만, 마지와 호머를 같이 볼 때, 마지가 빨간색 선 아래에 더 많이 있고, 호머는 빨간색 선 위에 더 많이 위치해 있습니다. 따라서, "호머가 마지보다 빨간색 선 위에 더 많이 위치해 있다"고 생각할 수 있습니다.

그런데 전체 이미지를 보면, 실제로는 바트와 호머가 빨간색 선 위에 더 많이 위치하고, 리사와 마지는 빨간색 선 아래에 더 많이 위치해 있다는 것을 알 수 있습니다.

이처럼 개별 그룹을 따로 봤을 때와 전체 데이터를 봤을 때 결과가 다르게 나타나는 현상을 '심슨의 패러덕스'라고 합니다. 이를 통해 우리는 통계나 데이터만 봤을 때 잘못된 결론을 내릴 수 있다는 것을 알 수 있습니다. 따라서 데이터를 해석할 때는 전체적인 맥락과 여러 관점에서의 분석이 필요하다는 것을 기억해야 합니다.

3. 생존자 편향 (Survivorship Bias):

오직 생존한 경우나 성공한 사례만을 기반으로 분석을 진행할 때 발생하는 오해입니다. 예를 들어, 성공한 기업들의 특징만을 분석하여 그 원인을 찾으려고 할 때, 실패한 기업들의 사례는 완전히 무시되기 때문에 왜곡된 결과를 얻을 수 있습니다.

Causality (인과관계)

인과관계는 한 일이 다른 일을 일으킨다는 것을 나타내는 관계입니다. 예를 들면, 물을 끓이면 물이 뜨거워지게 됩니다. 이처럼 한 일(A)이 다른 일(B)을 발생시키면, A는 B의 원인이 되는 것입니다. 이게 바로 인과관계입니다.

그렇다면, 항상 두 사건이 함께 발생한다면 그 둘 사이에 인과관계가 있을까요? 그건 아닙니다. 예를 들면, 우산을 쓰는 사람이 많아지면, 비도 오게 됩니다. 하지만 우산을 쓰는 것이 비를 내리게 하는 원인은 아니죠. 이렇게 두 사건이 함께 발생하는 것만으로는 인과관계를 말할 수 없습니다.

구조적 인과 모델 (Structural Causal Models, SCMs)

출처: https://matheusfacure.github.io/python-causality-handbook/04-Graphical-Causal-Models.html

그렇다면 인과관계를 어떻게 표현할까요? - 구조적 인과 모델 (Structural Causal Models, SCMs) 인과관계를 수학적으로 표현하는 방법 중 하나가 바로 구조적 인과 모델입니다. 이 모델은 그림과 수식을 통해 인과관계를 나타냅니다. 그림에서는 원(변수)과 화살표(원인과 결과)로 구성되며, 화살표의 방향은 원인에서 결과로 향합니다. 이렇게 인과관계를 명확하게 표현할 수 있습니다.

인과 추론 (Causal Inference) 이건 우리가 이미 알고 있는 원인과 결과를 바탕으로, "이것 때문에 저것이 생길까?"라는 질문에 답하는 것입니다. 예를 들어, "매일 사과를 먹으면 건강해질까?" 라는 질문에 답하는 것이죠.
인과 발견 (Causal Discovery) 이건 좀 다릅니다. 여기서는 원인과 결과의 관계를 정확히 모르는 상태에서, 관측된 정보만으로 "이것이 저것을 일으키는 원인일까?"라는 것을 찾아내려는 것입니다. 예를 들면, 여러 사람들이 어떤 음식을 먹은 후 어떻게 느꼈는지의 정보만 있을 때, "이 음식이 사람들에게 기분 좋게 만들까?"라는 것을 찾아보는 것이죠.

우리의 생활에는 수많은 데이터와 통계가 있습니다. 그러나 그 모든 정보가 우리에게 유용하거나 중요한 것은 아닙니다. 우리는 이러한 데이터를 올바르게 해석하고 이해하는 능력이 필요합니다. 잘못된 상관관계, 심슨의 패러덕스, 생존자 편향과 같은 함정들에 빠지지 않기 위해 통계와 데이터 분석에 대한 깊은 이해와 주의가 필요합니다.

통계와 데이터는 단순한 숫자와 그래프를 넘어, 우리의 일상과 결정에 큰 영향을 미칩니다. 그러므로 데이터를 올바르게 해석하고, 인과관계와 상관관계를 올바르게 구분하는 것이 중요합니다. 또한, 우리는 데이터와 통계의 한계를 인식하고, 그 한계 내에서 올바른 결정을 내리기 위한 깊은 사고가 필요합니다.

마지막으로, 데이터와 통계는 단순한 정보 제공이 아니라, 우리의 생활과 사회, 그리고 미래에 대한 통찰력을 제공합니다. 따라서 우리는 이러한 통찰력을 바탕으로 더 나은 미래를 위한 결정과 행동을 취해야 합니다. 데이터와 통계를 올바르게 이해하고 활용하면, 우리는 더 나은 미래를 만들 수 있습니다.

'데이터사이언스(Data Science) > ML & DL' 카테고리의 다른 글

[Machine Learning] KNN 머신러닝 알고리즘을 활용한 환자 맞춤형 약물 예측 (90)	2024.01.20
[Time Series] 시계열 예측의 기초: MA, ARMA, ARIMA 모델 완벽 가이드 - 2탄 AR(Auto-Regressive) (98)	2024.01.19
[Time Series] 시계열 예측의 기초: MA, ARMA, ARIMA 모델 완벽 가이드 - 1탄 SMA & EMA (90)	2024.01.15
[Time Series] 타임시리즈 기초배우기 (79)	2024.01.13
[Data Science] Pycaret으로 복잡함 없이 기계학습(Machine Learning) 시작하기: 초보자를 위한 가이드 (44)	2023.10.15

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 벌집

[Data Science] 데이터 속의 진실: Causality을 통해 본 원인과 결과

통계의 오해와 함정

1. 잘못된 상관관계 (Spurious Correlation)

2. Simpson's Paradox 심슨의 패러덕스

3. 생존자 편향 (Survivorship Bias):

Causality (인과관계)

구조적 인과 모델 (Structural Causal Models, SCMs)

'데이터사이언스(Data Science) > ML & DL' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[Data Science] 데이터 속의 진실: Causality을 통해 본 원인과 결과

통계의 오해와 함정

1. 잘못된 상관관계 (Spurious Correlation)

2. Simpson's Paradox 심슨의 패러덕스

3. 생존자 편향 (Survivorship Bias):

Causality (인과관계)

구조적 인과 모델 (Structural Causal Models, SCMs)

'데이터사이언스(Data Science) > ML & DL' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역