본문 바로가기

글/코딩

심슨의 역설과 데이터 통계

반응형

 

 얼마전, 데이터 통계방식에 대해 조사하던중 심슨의 역설(Simpson's paradox)을 경계하라는 말이 있었다.

처음 들어보는 용어였는데, 생각보다 예시가 흥미롭고 내가 자주 범하는 실수인 듯 하여 재미있게 내용을 읽은 기억이 있어서 정리해보고자 한다.

 

※ 이녀석과 무관합니다.

 

 


 

 

심슨의 역설( Simpson's paradox )

 

 1951년, 애드워드 심슨이라는 영국의 통계학자가 발견한 현상으로ㅜ데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미한다.

사회과학이나 의학 통계, 공정 통계 등 통계가 활용될 수 있는 모든 분야에서 종종 발생하는 issue이다.

 

심슨의 역설의 원인으로는 보통 두가지 정도가 고려된다.

  • 숨겨진 변수(confounding variable)의 존재: 숨겨진 변수가 각 그룹의 결과에 영향을 미치면서, 전체적인 경향성을 왜곡시킬 수 있다.
  • 비율의 차이 : 각 그룹의 크기가 다르다면, 비율의 차이가 전체적인 경향성을 왜곡시킬 수 있다.

 

가장 많이 인용되는 치료법에 따른 결석 치료의 예시로 보자면, 각 그룹의 비율에 의한 경향성 왜곡을 쉽게 확인할 수 있다.

위키피디아의 결석치료법 예시로 예를 들자면,

위키피디아의 신장결석 치료법 예시

위의 표에서 확인할 수 있듯이 특정 결석 치료법 A/B가 있을 때 큰 결석과 작은 결석 모두 치료법 A에서 더 좋은 치료율을 보인다.

이에 결석 크기와 무관한 전체 집합에서도 치료법 A가 더 나은 결과를 보일 것이라고 예상할 수 있지만, 치료법 B가 오히려 전체집합에서는 더 나은 결과를 보인다는 것을 알 수 있다.

언뜻보기엔 이상하지만 표의 수치를 하나하나 계산해보면 틀린점이 없다는 것을 알 수 있는데, 이는 아래의 숨은 변수 얘기와 종합해보면 사실 전체 집합으로의 섣부른 판단보다 위험한 것이 전체집합의 결과를 놓고 부분집합의 통계를 잘못 내는 경우라는 것을 알 수 있다.

 

출처 : wikipedia / 부분집합의 correlation이 전체집합을 대변하지 않는다.

 

전체 집합에서 위 차트를 보면 X/Y간 역상관관계가 있는 것으로 보이지만, 숨은 변수를 고려하여 차트의 데이터를 다시 구분하였을때는 각 그룹에서 반대의 경향이 보이는 것을 알 수 있다.

보통 이런경우는 X/Y간 상관관계에 대해 잘못된 추측을 유발할 수 있기에 특히 공정 엔지니어의 입장에서는 경계해야 할 상황으로 본다.

 

 


그럼 세부 그룹과 전체 그룹의 추세나 경향성은 무관한가?


 언뜻 듣기로는 Simpson's paradox로 인해 전체 그룹과 세부 그룹간의  데이터 관계가 무관한 것처럼 보일수도 있다.

하지만 이는 치명적인 숨은변수를 고려하지 않았거나 데이터의 크기가 서로 다른 관계에서의 특별한 현상이고 대체로는 세부 그룹의 경향이 전체그룹으로도 잘 이어지는 관계라고 이해해도 좋다.

어디까지나 특별한 case에서 고려해야 할 문제라는 것.

심슨의 역설을 고려하여 데이터 set이 주어졌을때 체크해볼만한 몇가지 요소가 있는데, 아래에 해당된다면 심슨의 역설이 발생하지 않을지 주의해서 데이터를 한 번 더 생각하면 될 것 같다.

  • 숨겨진 변수의 존재 가능성 고려 : 각 그룹의 결과에 영향을 미치는 숨겨진 변수가 있는지 인지한다.
  • 각 그룹의 크기 확인 : 그룹의 크기가 다르면, 비율의 차이가 전체적인 경향성을 왜곡시킬 수 있다.
  • 다중 회귀 분석 : 다중 회귀 분석은 여러 변수의 영향을 동시에 고려하여, 숨겨진 변수의 존재 가능성을 줄일 수 있다.


 심슨의 역설은 데이터 분석에서 흔히 발생할 수 있는 오류다. 나도 비슷한 경험이 있기도 하고...?

데이터 분석을 수행할 때는 숨겨진 변수의 존재 가능성을 고려하고, 각 그룹의 크기가 동일한지 확인할 수 있도록 하자.

반응형