본문 바로가기
통계

통계적으로 유의미한 결과는 얼마나 유의미할까

by 아잘 2016. 5. 29.

출처: 사이언스 온

http://scienceon.hani.co.kr/402347


‘통계적으로 유의미한 결과’는 얼마나 유의미할까


박준석 2016. 05. 20
추천수 0


[4] 과학 발전 저해하는 ‘영가설 유의성검정’ 방식


00phacking2.jpg » 데이터에서 찾아낸 '통계적 유의성'은 어떤 의미를 지닐까? 영가설 유의성검정이 연구자의 입맛에 맞게 악용될 수도 있다는 점은 재현성 위기의 배경이 되고 있다. 사진 출처/ The Academy of Medical Sciences, Reproducibility and reliability of biomedical research (2015)


2014년 말 화제가 되었던 이른바 ‘땅콩 회항’ 사건을 아직 기억하는 이들이 많으리라 생각한다. 당시 대한항공 부사장이었던 조현아씨는 자사 비행기의 기내 서비스에 만족하지 못해 비행기를 임의로 회항시키고, 사무장과 승무원들에게 굴욕적 사과를 요구해 큰 사회적 물의를 빚었다. 결국 개인적으로도 각종 직책에서 해임되고 법정 구속 되는 수모를 겪었다. 사회 전반적으로도 ‘갑질’ 문화에 대한 자성의 목소리가 높아지는 계기가 되었다.


최근 이러한 ‘기내 난동’(air rage)에 관한 실증적 연구가 유명 과학 학술지인 <미국 국립과학원회보(Proceedings of National Academy of Science, PNAS)>에 게재되어 주목을 받았는데, 국내 언론에도 인용 보도되었을 정도로 큰 관심을 끌었다.[1] 이 연구는 일등석이 따로 설치되어 있는 비행기에서 기내 난동이 일어날 가능성이 그렇지 않은 비행기에 비해 더 높다고 주장했다. 연구자들은 불평등(inequality)에 대한 물리적, 상황적 노출이 그 원인이라고 설명했다. 일등석이 있는 비행기는 그렇지 않은 비행기보다 사람들로 하여금 불평등 상황을 더 생생하게 느끼게 함으로써 반사회적 행동을 부추긴다는 것이다.



‘기내 난동’ 연구에 담긴 문제들

00dot.jpg

논문에 대한 관심이 높아지면서 연구 내용에 대한 문제들 또한 속속 제기되었다. 예를 들어, 해당 논문에서는 일등석이 따로 있는 비행기에서 그렇지 않은 비행기에 비해 기내 난동이 일어날 가능성이 3.84배 가량 더 높다고 보고했다. 그런데 이런 결론에는 한 가지 문제가 있었다. 일등석이 따로 있는 비행기의 승객 수가 그렇지 않은 비행기에 비해 대체로 많고, 따라서 애초에 기내 난동이 일어날 확률이 더 높지 않았을까? 연구자들은 자료 분석 과정에서 전체 객석 수는 고려했지만, 실제 탑승 승객 수는 고려하지 않은 것으로 드러났다. 이 사실만으로도 해당 논문의 결론을 쉽게 받아들이기는 힘들어진다.


지만 이 글에서 지적하고자 하는 문제점은 따로 있다. 영향력이 매우 작은데도 기내 난동과 관련이 있다고 보고된 요인들이 꽤 많았다는 것이다. 이를 테면 논문에서는 비행기에 이코노미 좌석 하나가 늘어나면 기내 난동이 일어날 확률이 1.0031배 증가하며, 그 영향력은 ‘통계적으로 유의했다’고 보고했다. 그런데 기내 난동이 발생할 확률이 1.0031배 증가한다는 것이 어떤 현실적 의미가 있을까? 논문의 보고에 따르면, 일등석이 따로 있는 비행기에서 기내 난동이 발생한 비율은 1,000건 중 1.58회 가량이었다고 한다. 이와 같이 매우 낮은 확률로 발생하는 사건에 대해 ‘1.0031배 더 높은 확률’을 말하는 것이 의미가 있을까?


이 논문에서는 비슷한 다른 사례가 많이 발견된다. 이를 테면 비행 거리가 1마일 증가하면 기내 난동의 가능성은 1.0004배 증가하고, 도착 시간이 한 시간 지연되면 1.0526배 증가한다고 보고했다. 그러나 이러한 숫자들이 과연 현실적 의미가 있는 것인지 해당 논문에서는 논의되지 않았다. 보고된 것은 다만 그러한 증가분들이 ‘통계적으로 유의했다’라는 것뿐이었다.[2]


이처럼 특정 변수가 다른 변수에 끼치는 영향이 미약한데도, 일종의 통계적 기준에만 의거하여 영향력이 ‘유의했다’라고 학술지에 보고한 경우는 흔히 발견된다. 그리고 <미국 국립과학원회보>는 과학자들에게는 잘 알려진 유명 학술지임에도 그러한 문제가 있는 연구가 게재되는 것을 막지 못했다. 왜 이런 일이 일어날까? 그 한 가지 원인은 ‘영가설 유의성검정’, 혹은 줄여서 ‘유의성검정’ 이라 불리는 통계분석 방법에서 찾을 수 있다.



“별이 떴다!”…‘영가설 유의성검정’이란?

00dot.jpg

영가설 유의성검정 절차는 연구자들이 과학적 가설을 검정할 때 많이 사용하는 통계분석 방법이다. 여기서는 구체적인 수학적 내용에 대한 논의는 피하고, 핵심만 이야기하려 한다. 유의성검정 절차의 핵심은 연구자가 주장하는 가설 대신, 그것이 틀렸다고 주장하는 가설을 검증하는 것이다. 이 가설을 ‘영가설’(null hypothesis)이라 부른다. 앞에서 예로 든 기내 난동 연구의 경우, 연구가설이 ‘일등석의 존재가 기내 난동을 부추긴다’라면, 영가설은 ‘일등석이 있든 없든 기내 난동의 발생률은 동일하다’가 된다. 이와 같이 대개 영가설은, 특정 변수가 다른 변수에 대해 ‘효과가 없다’, 실험군과 대조군 간에 ‘차이가 없다’, 또는 두 변수 간에 ‘관련성이 없다’ 등의 진술로 나타난다.


구자들은 영가설을 검증하기 위해 ‘유의확률’ 또는 ‘p값’ 이라는 것을 계산한다. p값은 연구에서 얻은 데이터가 영가설과 얼마나 불일치하는가, 즉 영가설이 데이터를 얼마나 잘 또는 잘못 설명하는가를 나타내는 값이다. 좀 더 정확히 표현하면, p값은 영가설이 맞다고 가정했을 때, 관측된 데이터 이상으로 극단적인 데이터가 관측될 확률이다.


p값은 0과 1 사이의 값을 가질 수 있으며, 그 값이 작을수록 영가설과 데이터가 불일치함을 의미한다. 달리 표현하면, p값이 작을수록 데이터가 영가설을 반박한다는 것으로 해석할 수 있다.


여기에서 0.05라는 수치가 일종의 기준점으로서 매우 중요하다(그런데 0.05 라는 수치가 특별한 수학/통계적 의미가 있는 것은 아니며, 과학자들이 설정한 기준이며 사실 그 값이 0.05여야 하는 필연적 이유는 없다). 흔히 p값이 0.05보다 작으면 영가설이 데이터를 충분히 잘 설명하지 못하는 것으로 간주하고, 영가설을 기각한다. 즉, 연구자의 가설이 참이라는 결론에 도달한다. 과학 논문에서는 0.05보다 작은 p값 옆에 흔히 별 표(*)를 달아 영가설을 기각했음을 나타낸다. 속칭 ‘업계 용어’로는 ‘별이 떴다’라고 표현하기도 한다.



유의성검정 절차의 문제점들

00dot.jpg

그런데 이와 같이 과학적 가설이 참인지 거짓인지를 단순히 ‘별이 떴는지’의 여부만으로 판단하는 데에는 많은 문제들이 뒤따른다. 대표적인 것들로는 다음과 같은 것들이 있다.


우선 영가설은 애초에 참일 가능성이 거의 없다. 영가설은 ‘차이가 없다’, ‘효과가 없다’ 등을 의미함을 떠올려 보자. 그런데 현실에서 특정 변인이 다른 변인에 대해 전혀 효과가 없는 경우가 얼마나 될까? 다시 말해, 효과의 크기가 정확히 0과 같은 경우가 얼마나 될까? 아마 흔치 않을 것이다.


를 들어 일등석이 있는 경우와 없는 경우, 기내 난동이 일어날 확률이 완전히 같을까? 아마도 일등석의 존재는 어떤 식으로든, 아주 조금이라도 기내 난동의 발생에 영향을 줄 것이다. 아무리 그 크기가 작더라도, 심지어 0.00000000000000001 일지라도 정확히 0은 아닐 것이다. 영가설 유의성검정은 이런 상황에서 일등석의 존재가 기내 난동에 영향을 ‘준다’라고 결론 내린다. 왜냐하면 영가설은 효과의 크기가 0인지 아닌지에 관심이 있을 뿐, 그 값이 정확히 0에서 얼마나 다르게 멀리 있는지에 대해서는 관심이 없기 때문이다. 이와 같이 유의성검정은 현실적으로는 ‘무의미한 차이’까지 ‘유의한 것’으로 둔갑시키는 역할을 할 수 있다.


또한 유의성검정은 과학의 작동 방식과 반대의 기능을 수행한다. 상식적으로 과학 이론이 인정받기 위해서는 숱한 도전을 이겨내야 한다. 즉 해당 이론이 틀렸다고 주장하는 수많은 반박 시도를 이겨내고 나서야 학계에서 인정받을 수 있다. 이는 ‘반증주의’로 알려진 과학철학적 입장이기도 하다. 그런데 앞서 언급했듯, 영가설 유의성검정에서 혹독한 검증 절차를 거치는 것은 연구자가 주장하는 ‘연구가설’이 아니라, 그것이 틀렸다고 주장하는 ‘영가설’ 이다. 다시 말해 유의성검정은 연구자의 가설이 아니라, 그것에 대한 반박 시도를 혹독하게 검증하는 절차라 할 수 있다. 이는 반증주의적 과정과는 반대라 할 수 있다.


또한 유의성검정은 연구자의 입맛에 맞게 악용될 수 있다. 앞서 언급했듯이, 유의성검정 절차에서는 흔히 p값이 0.05보다 작으면 영가설을 기각하고 연구가설을 참으로 받아들인다. 따라서 연구자의 입장에서는 p값이 0.05보다 작은 것이 유리하다. 그것이 자신의 가설을 지지하는 결과기 때문이다.


런데 연구자가 가설에 유리하게 p값을 작게 만들 수 있다는 것이 알려져 있다. p값을 작게 만드는 방법들로는 다음과 같은 것들이 있다. 첫째, 분석에 사용되는 데이터가 많으면 많을수록 p값이 작아지기 때문에, 연구자는 p값이 0.05보다 작아질 때까지 데이터를 계속 수집할 수 있다.(이론적으로는 데이터가 무한히 있으면 p값을 0으로 만들 수 있다.) 둘째, 어떤 통계분석 절차를 쓰느냐에 따라 p값이 조금씩 달라지는데, 연구자는 이들 중 자신의 가설을 가장 지지하는 결과를 선택적으로 보고할 수 있다. 셋째, 연구자는 애초부터 종속변수에 영향을 끼칠 만한 독립변수들을 한꺼번에 조사한 후, 그들 중 통계적으로 유의한 결과가 나온 것만 골라서 보고할 수 있다. 이들을 포함한 다양한 방법을 사용하여 연구자는 데이터 분석 결과가 자신의 가설을 지지하도록 영향력을 행사할 수 있다.



재현성 위기 부추기는 ‘p값 잘라내기’

00dot.jpg

이와 같이 자신의 연구가설에 유리한 (0.05보다 작은) p값들만 골라 보고하거나 인위적으로 만들어내고, 나머지는 숨기는 잘못된 연구 관행은 과학계에 ‘p값 잘라내기’(p-hacking)라는 이름으로 알려져 있다. p값 잘라내기는 인위적 선택이 없었다면 보고되었어야 할, 0.05보다 큰 p값들이 학술 논문에 보고되지 않고, 대신 인위적으로 만들어진, 0.05보다 작은 p값들이 학술지에 과잉 보고되는 결과를 가져온다. 이는 지난 글의 주제인 ‘출간 편향’과도 밀접한 관련이 있다. 출간 편향은 ‘통계적으로 유의한’ 연구결과들만 학술지에 보고되고, 그렇지 않은 결과들은 서랍 속에서 잠자는 현상을 일컫는데, 지난 글에서는 학술지 측의 문제, 즉 학술지들이 양성 결과만을 출간하려는 성향에 대해 이야기했다. 이 글에서는 연구자 측의 문제, 그러니까 애초부터 ‘통계적으로 유의한 결과’만을 생성하려 하는 문제를 지적하고 있다.


p값 잘라내기가 성행하는 상황에서는 연구자들이 인위적으로 만들어낸, ‘통계적으로 유의한’ p값들이 학술지에 과도하게 보고된다. 그 기준이 0.05이기 때문에, ‘인위적으로 만들어진’ p값들은 주로 0.05보다 약간 작은 값에 집중되게 된다. 따라서 학술지에 보고된 p값들이 0.05 바로 아래에 집중되는지 살펴보면 p값 잘라내기가 유행하고 있는지 아닌지 간접적으로 판단할 수 있다. p값 잘라내기가 없는 상황에서는 p값들이 특정 값에 치우치지 않고 고루 분포한다는 것(균등분포를 따른다는 것)이 알려져 있기 때문에, p값이 특정한 값 근처에 집중되어 있다는 사실 자체가 p값에 대한 인위적 개입을 암시한다고 볼 수 있다.


최근 출간된 한 연구는 그러한 상황이 실제로 벌어지고 있음을 암시한다. 오스트레일리아의 생명과학자인 메건 헤드와 동료들이 2015년에 수행한 연구에서는 그 동안 생명과학 분야에서 출간된 연구들이 보고한 p값들 의 분포를 살펴보았는데, 결과는 다음과 같았다.

00phacking.jpg 

위 도표는 한 선행연구에서 보고된 p값들의 분포를 나타낸다. 잘 보면 p값들이 0.05보다 작은 값에 다소 집중되어 있음을 알 수 있다(꺾은선 그래프가 해당 부분에서 갑자기 꺾여 올라갔다). 실제로는 보고된 318개의 p값들 중 0.045와 0.05 사이에 있는 것이 17개, 0.040과 0.045 사이에 있는 것이 7개였는데, 연구진의 분석에 따르면 이러한 빈도는 일반적으로 기대되는 것보다 많다고 할 수 있으며, 그러한 상황이 우연히 발생했을 가능성은 매우 낮다. 이는 p값을 0.05보다 낮추기 위한 인위적 개입이 있었음을 암시한다. 이러한 패턴은 다른 선행연구들에서도 공통적으로 보고된다는 것이 이 연구의 결론이다.



과학 발전 저해하는 유의성검정 절차

00dot.jpg

사실 p값의 사용에는 앞에서 논의한, p값의 본질적인 한계들만 따르는 것이 아니다. 실제로 많은 과학 연구자들이 p값의 정확한 의미에 대해 이해하지 못한 채 그것을 사용하고 있다. 인지심리학자 게르트 기거렌처(Gerd Gigerenzer)에 따르면, 심지어 과학 연구방법론을 강의하는 사람들에게서도 p값의 개념에 대한 오해는 흔히 발견된다. 이와 같이 p값의 한계에 오해까지 겹쳐져, 유의성검정 절차는 과학 가설검정 절차에 대한 심각한 오해 및 오용의 원인이 되고 있다.


p값을 이용한 가설검정 방식을 제안하고 널리 보급한 사람은 현대 통계학의 토대를 정립하는 데 크게 기여한 로널드 피셔 (Ronald Fisher: 1890-1962) 경이었다. 그런데 피셔 경은 이와 같이 p값과 임의적인 기준만을 사용한, 이분법적인 가설검정 방식을 생각하고 있지 않았다. 그가 보기에, 0.05나 0.10 등의 기준은 자의적 기준이었을 뿐, 특정 가설의 옳고 그름을 결정하는 절대적 기준이 결코 아니었다. 그에게 p값은 있는 그대로의 의미, 즉 ‘영가설과 데이터가 얼마나 일치하는지’를 알아보는 한 도구였을 뿐이었다.


그런데 유의성검정이라는 이상한 통계분석 방식이 20세기 중반을 거치면서 생겨나고 학계 전반으로 확산되었다. 이제 유의성검정은 재현성 위기의 한 중요한 원인으로 지적되고 있다.[3] 이에 일부 학자들은 유의성검정의 사용을 완전히 금지할 것을 주장하기도 한다. 실제로 2015년 초 한 사회심리학 학술지인 <기초 및 응용 사회심리학(Basic and applied social psychology)>은 유의성검정을 사용을 공식적으로 완전히 금지하기도 했다. 이는 큰 논란을 낳았고, 급기야 미국 통계학회가 p값과 유의성검정에 대해 공식 해명하는 성명을 발표하는 초유의 사태를 불러일으켰다.[4] 이는 유의성검정이 과학 발전에 끼치는 해악이 결코 작지 않다는 통계학자들의 인식을 반영하는 것이라 할 수 있다.


지금까지 유의성검정이 무엇인지, 그리고 그것을 과학적 가설검정의 유일한 수단으로 삼는 것의 문제점에는 어떤 것들이 있는지 살펴보았다. 이에 과학계에서는 이를 극복할 다양한 대책들을 강구하고 있는데, 이에 대해서는 나중에 살펴보려 한다. 사실 출간 편향과 유의성검정 등의 문제들 뒤에는 더욱 근본적이고 구조적인 문제가 숨어 있는데 이에 대해서는 다음 연재 글에서 다루려 한다.


참고문헌


▒ DeCelles, K. A., & Norton, M. I. (2016). Physical and situational inequality on airplanes predicts air rage. Proceedings of National Academy of Science, 113(20), 5588-5591.

▒ Gigerenzer, G. (2004). Mindless statistics. The Journal of Socio-Economics, 33, 587-606.

▒ Head, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). The Extent and Consequences of P-Hacking in Science. PLoS Biology, 13(3): e1002106.

▒ Trafimow, D., & Marks, M. (2015). Editorial. Basic and applied social psychology, 37(1), 1-2.


[주]
[1] 예를 들면 http://www.segye.com/content/html/2016/05/05/20160505000996.html
[2] 좀더 자세한 논의에 관심이 있는 분들께는 다음의 링크를 읽어볼 것을 권한다.

  http://andrewgelman.com/2016/05/03/ahhhh-ppnas/

[3] 유의성검정을 풍자적으로 다룬 만화들. https://xkcd.com/882/ | https://xkcd.com/1478/

[4] 성명서의 전문이 공개되어 있다.

  https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf


박준석 미국 오하이오주립대학 심리학 박사과정  

@한겨레 과학웹진 사이언스온






댓글:


전체댓글수 1

유의성 검증은 실보다는 득이 많기 때문에 학계에서 보편적으로 사용되고 있는 것이다. P-value 자체보다는 데이터의 해석이 더 중요하다. P-value가 낮아도 유의미 할수 있고, P-value가 높아도 무의미 할수 있다. 그럼에도 유의성 검증을 하지않으면 재연성의 문제가 자주 발생하는 것을 대부분의 연구자들이 직접 경험한다. 오히려 가설에 끼워 맞추려는 인간의 의지나, 잘못된 통계모델의 사용이 유의성 검증의 오류들을 만들어 낸다.

  


'통계' 카테고리의 다른 글

250주년 베이즈 정리  (0) 2013.07.25
표준편차에서 n-1 쓰는 이유  (3) 2011.12.06
미주 한인 인구는?  (0) 2011.09.13