본문 바로가기
통계

250주년 베이즈 정리

by 아잘 2013. 7. 25.

동아 사이언스

http://www.dongascience.com/news/view/1039

 

올해 250주년 맞은 베이즈 정리, 과학을 정복하다

  • [강석기의 과학카페 130] 확률적 믿음을 수식화 해
  • 더사이언스 | 기사입력 2013년 06월 11일 15:52 | 최종편집 2013년 06월 12일 09:11

  “기하학에 피타고라스 정리가 있다면 확률론에는 베이즈 정리가 있다.” - 해럴드 제프리스 경

 

  에스라인 몸매를 자랑하던 S씨는 10여 년 전 어느 날 샤워를 하다 문득 가슴에서 작은 덩어리가 만져지는 것 같은 느낌이 들었다. 며칠간 불면의 밤을 보내다 용기를 내 병원을 찾았고 유방암 검사를 했다. 당시 의사는 검사 정확도가 90%라고 알려줬다. 그리고 검사 결과 양성으로 나왔다. 자신이 유방암일 확률이 90%라는데 충격을 받은 S씨는 그 자리에 털썩 주저앉았다.

 

 “이 결과로는 유방암일 확률이 10%도 안 되니 너무 걱정하지 말고 추가 검사를 해봅시다.”

 “그게 무슨 말씀이세요?”

 

  의사 말에 따르면 유방암에 걸린 여성은 성인 여성의 1% 수준이고 검사 정확도가 90%이므로 정상인데도 검사에서 유방암에 걸린 것으로 나올 확률은 10%다. 따라서 설사 검사에서 양성으로 나왔더라도 진짜 유방암에 걸렸을 확률은 8%에 불과하다는 것.

 

  의사는 화이트보드에 수식까지 쓰며 설명해줬지만 S씨는 무슨 말인지 알아들을 수가 없었다. 아무튼 여러 검사를 한 결과 다행히 유방암이 아닐 걸로 판정됐다. 당시 의사가 S씨에게 설명하려고 했던 게 바로 베이즈 정리(Bayes' theorem)로 확률을 얻는 방법이다. 올해는 베이즈 정리가 발표된 지 250주년 되는 해다.

 

●사후에 친구가 논문 펴내

 

 베이즈 정리를 고안한 18세기 아마추어 수학자 토머스 베이즈의 초상. 진짜 베이즈의 초상인지 불확실하다. - 위키피디아 제공
베이즈 정리를 고안한 18세기 아마추어 수학자 토머스 베이즈의 초상. 진짜 베이즈의 초상인지 불확실하다. - 위키피디아 제공

  베이즈 정리를 만든 사람은 영국의 목사인 토머스 베이즈(Thomas Bayes)다. 1701년 목사의 아들로 태어난 베이즈는 결국 아버지를 이어 성직자의 길을 걸었는데 수학이 취미였다고 한다. 그는 평생 논문 두 편을 발표했는데 하나는 서른 살 때 펴낸 신학 논문이고 다른 하나는 35살에 익명으로 발표한 수학 논문으로 아이작 뉴턴의 미적분학의 논리적 기초를 옹호한 내용이다.

 

  그 외에는 이렇다 할 업적이 없는 삶을 살다가 베이즈는 1961년 60세로 사망했다. 이때 친구였던 리처드 프라이스(Richard Price)가 베이즈의 유고를 정리하다 흥미로운 메모를 발견했다. 베이즈가 특이한 통계 연구를 하고 있었던 것. 프라이스는 베이즈의 연구를 정리해 1763년 ‘런던왕립사회철학회보’에 발표했다. 이렇게 해서 무명의 아마추어 수학자 토머스 베이즈의 이름은 오늘날 수학 뿐 아니라 통계가 쓰이는 자연과학과 사회과학의 여러 분야에서 끊임없이 회자되고 있다.

 

  베이즈의 정리는 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 알고리듬이다. 따라서 사건이 일어날 확률을 토대로 의사결정을 할 경우 그와 관련된 사전 정보를 얼마나 알고 있고 이를 제대로 적용할 수 있는가에 크게 좌우된다. 흔히 베이즈 정리는 조건부 확률이라는 말로 표현되기도 한다.

 

  S씨의 사례로 돌아가 보면 중요한 건 ‘양성반응일 때 유방암일 확률’이다. 즉 양성반응이라는 조건에서 유방암일 확률을 ‘P(암|양성)’으로 나타낸다. 집합을 떠올리면 P(암|양성)은 다음과 같다.

 

  P(암|양성)=P(암∩양성)/P(양성), P(양성)은 양성반응일 확률.
  P(암∩양성)=P(암|양성)P(양성)

 

  마찬가지로 ‘유방암일 때 양성반응일 확률’은 다음과 같이 나타낼 수 있다.

 

  P(양성|암)=P(양성∩암)/P(암), P(암)은 유방암에 걸렸을 확률.
  P(양성∩암)=P(양성|암)P(암)

 

  따라서 P(암∩양성)=P(양성∩암)=P(암|양성)P(양성)=P(양성|암)P(암)이고 이 관계는 아래의 식으로 변형될 수 있는데 이게 바로 베이즈 정리다.

 

  P(암|양성)=P(양성|암)P(암)/P(양성)

 

  여기서 P(양성|암)은 ‘유방암일 때 양성반응일 확률’로 90%이므로 0.9다(확률은 0에서 1 사이다). 결국 S씨가 검사결과에 주저앉은 건 P(양성|암)을 P(암|양성)으로 착각했기 때문이다. 한편 P(암)는 유방암에 걸린 사람의 비율이므로 0.01이다. P(양성)는 양성반응인 확률로 이는 암에 걸린 여성이 양성반응인 확률에 암에 걸린 여성의 비율을 곱한 값(P(양성|암)P(암))에 유방암에 안 걸린 여성(N)이 양성반응인 확률에 유방암에 안 걸린 여성의 비율을 곱한 값(P(양성|N)P(N))을 더한 것이다(=0.9×0.01+0.1×0.99=0.108).

 

  따라서 P(암|양성)=0.9×0.01/0.108=0.083, 즉 검사에서 양성일 경우 유방암일 확률은 8.3%가 된다.

 

작고한 친구 베이즈의 유고를 정리해 논문으로 제출한 리처드 프라이스의 초상. 베이즈 정리는 19세기 초 프랑스의 저명한 수학자 라플라스가 독립적으로 재발견했다. 따라서 프라이스가 아니었다면 베이즈 정리는 오늘날 ‘라플라스 정리’로 불리고 있을지도 모른다. - 위키피디아 제공
작고한 친구 베이즈의 유고를 정리해 논문으로 제출한 리처드 프라이스의 초상. 베이즈 정리는 19세기 초 프랑스의 저명한 수학자 라플라스가 독립적으로 재발견했다. 따라서 프라이스가 아니었다면 베이즈 정리는 오늘날 ‘라플라스 정리’로 불리고 있을지도 모른다. - 위키피디아 제공

  허리에 나잇살이 약간 붙긴 했지만 여전히 에스라인을 유지하고 있는 S씨는 최근 샤워를 하다 또 가슴에서 멍울이 만져졌다. 이번에도 예전 병원을 찾았고 그 의사도 여전히 있었다.  검사결과 이번에도 양성이었다. 이전 경험도 있고 해서 S씨는 큰 충격을 받지 않았지만 정작 의사는 꽤 심각했다. 의사는 지난 10년 사이 진단 기술이 발달해 이제는 정확도가 99%에 이른다고 얘기했다.

 

  “90%에서 99%가 됐다고 큰 차이가 있나요?”

  “예전에는 양성일 경우 유방암일 확률이 8.3%였지만 지금은 50%나 되니까요.”

  “네?”

 

  이제 P(양성|암)은 0.99이고 P(양성)는 0.0198(=0.99×0.01+0.01×0.99)이므로 P(암|양성)=0.99×0.01/0.0198=0.5가 된다.

 

●수학자도 헷갈리는 몬티 홀 문제

 

  평소 통계에 대해 생각해보지 않았다면 위의 예는 여전히 알쏭달쏭할 수도 있다. 베이즈 정리의 위력을 보여주는 유명한 예가 ‘몬티 홀 문제(Monty Hall problem)’다. 1970년대 방송인 몬티 홀이 진행하는 퀴즈쇼에서 일어난 상황인데 1990년 칼럼니스트 마릴린 사반트가 잡지 ‘퍼레이드’에서 이 문제를 질문한 독자의 편지에 대해 답을 하면서 유명해졌다.

 

 

스포츠카는 어디에? 몬티 홀 문제는 새로 습득한 정보가 확률 추론에 어떻게 영향을 미칠 수 있는가를 잘 보여주는 사례다. - 위키피디아 제공
스포츠카는 어디에? 몬티 홀 문제는 새로 습득한 정보가 확률 추론에 어떻게 영향을 미칠 수 있는가를 잘 보여주는 사례다. - 위키피디아 제공

 

 

 

 

  문이 있는 방이 셋 있고 방 가운데 한 곳에는 스포츠카가 나머지 두 곳에는 염소가 들어있다. 문을 열었을 때 스포츠카가 있을 확률은 3분의 1. 퀴즈 참가자가 1번 문을 찍었다. 이때 ‘스포츠카가 어디에 있는지 알고 있는’ 홀이 3번 문을 활짝 열었고 염소가 모습을 드러냈다. 그리고 홀이 참가자에게 물었다.

 

  “선택을 바꾸시겠습니까?”

 

  각 방에 스포츠카(C)가 있을 확률은 3분의 1로 똑 같고(P(C1)=P(C2)=P(C3)=1/3) 참가자가 일단 1번 방을 선택한 뒤 진행자가 3번 방을 열었기 때문에(따라서 3번 방은 아니다) 1번 방과 2번 방에 스포츠카가 있을 확률이 1/2로 똑 같을 것 같다. 따라서 굳이 선택을 바꿀 필요는 없을 것 같다. 바꿔도 기대 확률은 마찬가지이기 때문이다.

 

  그러나 놀랍게도 정답은 3번 방으로 선택을 바꾸는 것이다. 이 경우 맞출 확률이 3분의 2로 2배나 높아지기 때문이다. 이 칼럼이 나가고 설명을 이해할 수 없다는 독자 편지가 쇄도했고 전문가들 사이에서도 논란이 일었다. 심지어 폴 에르되시 같은 일급 수학자조차 “왜 선택을 바꿔야하는지 이해하지 못 하겠다”는 반응을 보였다.

 

  몬티홀 문제의 핵심은 참가자가 새로 얻게 된 정보(3번 방에는 스포츠카가 없다)를 어떻게 추론에 반영하느냐 하는 것이다. 이때 베이즈 정리를 쓰면 선택을 바꿔야 하는 깔끔하게 이유가 설명된다. 새로운 정보, 즉 진행자가 3번 방을 열었을 때(O3) 1번 방에 스포츠카가 있을 확률은 다음의 베이즈 정리로 나타낼 수 있다.

 

  P(C1|O3)=P(O3|C1)P(C1)/P(O3)=(1/2)×(1/3)/(1/2)=1/3

 

  차가 1번에 있다면 진행자는 2번이나 3번 문을 열 수 있다. 따라서 P(O3|C1)는 2분의 1이다. 한편 참가자의 관점에서 자기가 1번 방을 선택했기 때문에 진행자는 2번이나 3번 문을 열 수 밖에 없으므로 P(O3) 역시 2분의 1이다.

 

  이제 진행자가 3번 방을 열었을 때(O3) 2번 방에 스포츠카가 있을 확률을 베이즈 정리로 구해보자.

 

  P(C2|O3)=P(O3|C2)P(C2)/P(O3)=1×(1/3)/(1/2)=2/3

 

  차가 2번에 있다면 진행자는 3번 문을 열 수 밖에 없다. 따라서 P(O3|C2)는 1이다. 결국 홀이 3번 문을 열고 난 뒤, 즉 새로운 정보가 알려진 뒤 2번 방에 스포츠카가 있을 확률은 3분의 2로 2배 높아진다는 말이다. 따라서 참가자가 자신의 감을 믿지 않고 순전히 확률이 높은 쪽을 택하기로 했다면 무조건 2번으로 선택을 바꿔야 한다.

 

  베이즈 정리가 나온지 250년이나 됐고 최근들어 여러 문제를 해결하는데 자주 쓰이고 있지만 이에 대한 비판은 여전하다. 베이즈 정리는 사전 정보(prior)가 확실한 것일 때만 성립하는 것인데 실제 상황에서는 이 정보가 100% 확실한 경우가 별로 없기 때문이다. 결국 불확실한 사전 정보를 토대로 사후 확률(posterior)을 추측하는 것이 타당한가에 대한 입장이 엇갈리고 있다.

 

  그럼에도 최근 빅데이터 과학이 베이즈 정리가 점점 더 많이 적용되고 있다. 데이터(사전 정보)가 100% 확실한 게 아니더라도 그 자체의 정보량이 많아지면 이른 통계적으로 해석해 베이즈 정리로 처리할 수 있다는 게 밝혀지고 있기 때문이다. 미국 스탠퍼드대 통계학과 브래들리 에프론 교수는 베이즈 정리 250주년을 맞아 6월 7일자 ‘사이언스’에 기고한 논평에서 “오늘날 응용 통계학 저널에 기고한 논문 가운데 4분의 1은 베이즈 정리를 사용한다”며 “대부분은 불확실한 사전 정보에 기초하고 있다”고 설명하고 있다.

 

●뇌는 베이즈 정리의 틀로 세상을 해석한다

 

  250년 전 베이즈 정리가 나왔고 21세기 빅데이터 시대를 맞아 재조명되고 있지만 사실 우리들은 알게 모르게 베이즈 정리의 방식으로 세상을 해석하고 의사결정을 내린다고 한다. 즉 뇌의 신경계는 불확실성의 세계에서 주어진 정보를 토대로 최적에 가까운 의사결정을 내리게 진화해 왔다는 말이다.

 

  즉 우리가 이전에 알고 있던 정보(prior)에 새로 습득한 정보(likelihood)를 조합해 이를 바탕으로 사후 확률(posterior)을 예측해 결정을 내린다. 이제 사후 확률은 업데이트된 이전 정보가 되고 여기에 또 다른 정보가 추가되면 사후 확률도 업데이트된다. 우리가 주변 세상의 변화에 적응해 살아갈 수 있는 건 뇌가 끊임없이 들어오는 정보를 베이즈 정리의 방식으로 반영하면서 자신을 업데이트하기 때문이라는 말이다. 

 

  베이즈와 동시대인이었던 스코틀랜드의 철학자 데이비드 흄은 확률론적 사고에 회의적이었다. 비록 오늘까지 매일 아침 해가 떴지만 내일도 해가 뜰지는 알수 없고 따라서 내일 아침 해가 뜰 것이라는 예측은 내일 아침 해가 뜨지 않을 것이라는 예측보다 본질적으로 더 합리적인 사고방식은 아니라고 주장했다.

 

  반면 베이즈는 확률에 기초한 사고도 합리성이라고 주장했다. 베이즈 정리에는 우리가 우주에 대해 점점 더 많은 정보를 모을수록 우주의 진리에 대해 한 걸음 더 가까이 다가갈 수 있다는 그의 수학적, 철학적 믿음이 표현돼 있는 것이다.

강석기 과학칼럼니스트 kangsukki@gmail.com

'통계' 카테고리의 다른 글

통계적으로 유의미한 결과는 얼마나 유의미할까  (0) 2016.05.29
표준편차에서 n-1 쓰는 이유  (3) 2011.12.06
미주 한인 인구는?  (0) 2011.09.13