adsense_in_article_test


선거에서 "통계적 기적"은 과연 실제로 일어나는가 일기/잡담


5월 11일자 주간조선 기사다. 월터 미베인(Walter Mebane) 교수가 작성한 총선 조작 관련 논문에 문제가 있다는 취지의 기고문인데, 내가 해당 논문을 아직 살펴보지 않은 관계로 이 부분에 대해서는 이렇다 저렇다 얘기할 것이 없지만 그 다음에 소위 "실제로 일어나는 통계적 기적"이라면서 제시한 부분이 도대체 납득이 가지 않아서 여기에 정리해 본다. 이탤릭(기울여 쓰기)체로 표시한 부분이 위의 기사에 나온 내용을 인용한 것이다.


총선 조작설을 관통하는 핵심 이슈는 ‘다수의 선거구나 투표소에서 똑같은 의혹이 반복적으로 확인된다’는 것이다. 인위적 개입이 없는 정상적인 선거에서는 그런 일이 일어날 ‘확률’이 실질적으로 0이라고 해야 할 정도로 작기 때문에, 절대 일어날 수 없는 일이 일어났다는 것이 통계 전문가들의 공통된 주장이다.

그런데 이건 어떤가. 253개 선거구에서 당선 확률이 90%인 후보들이 모두 당선됐다고 쳐보자. 이런 일이 일어날 확률은 0.9의 253제곱이다. 고작 1조(兆)분의 2.7에도 미치지 못하는 정말 작은 확률이다. 그렇다고 하더라도 실제 이런 선거 결과가 나오면 조작이라고 하지는 않는다.



우선 알아두어야 할 점이 있다. 확률과 통계가 의미를 가지려면, 표본 규모가 충분히 크거나 시간적으로 충분히 많은 반복 시행이 있어야 하고 이 과정에 무작위성이 존재해야 한다.

예를 들어 북한의 선거를 보자면, 투표소에 "100% 찬성 투표하자"는 문구를 걸어놓고 투표를 한 후에 개표해 보니 99% 찬성에 무효표 1%였다. 실제 이런 선거 결과가 나오면 조작이라고 하지는 않는다. 그렇다면 이것은 통계적 기적인가? 아니다. 표본 규모는 충분히 크지만 무작위성이 결여되어 있기 때문에 통계적으로 의미가 없다. 이런 것은 통계적으로 분석할 필요조차 없다.

253개 선거구의 후보들이 모두 당선 확률이 90%인 상황은 어떤 상황인가? 누군가 여론조사를 하더니 "대한민국 253개 선거구 전체에서 90%의 확률로 당선자를 지목할 수 있다"고 발표했다 치자. 일부 선거구에서 당선 확률 90%인 후보가 있을 수는 있겠지만, 그 정도가 아니라 대한민국 선거구 전체에서 확률 90%라는 계산 결과가 나온 상황이라면 우리는 해당 여론조사를 의심하고 검증해야 하는가, 아니면 통계적 기적이라고 받아들여야 하는가?


노벨물리학상을 받은 미국의 천재 물리학자 리처드 파인만이 물리학 강의 중에 그런 사실을 흥미롭게 설명했다. 파인만은 학생들에게 “주차장에 주차를 하고 보니 앞에 서 있는 자동차의 번호가 ARW 357이었는데 얼마나 놀라운 일인가? 운행 중인 수백만 대의 자동차 중에서 그 번호판을 달고 있는 자동차는 오직 한 대뿐이지 않은가?”라고 했다. 선거의 경우처럼 이미 일어나버린 일에 대한 확률론적 해석은 극도로 조심스러운 것이라는 뜻이다.


반복성이 결여된 일회성 사건이므로 확률 측면에서 별 의미가 없다. 확률적 기적을 논하려면 아래와 같은 정도는 되어야 할 것이다.

주차장에 주차를 하고 보니, 앞에 서 있는 자동차 번호가 ARW 357이었다. 그런데 그 다음날도 앞에 서 있는 자동차 번호가 ARW 357이었다. 이런 식으로 30일 연속 ARW 357이 내 앞에 서 있었다. 이것은 확률적 기적인가, 아니면 무작위성을 깨뜨리는 다른 원인이 있는 것인가?


1에서 45까지의 숫자 중에서 6개를 맞히는 로또의 당첨 확률도 814만분의 1이다. 통계적으로는 평생 동안 매주 로또를 사더라도 당첨될 가능성을 기대할 수 없다. 그런데 놀랍게도 실제로 로또에 당첨되는 사람이 나온다. 드문 일도 아니다. 거의 매주, 그것도 10명 안팎의 당첨자가 나오는 경우가 많다. 심지어 난생처음 구입한 로또가 당첨되기도 한다.


로또의 당첨 확률이 814만분의 1이다. 그런데, 매주 로또는 몇장이 판매되고 있는지 생각해 보자. 5월 9일자 광주매일신문 기사를 보니, 제909회 로또 총 판매액이 895억원이라고 한다. 로또 한 게임당 1000원이므로 8950만번의 시도가 있었다는 얘기다. 최소 수백만명이 넘는 로또 구입자들이 서로 상의해서 같은 번호만 고르지는 않으므로 표본 규모도 크고 무작위성도 존재한다. 

대략 당첨 확률 800만분의 1인 복권에 9천만번에 가까운 무작위 시도가 있었으므로 확률적으로 1등이 11명 정도 나올 것이다. 해당 기사에 의하면 1등 당첨자는 11명이었다.  도대체 어느 부분이 통계적 기적이라는 것인가?

이것은 기적이 아니라, 확률/통계를 절대 무시하면 안된다는 명백한 증거를 가져다가 정보를 부분적으로 제거한 후에 "기적"으로 둔갑시킨 사례 아닌가? -_-;


동전 던지기도 마찬가지다. 확률적으로는 평생을 던져도 가능성이 없다. 그러나 253개의 동전을 단 한 번 던져 모두 앞면 또는 뒷면이 나올 수 있다. 확률이 순서를 뜻하는 것이 아니기 때문이다. 실제로 윷놀이에서도 ‘윷’과 ‘모’가 생각보다 자주 나오기도 한다.

실제로 세상은 ‘통계적 기적’으로 가득 채워져 있다. 우리가 부모의 자식으로 태어난 사실도 생물학적으로 도대체 불가능한 통계적 기적이다. 낯선 길을 걷다가 오래전에 연락이 끊어졌던 옛 친구를 느닷없이 만나게 되는 기적도 일어난다. 사실 그런 확률적 기적 때문에 세상은 한번 살아볼 가치가 있는 것이다
.


개별적인 일회성 사건은 확률/통계와 별 관계가 없다. 수백/수천 이상의 표본 규모에서 표본 전체를 이미 결정된 특정한 상태(값)으로 제한하는 외부적 요인이 없이 무작위성이 존재하는 경우에 확률/통계적 분석이 의미를 지니게 된다.

갑돌이가 어느 날 동전을 253번 던졌더니 모두 앞면이 나왔다고 해서 당장에 확률 계산을 거짓말로 치부할 수 있는 것이 아니다. 갑돌이가 앞면만 나오게 던지는 요령을 터득했을 수도 있고, 동전에 문제가 있어서 누가 던지든 앞면이 나올 확률이 심각하게 높을 수도 있고, 또는 확률적 기적일 수도 있다. 하지만 이 상황이 벌어졌을 때 오로지 확률적 기적라고만 해석해야 하는 이유는 무엇인가?

자식이 태어나는 것이 과연 생물학적으로 불가능한 통계적 기적인가? 정자와 난자가 만나 수정이 이루어지는 것이 쉽지 않은 것은 사실이다. 그런데, 난자와 만나기 위해 전진하는 정자의 수가 몇이나 되는지 생각해 보자. 로또 당첨 확률이 800만분의 1인데 로또 복권이 1주일에 몇장이나 팔리는지 생각해 보는 것과 같은 맥락이다. 여기서 도대체 어느 부분이 생물학적으로 불가능하고 통계적으로 기적이라는 것인가?


사전선거의 규모가 커진 만큼 결과에 대한 통계적 해석도 달라져야 한다. 하나의 모(母)집단이 무작위로 나눠졌다는 해석은 위험할 수 있다. 전국적으로 사전선거에서는 여당의 사전선거 득표율이 당일선거보다 10.60% 높았다. 야당은 거꾸로 사전선거 득표율이 당일선거보다 10.57% 낮았다.

물론 사전선거와 당일선거를 하는 4~5일 사이에 유권자들의 성향이 크게 달라졌다고 보기는 어렵다. 오히려 정치적 성향에 따라 사전선거와 당일선거에 대한 인식이 달랐을 가능성을 고려해야 한다. 여당 지지자들은 자신의 선택을 서둘러 투표로 확인하고 싶어 했고, 야당 지지자들은 마지못해 당일선거까지 기다렸을 가능성이 있다는 뜻이다.



민주당/통합당 양자구도의 선거구는 이런 식으로 설명할 수 있을지 모르겠으나, 민주당/통합당/정의당 3자구도의 선거구에서 벌어진 양상은 설명이 되지 않는다. 3자구도 선거구의 희한한 양상은 이미 이전에 작성한 글이 있어서 여기서 구구절절 반복하기는 귀찮으니, 이전 게시물을 참고하자. 여기로

대규모 표본 집단이 참여한 투표 결과에서 무작위성이 훼손된 것처럼 보이는 양상이 나왔다면, 그 원인은 하나가 아니고 여러 요소가 복합적으로 작용했을 수 있다. 사전투표/당일투표에 대한 유권자의 인식이 지지층에 따라 달랐을 수도 있고, 개표/집계 과정에서 IT시스템에 오류가 있을 수도 있고, 누군가가 의도적으로 조작했을 수도 있고, 통계적 기적이 일어난 것일 수도 있다. 여기서 오류 내지는 의도적 조작 가능성만을 골라서 그럴 리가 없다고 배제해야 하는 이유는 무엇인가?

내가 보기에는 "차라리 통계적으로 기적이 일어났으면 일어났지 대한민국 선거 시스템은 잘못되었을 리가 없다"는 식의 주장이야말로 정말 심각하게 위험해 보인다. -_-;


이미 끝난 총선에 대한 의혹은 우리 모두에게 몹시 당혹스러운 일이다. 그렇다고 의혹 제기를 무작정 탓할 수는 없다. 선관위가 적극적으로 나서서 상황을 정리해야 한다. 어설픈 보도자료로 해결될 상황은 절대 아니다. 특히 선거 결과 자료를 온라인으로 공개하는 관행은 반드시 지켜져야 하고, 법원의 선거자료 확보에도 협조해야 한다.

통계는 현대사회에서 매우 유용한 정책·의사결정 수단이고, 개인의 차원에서는 실감할 수 없는 사회·경제·정치적 변화를 읽어내는 유일한 수단이다. 사회과학·자연과학·공학·의학에서도 통계는 절대적으로 유용한 수단이다.



이 부분은 100% 동의한다. 선거 시스템에 문제가 없다는 점을 규명하는 작업에 선관위가 적극적으로 나서서 사용된 장비들, 개표절차, 통신망 구성 등을 투명하게 공개하여 IT전문가들, 정당 관계자들 등 필요한 사람들이 충분히 참여하여 검증함으로써 미흡한 부분을 보완하고 의혹을 해소하는 것이 옳다고 생각한다. 그렇게 해서 문제가 없다면 앞에서 얘기한 IT시스템 오류와 의도적 조작을 제외할 수 있게 되니까, 그 다음부터 유권자 인식의 문제인지 통계적 기적인지 아니면 기타 다른 요인이 있는지 다각도로 연구해 볼 수 있을 것이다.


미국의 소설가 마크 트웨인은 세상에 ‘거짓말, 새빨간 거짓말, 그리고 통계라는 거짓말’이 있다고 했다. 엉터리로 만들어진 통계에 의한 폐해와 통계에 대한 엉터리 해석을 경계해야 한다는 매우 소중한 교훈이다.
 

엉터리로 만들어진 거짓말의 폐해는 통계에만 있는 것이 아니라 모든 분야에 존재한다. 마크 트웨인이 얘기한 "lies, damn lies, and statistics"는 "거짓말을 진실인 것처럼 속이기 위해 왜곡된 통계를 이용하는 행위"를 지칭한 것이라고 보는 것이 타당할 것이다. 미베인 교수가 소위 "통계적 기적"을 공격하기 위해 거짓 통계를 만들었는지 어쨌는지는 모르겠지만 말이다. 

지금까지 확률/통계적으로 유의미한 작업에서 기적이 일어나는 경우는 한번도 보지 못했다. 데이터셋이나 계산 결과를 보고 "야 이건 미쳤는데?"라는 반응이 나왔던 것들은 전부 데이터를 잘못 입력했거나, 데이터 자체에 심각한 누락/오류가 있거나, 인위적으로 조건이나 제약을 적용해서 편중된 표본을 택하거나 조작했거나, 코딩을 잘못해서 계산이 틀렸거나, 또는 이러한 요인들의 조합이었다. 혹시 누구라도 수십만 이상의 대규모 표본집단에서 기적적인 통계를 실제로 접한 사람이 있다면, 댓글이나 트랙백을 통한 반론 대환영이다.

운명처럼 연인을 만나거나 낯선 거리에서 오래된 친구를 만나는 것처럼, 한 사람에게 일어나는 개인적인 기적은 존재할 수 있다. 그러나 수천만명이 자율적으로 선택해서 통계적인 기적을 이루는 경우는 존재할 수 없다고 본다.

문제는 통계가 아니다. 문제는 지금 누가 거짓말을 하고 있느냐다. "통계적 기적"이니까 믿으라고 할 사안이 아니라, 적극적인 검증과 논의와 조사를 통해서 합리적으로 명백하게 밝혀야 할 사안이다.



핑백

  • 반달가면 : 월터 미베인 교수의 총선 투표 조작 관련 논문에 대한 약간의 고찰 2020-05-15 20:54:14 #

    ... 대다수가 알 수 없는 어떤 초자연적인 영향으로 가우스 분포를 깨부수는 통계적 기적을 창출해 냈다. 통계적 기적을 창출할 가능성에 대한 문제는 이전 게시물을 참고하자. 여기로 5. 기타: (댓글이나 트랙백 대환영) 논문의 결론을 보면, 미베인 교수는 eforensics 모델로 검증했을 때 이번 국회의원 선거 데이터가 조작되었을 가능성 ... more

덧글

  • 2020/05/14 20:33 # 답글 비공개

    비공개 덧글입니다.
  • 2020/05/15 16:33 # 비공개

    비공개 답글입니다.
  • 버릇없는 꼬마눈사람 2020/05/15 20:33 # 답글

    천안함 때는 온갖 기상천외한 상상력들을 "합리적 의심"이라던 분들이
    지금은 다 어디로 갔을까요? 뭐 진영에 따라 이야기가 달라지긴 하지만..
    제가 보기에도 이번 선거는 "부정"인지 "부실"인지는 모르겠지만
    뭔가 굉장히 문제점이 많은 것 같은데 말이죠.
  • 반달가면 2020/05/15 21:00 #

    이상한 점이 분명히 존재하기 때문에 부정인지 부실인지 투명하게 규명을 해야될 문제라고 봅니다.
댓글 입력 영역
* 비로그인 덧글의 IP 전체보기를 설정한 이글루입니다.


B-Side


adsense(w160_h600)2

통계 위젯 (화이트)

676767
4519
2078653

2019 대표이글루_IT

Google Analytics