adsense_in_article_test


미베인 교수의 논문에 대한 몇가지 반론 살펴보기 일기/잡담

이전에 썼던 "월터 미베인 교수의 총선 투표 조작 관련 논문에 대한 약간의 고찰"에서 비공개 댓글을 통하여 미베인 교수에 대한 비판 등 몇가지 반론이 있다는 얘기를 접하게 되었다. 적극적인 의견 개진에 감사드리며, 답글로 달기엔 조금 길어질 듯 하여 별도의 게시물로 작성한다.


1. 미베인 교수는 아이비리그도 아닌 주립대학 교수라서 통계학에 충분한 지식을 갖추었다고 하기 어렵다.

나는 논문의 내용에만 관심을 가졌고 저자의 학벌에는 별 신경을 쓰지 않았었는데, 논문의 내용 대신 저자를 공격하고 싶은 사람들이 있는 모양이다. 미베인 교수에 대해 조금 찾아보니 예일 대학교에서 박사학위를 받았고 현재 미시건 대학교 정치학과/통계학과 교수로 재직중이다. 예일 대학은 아이비리그이고 미시건 대학도 꽤 좋은 대학에 속한다.

대체 얼마나 좋은 학벌을 가졌기에 미베인 교수의 학벌을 논하는지 모르겠으나, 학벌을 따지기보다는 구체적으로 논문의 어떤 부분 때문에 문제가 있는지를 지적해야 할 것이다.


2. 미베인 교수는 한국 선거제도에 대한 이해가 부족하다.

이번 총선에서 사전투표를 미리 신청받는 형식이 아니다 보니, 해당 논문의 사전투표 군집 그래프에서 투표율이 100%쪽이 몰린 현상을 지적하면서 이런 얘기가 나온 것이 아닌가 싶다.

그러나 어떤 선거제도라도 투표율과 득표율이라는 수치는 존재하므로, 통계 분석 모델에서 일부 맞지 않는 부분이 있다고 분석 전체를 다 부정할 필요는 없다고 본다. 사전투표 투표율은 한국의 사전투표 방식 때문이라고 제외해도, 나머지(사전투표 득표율, 당일투표 투표율, 당일투표 득표율)에 대한 고찰은 충분히 해 볼 수 있다.

eforensics 모델을 자세히 살펴보진 않았지만, 단순히 투표율이 90% 이상으로 높다고 해서 조작이라고 판정하는 확률 계산에 심각한 영향을 줄 것 같지는 않다. 미베인 교수의 조작 모델은 2가지 조작 시나리오를 상정하는데, "상대의 표를 나의 표로 교체"하는 경우와 "투표하지 않은 사람을 투표자로 둔갑시켜 나의 표로 추가"하는 경우다. 사전투표의 경우 투표율 수치가 매우 높으므로, 만약 분석 모델에서 조작이 의심된다는 결과가 나왔다면 "상대의 표를 나의 표로 교체"하는 시나리오가 유효하다고 판정했기 때문일 것이다.


3. 선관위가 철저히 관리했을 것이므로 선거 과정의 오류는 절대 있을 수 없다.

수치가 아무래도 희한하니까 그 부분이 정말로 오류가 절대 있을 수 없는 것이 맞는지 궁금해지는 것은 당연하다. 선관위가 인간계를 초월하는 완벽한 신들의 집단은 아닐 것이므로, 이번 선거의 사전투표에서 심각한 실수나 오류가  있었는지 확인해 보고 싶어하는 것 자체를 비난할 필요는 없다고 생각된다.
 

4. 가우스 분포도 하나의 통계적 모델일 뿐이며, 대체로 자주 관찰되긴 하지만 반드시 이 분포를 따를 것이라고 단정할 수는 없다.  

가우스 분포가 엄청나게 자주 관찰되는 이유는 중심극한 정리(central limit theorem) 때문이다. 모집단이 아무리 괴상망측한 분포를 가지고 있어도 충분히 큰 규모의 표본을 추출하면 표본집단 기대값의 분포는 가우스 분포에 수렴한다고 아예 수학적으로 증명되어 있다. 그래서 실제로 통계를 다루다 보면 가우스 분포를 엄청나게 자주 접하게 될 수밖에 없다.

무선통신의 노이즈 모델링에서부터 여론조사까지 자연과학자/사회과학자/엔지니어 등 온갖 사람들이 온통 다 가우스 분포를 가정하는 이유가 그냥 심심해서 대충 그러는 것이 아니다. 표본을 추출해서 기대값(여기서는 득표율/지지율)을 관측할 경우 실제로 가우스 분포가 나오기 때문이다.

물론 여기에는 조건이 있다. 가우스 분포가 나오려면 표본(여기서는 투표자)의 무작위성과 상호독립성이 보존되어 있어야 한다. 심각한 수준으로 정치탄압을 일삼는 독재국가에서는 이런 조건이 보존되지 않으므로 북한의 투표는 99% 찬성에 1% 무효가 나오는 것이고, 가우스 분포가 나올 일도 없고 통계적 분석 자체가 의미가 없다.

정상적인 민주공화국 선거라는 가정하에서, 중심극한 정리를 뛰어넘고 가우스 분포가 깨졌다면 그 원인은 무엇일까? 통계적 기적인가, 아니면 데이터 오류 또는 조작인가, 아니면 내가 상상할 수 없는 무엇인가 심오한 다른 원인이 있는 것인가?



핑백

덧글

  • 2020/05/16 23:59 # 답글 비공개

    비공개 덧글입니다.
  • 2020/05/17 09:08 # 비공개

    비공개 답글입니다.
댓글 입력 영역
* 비로그인 덧글의 IP 전체보기를 설정한 이글루입니다.


B-Side


adsense(w160_h600)2

통계 위젯 (화이트)

49756
4475
2082187

2019 대표이글루_IT

Google Analytics