총선 사전투표 조작설과 보수 유튜버의 영향력에 대한 약간의 분석 작업 일기/잡담


이번 21대 국회의원 선거 결과를 놓고 지인들과 이런 저런 얘기를 하던 중에 좀 황당한 음모이론을 듣게 되었다. 수도권 지역에서 사전투표에 대한 조작이 있었고, 이로 인하여 민주당이 강남 등 일부 지역을 제외하고 수도권을 휩쓸었다는 주장이다.

요즘 시대에 그렇게 대규모 지역에 대한 선거 조작이 과연 가능하겠느냐 싶어서 "그런 SF/판타지적인 설명을 굳이 들고 나오지 않아도 미래통합당이 패배할 이유는 충분해 보이는데, 그냥 참패한 결과를 받아들이기 싫어서 억지로 우기는 것 아니냐"고 매우 회의적으로 대답을 해 주었더니, 선관위에 공시된 선거 결과를 직접 보고 통계적 개연성 측면에서 직접 확인해 보라는 식의 반박이 돌아왔다.

이 음모이론의 요지는, 사전투표와 당일투표가 같은 모집단(선거구)의 표본이므로 모집단 크기가 수백명 이상으로 충분히 크다면 사전투표 결과와 당일투표 결과의 통계 분포가 매우 유사해야 하는데 오히려 정반대라는 것이다.  

그래서 직접 가서 아예 정량적으로 산술적으로 계산을 해서 이 음모이론을 검증해 보기로 했다. 선관위에서 발표한 개표 결과는 아래의 링크에 가서 "투/개표" 항목 하위의 "개표단위별 개표결과"로 들어가면  볼 수 있다.

중앙선거관리위원회 선거통계시스템
http://info.nec.go.kr/

도표가 워낙 복잡해서 매우 귀찮은 일이긴 했는데, 어떤 방식으로 검증할지 고민을 하다가 우선 아래와 같은 가정을 하기로 했다.

가정 1. 솔직히 회의적이지만, 일단 백번 양보해서 조작이 있었다 치자. 조작이 가해진 쪽은 당일투표가 아니라 사전투표다. 투표일과 개표일 사이에 시간적 여유가 있기 때문에 조작할 확률이 훨씬 더 높을 테니까.

가정 2. 수백명 이상으로 큰 모집단의 일부는 사전투표일에 투표했고, 일부는 당일에 투표했다. 모집단이 충분히 크므로, 사전투표와 당일투표의 통계적 특성은 매우 유사해야 한다.

그런데, 가정 2에 문제가 좀 있다. 바로 아래의 기사다.

이준석 “유튜버에 휘둘리는 통합당, 이런 수준으론 안된다”

4월 17일자 조선일보 기사다. 문제의 내용은 아래와 같다.

 “보수 유튜버 중심으로 사전투표에 CCTV가 없으니 그건 정부에서 부정을 일으킬 수 있으니까 본투표로 가라고 했다. 실제로 본투표에 보수가 몰렸고 사전투표에 보수가 안 갔다”면서 “사전투표가 부정이라는 분들은 지고도 정신 못 차리는 것”이라고 했다.
 
나는 잘 몰랐는데, 보수 성향의 유튜버들이 미래통합당 지지층에게 사전투표하지 말고 본투표로 가라는 식의 얘기를 했다는 것이다. 이들의 영향력이 충분히 크다면, 사전투표 집단과 당일투표 집단의 통계적 특성이 달라지게 만들 수도 있다는 얘기다. 따라서, 가정 2를 아래와 같이 수정하는 것이 나을 듯하다.

가정 2(수정). 사전투표와 당일투표의 통계적 특성 차이는 두가지 원인에서 비롯될 가능성이 있는데, 하나는 보수 유투버들의 영향력이고 나머지 하나는 가정 1에서 상정한 사전투표 조작이다. 어느쪽이 얼만큼의 비중으로 영향을 주었는지는 규명할 수 없지만 어쨌든 사전투표와 당일투표가 통계적으로 차이를 보일 가능성은 충분히 존재한다.

몇명인지는 모르겠지만 미래통합당 지지자들 중에 유튜브를 보면서 이러한 얘기를 듣고 실제로 사전투표를 하려다가 마음을 바꿔 당일날 투표한 사람들이 꽤 있었다고 가정하면, 단순히 사전투표의 1위 득표 후보와 당일투표의 1위 득표 후보가 다르다는 정도만으로는 조작이 있었다고 주장할 수 없다. 수정해서 새롭게 세운 가정 2(수정)을 상정하면, 조작을 긍정하는 가정 1의 유효성은 상당 부분 약화된다.

투표 조작이 아니더라도 통계적 분포를 바꿀 수 있는 다른 원인이 나타났으므로, 조작 가능성을 논하려면 최소한 정량적으로 계산했을 때 정말로 뭔가 인위적이고 이상한 점이 보여야만 할 것이다.

그래서 나름대로 계산해 보았다. 시간이 없어서 다는 못하고, 일부 개표단위에 대해서 관내사전투표와 당일투표를 비교해 보았다.

여기서 살펴보고자 하는 사항은, 각 개표단위별로 사전투표와 당일투표의 차이다. 어떤 차이인가 하면, "사전투표가 당일투표와 동일한 득표 분표를 가지고 있다고 가정하여 예상한 가상의 사전투표 득표"와 "실제 사전투표 득표"와의 차이가 어떻게 되느냐다. 이를 통해 이준석 후보가 언급한 보수 유튜버들의 파급력이 얼마나 컸는지 가늠해 보려고 하는 것이다.

결론부터 말하자면, 뭐랄까, 좀 의외의 결과가 나왔다 -_-;

대상은 선관위 개표 결과에서 첫번째로 나오는 개표단위인 서울특별시 종로구로 했다. 더불어민주당 이낙연 후보와 미래통합당 황교안 후보가 대결했던 선거구다. 나머지 후보들의 득표수는 워낙 적으므로 언급한 두 후보의 득표만 가지고 계산해도 큰 무리는 없을 것이다.

[ 종로구 청운효자동: 투표소 3개 ]

청운효자동 관내사전투표에서 이낙연 후보는 2253표, 황교안 후보는 878표를 획득했다.

관내사전투표 소계는 2253+878=3131표.

청운효자동 당일투표에서 이낙연 후보는 1898표( 586+576+736=1898), 황교한 후보는 1812표(634+606+572=1812)를 획득했다.

당일투표 소계는 1898+1812=3710표이고, 이를 기준으로 할 때 이낙연 후보는 51.159%(1898/3710*100=51.159), 황교안 후보는 48.841%(1812/3710*100=48.841)를 득표했다.

만약 사전투표의 통계적 특성이 당일투표와 동일했다면, 이낙연 후보는 1601표(3131*51.159/100=1601), 황교안 후보는 1529표(3131*48.841/100)를 얻었어야 한다. 하지만 차이가 났다. 관내사전투표에서 이낙연 후보의 실제 득표수는 2253표이므로, 652표(2253-1601=652)를 덜 얻어야 당일투표와 같은 분포가 된다.

이 차이(652표)는 사전투표 소계 기준 20.0824%(652/3131*100=20.0824)이다.

[ 종로구 사직동: 투표소 2개 ]

사직동 관내사전투표에서 이낙연 후보는 1502표, 황교안 후보는 1007표를 획득했다.

관내사전투표 소계는 1502+1007=2509표.

사직동 당일투표에서 이낙연 후보는 1118표(485+633=1118), 황교안 후보는 1675표(536+1139=1675)를 획득했다.

당일투표 소계는 1118+1675=2793표이고, 이를 기준으로 할 때 이낙연 후보는 40.029%(1118/2793*100=40.029), 황교안 후보는 59.971%(1675/2793*100=59.971)를 득표했다.

마찬가지로 당일투표의 통계적 특성을 사전투표에 적용해 보면, 이낙연 후보는 1004표(2509*40.029/100=1004), 황교안 후보는 1504표(2509*59.971/100=1504)를 얻었어야 한다. 하지만 차이가 났다. 관내사전투표에서 이낙연 후보의 실제 득표수는 1502표이므로, 498표(1502-1004=498)를 덜 얻어야 당일투표와 같은 분포가 된다.

이 차이(498표)는 사전투표 소계 기준 19.848%(498/2509*100=19.848)이다.


좀 특이하긴 하다. 청운효자동과 사직동이 왜 이렇게 사전투표 차이의 비율이 비슷한거냐 -_-; 한번 더 간다.


[ 종로구 삼청동: 투표소 1개 ]

삼청동 관내사전투표에서 이낙연 후보는 482표, 황교안 후보는 243표를 획득했다.

관내사전투표 소계는 482+243=732표.

삼청동 당일투표에서 이낙연 후보는 343표, 황교안 후보는 389표를 획득했다.

당일투표 소계는  343+389=732표이고, 이를 기준으로 할 때 이낙연 후보는 46.858%(343/732*100=46.858), 황교안 후표는 53.142%(389/732*100=53.142)를 득표했다. (놀랍게도 사전투표 득표 소계와 당일투표 득표 소계가 732표로 똑같다. 이건 우연의 일치인듯)

마찬가지로 당일투표의 통계적 특성을 사전투표에 적용해 보면, 이낙연 후보는 343표(732*46.858/100=343), 황교안 후보는 388표(732*53.142/100=388)를 얻었어야 한다. 하지만 차이가 났다. 관내사전투표에서 이낙연 후보가 146표(489-343=146)를 덜 얻었어야 당일투표와 같은 분포가 된다.

이 차이는 사전투표 소계 기준 19.945%(146/732*100=19.945)이다.

 
또 다시 매우 유사한 비율 차이가 나왔다. 귀찮긴 한데 하나 더 해 보았다.


[ 종로구 부암동: 투표소 3개 ]

부암동 관내사전투표에서 이낙연 후보는 1405표, 황교안 후보는 705표를 획득했다.

관내사전투표 소계는 1405+705=2110표.

부암동 당일투표에서 이낙연 후보는 1696표(631+651+414=1696), 황교안 후보는 1635표(591+568+476=1635)를 획득했다.

당일투표 소계는  1696+1635=3331표이고, 이를 기준으로 할 때 이낙연 후보는 50.916%(1696/3331*100=50.916), 황교안 후표는 49.084%(1635/3331*100=49.084)를 득표했다.

마찬가지로 당일투표의 통계적 특성을 사전투표에 적용해 보면, 이낙연 후보는 1074표(2110*50.916/100=1074), 황교안 후보는 1035표(2110*49.084/100=1035)를 얻었어야 한다. 하지만 차이가 났다. 관내사전투표에서 이낙연 후보가 331표(1405-1074=331)를 덜 얻었어야 당일투표와 같은 분포가 된다.

이 차이는 사전투표 소계 기준 15.687%(331/2110*100=15.687)이다.


이번엔 20% 근처는 안 나오긴 했다만, 아무튼 뭔가 기분이 묘하다. 기왕 시작한 김에 하나 더 해 본다.


[ 종로구 평창동: 투표소 5개]

평창동 관내사전투표에서 이낙연 후보는 2336표, 황교안 후보는 1581표를 획득했다.

관내사전투표 소계는 2336+1581=3917표.

평창동 당일투표에서 이낙연 후보는 2555표(484+589+525+590+367=2555), 황교안 후보는 3735표(661+1235+714+574+551=3735)를 획득했다.

당일투표 소계는 2555+3735=6290표이고, 이를 기준으로 할 때 이낙연 후보는 40.620%(2555/6290*100=40.620), 황교안 후표는 59.380%(3735/6290*100=59.380)를 득표했다.

마찬가지로 당일투표의 통계적 특성을 사전투표에 적용해 보면, 이낙연 후보는 1591표(3917*40.620/100=1591), 황교안 후보는 2325표(3917*59.380/100=2325)를 얻었어야 한다. 하지만 차이가 났다. 관내사전투표에서 이낙연 후보가 745표(2336-1591=745)를 덜 얻었어야 당일투표와 같은 분포가 된다.

이 차이는 사전투표 소계 기준 19.020%(745/3917*100=19.020)이다.


-_-;;

우연히 이렇게 된 건지, 아니면 검증 방식에 문제가 있는건지, 아니면 진짜로 결과에 뭔가 문제가 있는건지 솔직히 판단이 잘 안된다. 수많은 개별투표단위에서 고작 5개만 해 본 것이라 이 상태로 뭔가 결론을 내릴 수는 없을 듯하다.

일단 계산 방식의 유효성에 대해서도 좀 더 생각해 보고, 다른 개표단위에 대해서도 추가로 계산을 좀 더 해 봐야되나 하고 있다. 계산 방식의 유효성에 대한 논리적/산술적 문제점 지적 대환영. 아무튼 일단은 여기까지.



핑백

덧글

  • 2020/04/18 23:39 # 답글 비공개

    비공개 덧글입니다.
  • 2020/04/19 12:47 # 비공개

    비공개 답글입니다.
  • ㅁㄴㅇㄹ 2020/04/19 08:32 # 삭제 답글

    보수 유투버란 놈들 수준 보면 진짜 좌파 팟캐스트의 하위호환밖에 안되죠.. 시덥잖은 음모론을 진지하게 반박해줘도 이미 광신도화되서 듣지도 않고
  • 반달가면 2020/04/19 12:48 #

    제가 보수 유튜버에 별로 관심이 없어서 잘 모르겠고, 계산 결과가 통계 측면에서는 굉장히 신기하게 나오긴 했기 때문에 좀 더 계산해 보려고 합니다.
  • 2020/04/19 11:19 # 답글 비공개

    비공개 덧글입니다.
  • 2020/04/19 12:49 # 비공개

    비공개 답글입니다.
  • 2020/04/19 13:41 # 비공개

    비공개 답글입니다.
  • 2020/04/19 14:48 # 비공개

    비공개 답글입니다.
  • 2020/04/19 15:06 # 답글 비공개

    비공개 덧글입니다.
  • 2020/04/19 20:03 # 비공개

    비공개 답글입니다.
  • 티피 2020/04/19 21:44 # 답글

    설마 253개 선거구 중 특정 선거구의 일부 투표소에서 19.xx라는 숫자(막상 소수점 이하부터는 완전히 달라지는 숫자)가 나왔으니 조작설이 타당하자는 심증을 가진 건 아니겠죠? 게다가 정작 글을 보니 적은 표본 중에서도 종로구 부암동에서 무려 4% 포인트의 격차가 있는 다른 결과가 바로 튀어나왔네요. 오히려 조작설의 신빙성이 떨어지는 듯한 내용을 말하는 글 같은데 왜 결론이 반대로 가는 것 같을까요.

    이준석이 말한대로 이렇게도 계산하고 저렇게도 계산해서 별 성과없는 계산식은 통편집하고 대충 유사성이 보이는 방법론만 회귀분석 수준으로 전면에 내세운 게 사전득표와 사후득표를 끼워맞추는 방식이죠. 그렇게 이미 유사성이 있는지 없는지 선별 과정을 거친 두 가지 숫자에 같은 수식을 대입하면 마찬가지로 언뜻 비슷한 결과값이 나오는 건 당연해요. 만약 유사성 그 자체를 조작의 증거와 동일시하는 오해에 빠지면 제 블로그에 쓴 관외/관내 득표수 분석처럼 아주 당연한 것마저 음모론처럼 착각하게 되는 거죠.
  • 반달가면 2020/04/19 21:47 #

    우선 말씀하신 관외/관내 득표수 비율은 비슷한 것이 정상입니다. 같은 모집단(선거구)의 표본이므로 모집단과 표본의 규모가 충분히 클 경우 관내투표의 지지율 분포와 관외투표의 지지율 분포가 비슷한 통계적 특성을 보이는 것은 전혀 이상하지 않습니다.

    제가 쓴 본문에서 계산한 것은, 같은 모집단의 관내사전투표와 당일투표의 통계 분포 비교입니다. 모집단 크기가 충분히 크므로, 관외/관내가 비슷하듯이 사전/당일도 비슷한 분포를 보일 것으로 예상할 수 있다는 것이죠.

    다만, 여기에 변수가 보수 유튜버들의 영향으로 통합당 지지자들이 사전투표에서 얼마나 이탈했느냐인데, 이로 인하여 통계 분포가 무려 두자리수 퍼센트로 변하고 게다가 저렇게 서로 다른 동네에서 너무 비슷한 비율을 보이는 것이 이상해 보인다는 겁니다.

    당연히 그 많은 선거구에서 몇개 추출해서 조작이라고 의심할 수는 없습니다. 하지만 예상과 전혀 다른 결과가 나왔기 때문에 신기하다는 것이고요.

    더 이상해 보이는 곳은 종로보다 고양시갑인데, 별도의 게시물로 작성했습니다. 당연히 몇개만 계산했으므로 조작이라 의심할 단계는 아닙니다. 다만, 사전/당일 분포 차이가 매우 신기한(?) 모습을 나타내므로, 좀 더 계산은 해 보려고 합니다.
  • 지나가다 2020/04/19 22:27 # 삭제 답글

    전 통계에 대해서 정말 모르는 사람이라 현재 말들이 많은 조작을 잘 판단을 못하겠습니다.
    써 놓으신 글 잘 읽었고, 그나마 쉽게 써 진거 같아서 도움이 되는거 같습니다.

    이 글 뿐만 아니라, 비례대표 역전현상까지 말하는 사람들이 있어서..
    사전투표에서 본 투표는 이낙연 후보를 찍고, 비례대표는 미래당으로 찍어주는.
    민주당을 지지하는 사람들이 이런 투표 형태가 가능한지 좀 황당하기도 합니다.
  • 반달가면 2020/04/19 23:03 #

    단지 몇개의 동에 대한 계산이므로 이것만 가지고 조작이라고 판단할 수 있는 근거는 될 수 없습니다. 다만 양상이 좀 희한해 보이는 것은 사실이니 좀 더 계산을 해 보는 것도 흥미로울 것이라는 예상을 하는 정도죠.

    어쨌든 제 예상을 완전히 뛰어넘는 매우 흥미로운 양상이라 - 물론 제가 이상하게 예상하고 있었을 수도 있습니다만 - 궁금증이 들어서 좀 더 살펴볼 예정입니다.
댓글 입력 영역
* 비로그인 덧글의 IP 전체보기를 설정한 이글루입니다.

Google Analytics


B-Side


adsense(w160_h600)2

통계 위젯 (화이트)

152646
3914
2013164

ad_widget_2