adsense_in_article_test


월터 미베인 교수의 총선 투표 조작 관련 논문에 대한 약간의 고찰 일기/잡담

월터 미베인(Walter R. Mebane Jr.) 교수의 논문은 아래의 링크에서 받을 수 있다.

Anomalies and Frauds in the Korea 2020 Parliamentary Election - Walter R. Mebane, Jr.
http://www-personal.umich.edu/~wmebane/Korea2020.pdf

내가 통계학 전공자도 아닌지라, 논문 내용 전체에 대해 종합적으로 얘기하긴 어렵고 전반부에 제시된 그래프에 관하여 정성적으로 이해한 내용에 대해서만 정리해 보려고 한다. (점심 시간을 쪼개 가면서 논문을 읽다니, 대학원 다닐 때도 안 하던 짓을 하고 말았다. -_-;)

우선 아래의 문제를 생각해 보자. 인문계열에겐 조금 어려울 수도 있겠다. 양해를 구한다.

1) 어느 초등학교의 5학년 학생이 모두 1000명이다. 이번에 치른 교내 산수시험 점수의 분포는 어떻게 될까?
  가. 가우스 분포(정규 분포)
  나. 알 수 없다.
  다. 기타 (  )
 
2) 작년 2학기에 전국의 중학교 3000개에서 치렀던 2학년 반장선거를 조사해 보았다. 각 학급별 당선자의 득표율(%)을 전부 모았다. 이 득표율의 분포는 어떻게 될까?
  가. 가우스 분포(정규 분포)
  나. 알 수 없다.
  다. 기타 (  )

3) 인구 5천만명인 어느 국가의 국회의원 선거에서 전국의 각 투표소별로 1위 득표후보의 득표율을 전부 조사해서 모았다. 투표소는 총 1만5천개소다. 득표율의 분포는 어떻게 될까?
  가. 가우스 분포(정규 분포)
  나. 알 수 없다.
  다. 기타 (  )

4) 인구 5천만명인 어느 국가의 국회의원 선거에서 전국의 각 투표소별로 투표율을 전부 조사해서 모았다. 투표소는 총 1만5천개소다. 투표율의 분포는 어떻게 될까?
  가. 가우스 분포(정규 분포)
  나. 알 수 없다.
  다. 기타 (  )

5) 중심극한 정리(central-limit theorem)에 대하여 설명하라. (주관식)


어떤 집단에 대하여 관심이 있는 항목을 수치화하여 수집할 때 표본 규모가 충분히 크고 무작위성이 있다면 통상 가우스 분포(Gaussian distribution)를 보이게 된다. 우리가 통계적으로 관측/분석하는 자연과학/사회과학 현상에서 너무나 많이 나타나서 그런지 정규 분포(normal distribution)라고도 불린다. 정상적이고 평범한, "normal"한 분포라는 의미다. 가우스 분포는 종 모양의 곡선(bell-shaped curve)이면서 봉우리가 하나인 분포(unimodal distribution)다.

미베인 교수의 eforensics 모델은, 이러한 기본적인 전제에서 출발해서 단지 "분포 모양이 좀 이상하다"는 식의 정성적인 명제가 아니라 무엇 때문에 얼마나 이상한 것인지를 정량적으로 도출하기 위해 고안해 낸 통계적 분석 모델인 것으로 보인다. 이 모델 자체를 공부할 시간은 없으니, 여기서는 왜 미베인 교수가 조작 가능성이 높아 보인다는 판단을 내리게 되었는지에 대해 정성적이고 기초적인 고찰만 해 보고자 한다.

미베인 교수의 논문을 보면 그래프가 몇개 보이는데, 가로축은 투표율이고 세로축은 관심 대상의 득표율이다. 여기서 관심 대상은 민주당(Democratic Party) 또는 정당과 무관하게 1위 후보(constituency leader)다.


우선 논문의 Figure 1(a)를 살펴 보자. 가로축은 투표율(turnout proportion)이고 세로축은 민주당(Democratic Party) 득표율(proportion of leading votes)이다. 투표소별로 투표율과 득표율을 계산해서 점을 찍어 놓은 형태인데, 2개의 군집으로 나뉜 것을 볼 수 있다.

중간 하단에 이루어진 군집은 당일투표이고, 투표율(가로축)이 1.00, 즉 100%에 근접한 부분에 길쭉하게 이루어진 군집이 사전투표이다. 사전투표가 이렇게 투표율 100%쪽으로 몰린 이유는 사전투표를 미리 신청하는 형식이 아니었기 때문에 선관위에서 그냥 사전투표에 나타난 사람 수를 사전투표 유권자수로 간주하여 데이터셋을 구성했기 때문이다. 모두가 100%가 아닌 이유는 기권표 때문에 90%대로 떨어진 부분들이 있는 것으로 보인다.

Figure 1(a)의 투표율(가로축) 히스토그램(histogram)을 보자. 당일투표 군집은 깔끔하게 단봉형 분포를 나타낸다. 사전투표 군집은 바로 앞에서 언급한 문제로 인해 투표율이 1.00에 몰려 있기 때문에 분석 측면에서 별 의미가 없다.

이제 Figure 1(a)의 민주당 득표율(세로축) 히스토그램을 보자. 가우스 분포에 가까운 것이 아니라 뭔가 좀 이상한 모양을 하고 있다. 여기서부터 일단 이 결과가 뭔가 자연스럽지 않다는 생각이 들게 된다. 내가 일을 하다가 저런 모양을 봤다면 혹시 데이터 입력에 문제가 있는지 다시 한번 확인해 볼 것이다.    

Figure 1(b)도 같은 형식인데, 이번에는 세로축이 민주당 득표율이 아니라 정당 불문하고 당선후보(constituency leader)의 득표율이다. 히스토그램을 보면 마찬가지로 당일투표율(가로축)은 가우스 분포를 보이고 사전투표율은 1.00쪽에 붙어 있고 득표율(세로축)은 뭔가 좀 이상하다.

좀 더 자세히 나누어서 그래프를 그린 Figure 2로 넘어가 보자.


Figure 2는 민주당의 득표 상황을 분할해서 당일투표/사전투표/재외투표 등을 별도로 그래프를 그려 놓은 것이다.

Figure 2(a)는 투표소별이 아니라 선거구(district)별로 재외투표를 제외하고 투표율(가로축)과 민주당 득표율(세로축)을 그린 것이다. 가로축과 세로축 히스토그램 모두 가우스 분포가 아니라 뭔가 찌그러져 있다. 선거구별 재외투표는 Firgure 2(c)에 별도로 표시했는데 마찬가지로 히스토그램이 찌그러져 있다. 선거구의 수가 250여개로 상대적으로 적은데 히스토그램 구간은 촘촘하게 나누어서 들쭉날쭉해 보이는 것 같기도 하다.

Figure 2(b)는 투표소(voting-post)별 당일투표(election-day)에 대해서 투표율(가로축)과 민주당 득표율(세로축)을 나타낸 것이다. 가로축과 세로축 히스토그램 모두 가우스 분포에 근접하는 자연스러운 단봉형 분포다. 누구라도 수긍할 수 있는 정상적인 양상이다.

Figure 2(d)는 투표소별 사전투표(pre-vote)에 대해서 투표율(가로축)과 민주당 득표율(세로축)을 나타낸 것이다. 앞에서 이미 언급했듯이 가로축 히스토그램은 의미가 없고, 세로축 히스토그램을 봐야 한다. 가우스 분포가 아니라 찌그러져 있다. 아니, 찌그러진 정도가 아니라 아예 봉우리가 2개다.

Figure 3에 대한 설명은 생략하겠다. 당선후보 득표율을 가지고 그래프를 그린 것인데, 양상은 Figure 2와 비슷하다.

이후 후반부는 투표 결과가 얼마나 이상한가에 대해 확률을 계산하고 수치적으로 결과를 도출하는 내용인데, 복잡하기도 하고 잘 모르겠어서 일단 여기까지만 살펴보았다.

1만개가 넘는 투표소에서 1천만명이 넘는 유권자가 사전투표를 했다. 전국적으로 민주당 지지층에게 사전투표를 하라고 독려하고 통합당 지지층에게 사전투표에서 빠지라고 독려를 했다고 치자. 만약 실제로 민주당 지지층이 대거 사전투표로 몰려가고 통합당 지지층이 사전투표에서 빠졌다면, 사전투표에서 민주당 득표율이 올라갈 것이므로 Figure 2(d)의 세로축 히스토그램의 봉우리가 위쪽(민주당 득표율이 높은 수치쪽)으로 전이했을 것이다.

이러한 전이는 평균과 표준편차를 바꿀 수 있지만, 분포 자체는 가우스 분포여야 정상이다.

그런데 놀랍게도, 당일투표에서는 투표율과 득표율이 깔끔하게 가우스 분포를 나타내는데 사전투표의 득표율 분포는 통계적으로 볼 때 기적이라고 얘기할 만한 희한한 히스토그램을 보여주었다. 대체 사전투표에 참여한 1100만명은 대체 어떤 사람들이기에 지금까지 자연계와 인간계를 통틀어 그 누구도 이루지 못한 이런 놀라운 히스토그램을 이끌어낸 것인가?

만약 사전투표에서 민주당 지지층이 대거 몰려오고 통합당 지지층이 빠졌기 때문에 득표율 히스토그램에서 가우스 분포가 깨졌다고 가정해 보자. 그렇다면 당일투표에서 민주당 지지층이 대거 빠지고 통합당 지지층이 대거 몰려왔는데, 도대체 왜 당일투표 히스토그램은 그렇게 깔끔하게 가우스 분포를 유지하고 있는 것인가?

그럴수도 있다고? 지금 열명 스무명짜리 표본집단을 얘기하는 것이 아니다. 국가 전체를 아우르는 천만명 단위의 대규모 집단이다.

기술적인 측면에서 몇가지 원인을 상상해 볼 수 있겠다.

1. 미베인 교수가 당일투표 데이터 입력은 제대로 해서 깔끔한 가우스 분포가 나왔지만, 무슨 이유인지 사전투표 데이터 입력은 개판을 쳐서 입력 데이터 자체가 엉망이었다.

2. 미베인 교수의 데이터 입력엔 문제가 없었지만, 애초에 기초자료가 된 선관위의 데이터 집계에 뭔가 오류가 있다.

3. 미베인 교수의 데이터 입력에도 선관위 데이터 집계에도 오류가 없었고, 누군가 사전투표 자체를 조작했다.

4. 무려 1100만명에 달하는 사전투표 참가자들 대다수가 알 수 없는 어떤 초자연적인 영향으로 가우스 분포를 깨부수는 통계적 기적을 창출해 냈다. 통계적 기적을 창출할 가능성에 대한 문제는 이전 게시물을 참고하자. 여기로

5. 기타: (댓글이나 트랙백 대환영)

논문의 결론을 보면, 미베인 교수는 eforensics 모델로 검증했을 때 이번 국회의원 선거 데이터가 조작되었을 가능성이 농후하다고 판단하고 있다. 다만, 조작이 아니라 다른 영향(전략적 행동 등)에 의한 변이를 조작으로 판정할 가능성도 없지는 않다고 언급하고 있다. 대상 국가의 정치적/사회적 상황은 제외하고 오로지 수자들의 집합을 이용해서 해석한 결과이므로 당연히 조작을 100% 단정할 수는 없기 때문이다.

따라서, 이 논문의 결론은 "선거는 분명히 조작되었다"라기보다는 "개표결과가 매우 이상하여 조작 가능성이 상당히 농후해 보이므로, 반드시 조사하여 검증할 필요가 있다"로 해석되어야 한다. 논문의 마지막 부분을 여기에 다시 써 둔다.

Statistical findings such as are reported here should be followed up with additional information and further investigation into what happened. Most important, and in principle perhaps simplest to do, is to validate the paper ballots, and once they have been validated to count the paper ballots manually. The statistical findings alone cannot stand as definitive evidence about what happened in the election.

여기에 보고된 통계 결과와 관련하여, 무슨 일이 벌어졌는지에 대한 추가적인 조사와 정보공개가 뒤따라야 한다. 가장 중요한 일은 - 그리고 아마도 가장 간단한 일은 - 투표지의 유효성을 검증하고 사람 손으로 다시 개표하여 집계하는 것이다. 통계 결과만으로는 선거에서 무슨 일이 벌어졌는지 명백하게 증명할 수 없다.



핑백

  • 반달가면 : 미베인 교수의 논문에 대한 몇가지 반론 살펴보기 2020-05-16 23:06:26 #

    ... 이전에 썼던 "월터 미베인 교수의 총선 투표 조작 관련 논문에 대한 약간의 고찰"에서 비공개 댓글을 통하여 미베인 교수에 대한 비판 등 몇가지 반론이 있다는 얘기를 접하게 되었다. 적극적인 의견 개진에 감사드리며 ... more

  • 반달가면 : 선거의 이상징후에 대한 통계적 탐지 가능성(Klimek, et al.) 2020-05-20 23:06:03 #

    ... s://www.pnas.org/content/pnas/109/41/16469.full.pdf 이전에 작성한 월터 미베인 교수의 총선 투표 조작 관련 논문에 대한 게시글(여기로)에서 댓글을 주고받던 중에 나온 논문인데, 내가 통계학 전공은 아니므로 정성적으로 이해하는 한도 내에서 기초적인 고찰을 해 보고자 한다. 이탤릭(기울여 쓰기)체 ... more

덧글

  • 2020/05/15 21:23 # 답글 비공개

    비공개 덧글입니다.
  • 2020/05/15 22:01 # 비공개

    비공개 답글입니다.
  • 2020/05/16 16:01 # 비공개

    비공개 답글입니다.
  • 2020/05/16 16:20 # 비공개

    비공개 답글입니다.
  • 2020/05/16 20:03 # 비공개

    비공개 답글입니다.
  • 2020/05/16 23:07 # 비공개

    비공개 답글입니다.
  • 2020/05/15 21:27 # 답글 비공개

    비공개 덧글입니다.
  • 2020/05/15 22:04 # 비공개

    비공개 답글입니다.
  • 2020/05/16 10:22 # 답글 비공개

    비공개 덧글입니다.
  • 2020/05/16 16:20 # 비공개

    비공개 답글입니다.
  • 김대중협정 개정 2020/05/16 14:57 # 답글

    이번 총선에서 진짜 이상한 곳이 하나 있습니다.
    바로 전라도인데, 2016년 총선에서 전체 28석 중 23석을 차지했던 안철수의 국민의당이 이번에는 지역구를 내지 않고 정당투표에서 미래한국당 수준의 저조한 득표를 했다는 것입니다.
    http://qindex.info/i.php?x=9175
    지금 여러 가지 의혹이 제기되고 있지만 이것보다 더 부자연스러운 것은 없어 보입니다.
  • 반달가면 2020/05/16 16:21 #

    지역적인 개별 사례를 떠나서 1100만명이 각자 알아서 투표했는데 가우스 분포가 깨진 모습은 이상한 정도가 아니라 거의 기적입니다.
  • 김대중협정 개정 2020/05/16 21:58 #

    이런 설명이 가능하지 않을까요?
    '경합 지역 사전투표소(봉우리 부근)를 중심으로 상당수가 투표 독려로 인해 민주당 지지율이 높은 쪽으로 이동했다.'
    그러면 봉우리가 두 개 생길 수 있죠.
    그런데 당일 투표에서는 왜 빠져나간 흔적이 없냐?
    이것은
    (1) 당일 투표가 사전투표보다 많아 흔적이 미미하고
    (2) 원래 민주당을 찍지 않을 사람도 사전투표에서 민주당을 찍도록 심리적 압박을 받았기 때문에 골고루 빠져나갔다고 설명할 수 있습니다.
  • 반달가면 2020/05/16 23:08 #

    봉우리 2개가 생긴 저 히스토그램은 "민주당의 사전투표 득표율"입니다. 민주당 지지층이 사전투표로 몰리면 봉우리가 하나 더 생기는게 아니라 봉우리가 높은 득표율쪽으로 움직여야 합니다.
  • 김대중협정 개정 2020/05/17 00:01 #

    그렇지 않을 수 있습니다.
    이와 비슷한 일이 벌어지는 것이죠.
    https://angusturner.github.io/assets/images/mixture.png
    저건 합친 건데, 합치지 않고 중심부의 일부를 이동시켜도 저런 형태가 나오지 않을까요?
  • 김대중협정 개정 2020/05/17 05:31 #

    가능한 상황을 그래프로 만들어 보았습니다.
    http://qindex.info/i.php?x=9343
  • 반달가면 2020/05/17 09:10 #

    그냥 가우스 분포 그래프 2개를 겹쳐 놓으면 되는 상황이 아닙니다. 1만개가 넘는 투표소의 득표율을 전부 모아서 히스토그램을 그렸을 때 가우스 분포가 나오지 않는 이유가 무엇이냐의 문제죠.

    200년전에 라플라스가 수학적으로 증명하고 지금까지 통계적 유효성/신뢰성의 가장 중요한 기반이 되었던 중심극한 정리에 역행하는 양상이 이번 선거의 사전투표에서만 나온 이유가 무엇이냐의 문제입니다.
  • 김대중협정 개정 2020/05/17 10:08 #

    그럼 재검표해서 문제가 없을 경우 어떻게 설명할 수 있을까요?
  • 반달가면 2020/05/17 10:27 #

    만약 그렇다면 사전투표지 자체를 바꿔치기했다는 주장도 나올 수 있는 상황이 되는거죠. 사전투표지의 보존/관리가 어떻게 되었는지, 그리고 투표지 자체도 이상한 점이 없는지 살펴봐야될 겁니다.

    만약 사전투표지도 정상이고 보존/관리 측면에서도 아무런 문제가 없다면, 사회과학/통계학 측면에서는 엄청나게 흥미로운 양상이 벌어진 것이므로, 원인을 규명하기 위해 수많은 학자들이 달려들어 다각도로 학술연구를 수행할 가치가 있는 좋은 소재가 될 겁니다.
  • 김대중협정 개정 2020/05/17 11:44 #

    조작이 없었다고 밝혀질 것으로 보이고 그때는 mixture distribution으로 간단히 설명될 겁니다.
  • 김대중협정 개정 2020/05/17 18:36 #

    투표독려가 전국에 걸쳐 고루 일어났다면 정규분포를 유지한 채 평균값만 이동시키는 게 맞습니다. 그런데 투표독려가 경합지역의 일부에 집중되면 이질적인 두 집단을 합치는 것과 같은 결과가 됩니다. 오캄의 면도칼 원칙에 비추어도 이 설명이 개표조작설보다 간단하군요.
  • Oso정도는입만갖고텀 2020/05/17 22:23 # 답글

    분석 감사합니다. 잘 몰라서 몇 가지 질문드립니다.

    동일분포를 따르는 모집단에서 여러 샘플을 모아서 그 샘플들의 평균이 갖는 분포를 보았을 때 그게 정규분포를 따르는 것으로 알고 있습니다. 각 샘플의 집단은 상호 독립적으로 랜덤하게 포집되었구요. 그러니까 동일분포, 랜덤성 이 두 가지가 핵심이고 가우스 분포가 안 나올 때는 둘 중 한 조건이 깨진 것으로 볼 수 있다. 정규분포가 안 나왔으니 둘 중에 하나는 깨졌고 이 경우에 깨진 것은 후자(랜덤성)이다. 이게 전체적인 구성으로 보입니다.

    그런데 제가 보기에는 동일분포를 따른다는 전제가 너무 가볍게 처리된 것 같습니다. 2a와 2b의 차이는 간단하게 설명됩니다. 2a는 개별 선거구 별로 조사했고 2b는 투표소 별로 조사했죠. 서로 다른 선거구에서 지지율의 분포가 동일한 모양을 따른다는 가정이 들어가 있는 것인데 이 가정이 별로 타당해 보이지는 않습니다. 그리고 2b도 간단하게 설명 됩니다. 선거구 당 투표소는 다수가 설치되어 있습니다. 한 선거구 안에서 여러 개의 샘플을 뽑은 것이죠. 간단하게 선거구를 1, 2, 3으로 놓고 선거구 안의 개별 투표소를 1a, 1b, 2a, 2b 이렇게 놓죠. 앗. 헷갈리네요. 그러면 개별 투표소는 1ㄱ, 2ㄴ 이렇게 놓겠습니다. 2a는 전국을 대상으로 1, 2, 3, 4, 이렇게 샘플을 뽑은 것이고 2b는 개별 투표소를 기준으로 했으니 1ㄱ, 1ㄴ, 1ㄷ, 2ㄱ, 2ㄴ, 2ㄷ 이렇게 뽑은 셈이 됩니다. 즉 2a는 전국의 개별 선거구들이 모두 동일한 분포를 따르는 모집단을 가짐을 가정하는 것이고 2b는 개별 선거구가 동일한 분포를 가지는 모집단을 가짐을 가정합니다.

    제가 보기에 합리적인 해석은 '각 선거구는 동일한 분포를 따르지 않지만, 개별 선거구는 동일한 분포를 따른다.' 인 것 같습니다. 1ㄱ, 1ㄴ, 1ㄷ, 1ㄹ로 분포를 그려보면 정규분포 나올 것이고 2ㄱ, 2ㄴ, 2ㄷ, 2 이런 식으로 그러보면 또 정규분포가 나오겠죠. (이 다음 문장은 약간 자신업는 문장) 2b의 경우는 정규분포를 따르게 되어있는 자료들을 합산한 것이기에 정규분포가 나오고 2a의 경우는 그렇지 않아서 안 그런 것 같습니다.



    사전투표나 해외투표의 경우에도 마찬가지 이야기를 할 수 있을 것 같습니다. 해외투표의 경우 각 투표소 별 모집단이 다르고 각 모집단이 서로 다른 분포를 보인다면 정규분포 안 나오겠죠. 사전투표의 경우에도 사전투표소가 설치된 전국의 각 장소마다 투표자 모집단이 다른 분포를 갖는다면 충분히 문제가 될 수는 있습니다. 그리고 각 사전투표소마다 투표 연령층의 분포가 일치하지 않는다면 모집단 분포의 동일성 역시 깨지겠지요.

    역시 뇌 속에서 생각할 때와 적고 보니 보이는 게 달라서 제가 봐도 약간 문제점들이 보이기는 한데 요점은 하나입니다. 각 샘플의 모집단이 동일한 분포를 따른다는 가정이 잘 방어될 수 있느냐는 거죠. 위에 적으신 글에서 언급이 안 되어있는데 논문에서 이걸 어떻게 방어하는지 궁금하네요.
  • Oso정도는입만갖고텀 2020/05/17 22:25 #

    마지막으로


    ----
    따라서, 이 논문의 결론은 "선거는 분명히 조작되었다"라기보다는 "개표결과가 매우 이상하여 조작 가능성이 상당히 농후해 보이므로, 반드시 조사하여 검증할 필요가 있다"로 해석되어야 한다. 논문의 마지막 부분을 여기에 다시 써 둔다.
    ----

    전 이런 언급을 '사기'라고 부릅니다. 반달가면님이 사기친다는 이야기가 아니라 논문 저자가 사기친다는 이야기. 하고싶은 말 직접하면 뒷감당 안 되잖아요? 저 언급은 신경 쓸 필요가 없어보입니다.
  • 반달가면 2020/05/18 10:03 #

    각 선거구의 지지율 분포가 동일하다는 식의 가정은 현실적이지도 않고 논문 어디에도 없습니다. 어느 부분 때문에 이런 가정을 하시는지 제가 잘 모르겠군요.

    모집단(예:국민)의 지지율 분포가 어떤 기괴한 형태를 지니고 있는지 아무도 모릅니다. 하지만, 표본(예:투표자)으로부터 기대값(예:민주당 득표율)을 관측할 수 있고 무작위성/상호독립성이 보존되고 표본이 충분히 크면 관측된 기대값의 분포는 "모집단의 분포와 무관하게" 가우스 분포에 수렴한다고 증명되어 있습니다(central limit theorem). 이 기대값의 분포가 논문에 제시된 히스토그램입니다.

    자연과학/공학 분야가 아닌 사회적 현상을 통계적으로 조사할 때 오로지 수치 해석만을 가지고 100% 조작이라고 주장하는 것은 성급하고 오만한 단정입니다. 어느 누가 선거에 대해 통계 분석을 해서 논문을 쓰더라도 수치상으로 조작의 징후가 발견되었다면 저렇게 언급하는 것이 당연합니다. 논문의 사기성을 주장하려면 결론의 문장이 아니라 본론의 논리 전개가 어떻게 틀려서 결론이 어떻게 왜곡되었는지가 구체적으로 제시되어야 할 것입니다.
  • Oso정도는입만갖고텀 2020/05/18 15:19 #

    음? 같은 이야기를 하는 것 같지가 않습니다. 뭐 통계 잘 모르는 제가 잘못 알고있을 가능성이 높으니 제가 가우스분포라고 알고 있는 것에 대해 서술해 보겠습니다. 수능시험을 예로 생각해 보겠습니다.

    한 50만명 정도 수능시험을 쳤습니다. 그 중에서 무작위로 100명을 뽑아서 평균을 냅니다. 이 그룹을 1번 그룹이라고 하죠. 또 무작위로 100명을 뽑아서 평균을 냅니다. 이 그룹을 2번으로 합니다. 이런 식으로 주욱 해서 한 200 그룹정도를 만들어서 그 평균을 냅니다. 그러면 우리는 200개의 숫자를 얻고 이 200개의 숫자가 보여주는 분포는 정규분포를 따릅니다.

    그런데 가령.... 100명을 뽑을 때 전라북도에서 100명 뽑아 1그룹, 경상북도에서 100명 뽑아 2그룹, 대구시에서 뽑아서 3그룹, 부산에서 뽑아서 4그룹. 이런 식으로 그룹을 200개 만들어서 분포를 보았을 때 그 분포가 정규분포를 따른다는 보장은 없지 않나요?

    반대로 이렇게도 생각할 수 있겟습니다. 전라도 전체에서 10만명 시험치고 경상도 전체에서 10만명 시험쳤다고 가정합시다. 그리고 전라도에서 100명 뽑아서 1그룹 잡고 평균냅니다. 이런 식으로 한 100그룹 만듭니다. 마찬가지로 경상도에서도 100명 뽑아서 101그룹으로 잡고 평균냅니다. 그러면 전라도 100그룹 경상도 100그룹 뽑아서 200개의 숫자를 섞어서 분포를 관찰했는데 정규분포를 따른다면 전라도의 성적분포와 경상도의 성적분포가 동일하다고 할 수 있겠죠. (아니면 그냥 심한 우연의 일치거나.)

    일단 제가 이해한 게 맞는지 확인부터 좀 부탁드립니다.
  • Oso정도는입만갖고텀 2020/05/18 15:35 #

    추가로 말한 것은 크게 중요하지는 않지만 포인트가 좀 엇나가서 그냥 포인트만 말씀드립니다. 크게 중요하지 않고 맞건 틀리건 지식을 늘려주지도 않으니 이후로 더 방어하지는 않겠습니다.

    제가 보기에 이것은 사회과학이 아닙니다. 정치죠. 좀 기분나쁜 말을 할 것인데 어디까지나 예시입니다.
    ------
    월터 미베인 교수의 해당 논문은 선거과정에서 의심의 여지가 있는 부분을 언급하였다. 그러나 의심의 여지가 있다는 것이 꼭 그 의심의 여지를 없애야 한다는 것을 의미하지는 않는다. 천안함 침몰 사건은 어뢰에 의한 폭침이나 어뢰에 의한 폭침을 상정할 경우 해석하기 다소 난해한 의심의 여지가 있는 정황이 있으며, 국방부의 사건조사 과정에서 실수가 있었기에 이 의심의 여지는 증폭된다. 실제로 러시아 조사단 등 몇몇 조사단에서는 결론을 확정할 수 없다는 취지의 보고서를 발표하기도 했다. 그러나 이것이 천안함의 폭침과정에서 생겨난 모든 의혹을 해소해야만 한다는 것을 함축하지 않는다. 마찬가지로 의심의 여지가 있다는 것을 밝힌 미베인 교수의 논문이 옳다고 하더라도 그것이 반드시 해소되어야만 하는 종류의 합리적 의심인지는 재고해보아야 한다. 의심의 존재와 의심의 크기(혹은 중요성)은 같지 않다.

    미베인 교수는 통계상으로 의심의 여지가 있으나 통계적으로는 완벽하게 부정이 있음을, 혹은 없음을 증명할 수 없기에 보다 자세한 조사가 필요하다는 것을 주장하였다. 그러나 미베인교수가 제시하는 의심의 크기에 비해 그 해결책이 갖는 정치적 함의가 지나치게 크다. 검증이 필요하다는 것을 인정하는 것 만으로도 선거부정에 관한 정치공세는 일어나기 마련이다. 본인도 자신있게 확신하지 못하는 증거를 바탕으로 한국 민주정체의 근간을 뒤흔들 수 있는 심각한 결과를 낳을 수 있는 제안을 던진다면 그 제안을 합리적이라고 볼 수 없다.

    미베인교수는 학계에서 인정받는 훌륭한 교수이다. 그런 사람이 비교적 사소하거나 미약한 의심의 존재만을 바탕으로 특정 정치세력에 큰 힘을 실어줄 수 있는 제안을 그것도 타국에 던진다면, 우리는 미베인교수가 그 탁월한 능력에 상관없이 순수한 의도를 가졌는지 그렇지 않은지를 의심할 수 있다. 즉, 우리는 미베인교수가 특정 집단으로부터 돈을 받고 연구부정을 저질렀거나 특정 집단에 유리한 결과를 도출한 후 이를 바탕으로 정쟁을 일으키는 데 그 목적을 두었다는 의심을 할 수 있다. 미베인 교수는 의심의 해소를 위한 전면적인 조사를 제안한다. 마찬가지로 미베인교수의 연구부정 의혹을 없애기 위해 미베인 교수가 소유한 모든 자산의 변동에 대한 전수조사를 해야 할 필요가 있다.

    ----

    개소리죠. 그런데 연구부정같은 미친 소리를 한다는 것 만으로도 어떤 사람은 빡침을 느낄 겁니다.
    그래서 이건 정치라는 겁니다. 부재증명이 존재증명보다 훨씬 어렵다는 상식을 악용해서 의혹을 던지고 정책제안을 한다. 이게 과학이예요?? 예? 여기서 과학적인 건 부재증명이 어렵다는 것 밖에 없습니다.
  • Oso정도는입만갖고텀 2020/05/18 15:37 #

    앞서 말씀드렸듯 두 번째 포인트는 그냥 지나가는 이야기지 맞건 틀리건 가치가 별로 없습니다. 반론이 있으시면 읽기는 하겠습니다만 제 생각을 추가하지는 않겠습니다.
  • Oso정도는입만갖고텀 2020/05/18 17:00 #

    아참. 생각해보니 아주 간단한 방법이 있네요. 미베인교수가 해당 논문에서 사용한 분석방법으로 19대/18대 총선에 적용해서 그래프 깔끔하게 나오면 '왜 얘만 이래?' 이럴 수 있을 것 같은데요. 하는 김에 미국 선거 등 다른 나라까지 하죠. 어차피 꼭 사전투표만 문제가 되는 게 아니라 그냥 개별 선거구도 의심스럽다는 게 2a 그래프에서 볼 수 있는 결과 아닌가요? 그러면 다른 선거에 적용하는 게 어렵지는 않을 것 같습니다. 이런 접근이나 제안은 없나요? 이거 교수 본인한테도 완전 이득인 것이, '똑같은 방법을 적용했는데 셋 중에 두 개는 그래프 깔끔하고 다른 하나는 이상하다.'라고 하면 자기 방법이 맞다는 것을 간접적으로 증명할 수 있지요. 이쯤되면 왜 안하는지 모르겠는데....

    거참 표적고착같은 평범한 실수를 이제서야 발견하다니 저도 참 바보같군요.
  • 반달가면 2020/05/18 17:10 #

    무작위성과 상호독립성이 보장되었다는 전제하에서 생각해 보겠습니다.

    분포1: 전라북도에서 100명을 뽑아 1그룹, 경상북도에서 100명 뽑아 2그룹,... 이런식으로 200그룹을 뽑아서 기대값을 관측했을 때 200개의 수자가 보이는 분포

    분포2: 분포1과 동일한 요령으로 100명씩 그룹을 뽑는데 무작위로 1만개 그룹을 뽑아서 기대값을 관측했을 때 1만개의 수자가 보이는 분포

    둘 다 가우스 분포에 근접할텐데, 분포1보다 분포2가 가우스 분포에 훨씬 더 근접한 모습을 보일 것입니다.

    하나 더 생각해 보겠습니다.

    분포3: 전국의 각 투표소별로 최소 500명 이상 규모로 그룹을 뽑고(투표에 참여하고), 이런식으로 1만5천개(정확한 투표소 수는 모르겠지만 이 정도로 가정하겠습니다) 그룹을 뽑아서 민주당 득표율을 관측했을 때 1만5천개의 수자가 보이는 분포

    분포3이 분포1이나 분포2보다 훨씬 더 가우스 분포에 근접하겠죠. 이건 논문의 Figure 2(b) 당일투표 히스토그램을 보시면 명확하게 잘 보입니다.

    가우스 분포라는 점은 공통적이지만 위의 세가지 분포는 당연히 서로 다른 평균과 표준편차를 보이겠죠. "동일한 분포"가 아닙니다.

    말씀하신 예시를 좀 더 생각해 보겠습니다.

    수능점수 평균을 놓고 무작위로 뽑은 전라도의 100개 그룹과 경상도의 100개 그룹은 각각 가우스 분포일 것이고, 이걸 합쳐서 200개 수자를 모으면 이것도 가우스 분포가 나올 것입니다. 그러나 전라도 그룹의 평균/표준편차와 경상도 그룹의 평균/표준편차가 당연히 서로 다를 것이므로, 전라/경상도 그룹의 평균/표준편차는 그 중간 어디쯤 되겠죠.

    전라도 그룹과 경상도 그룹 둘 다 가우스 분포를 보이지만 평균과 표준편차는 서로 다릅니다. 두 그룹을 같이 모아 놓으면 마찬가지로 가우스 분포를 보이지만 평균과 표준편차는 앞의 두 그룹과 다릅니다. 이건 당연한 양상이고 여기에 심각한 우연의 일치 같은건 없습니다.

    가우스 분포가 안 나오게 하는 방법은 무작위성과 상호독립성을 강제로 부수면 될 것으로 생각됩니다.

    예를 들어 공권력을 동원하여 전라도 학생중 100점 만점 기준으로 평균 50점 이상은 모조리 경상도로 강제 이주시키고, 경상도 학생중 평균 50점 이하는 모조리 전라도로 강제 이주시키고, 이런식으로 한다면 가우스 분포가 안 나올 수도 있을 것 같습니다. 전라/경상도 분포의 봉우리를 아주 확실하게 2개로 만들고 싶다면, 평균 80점 이상은 모조리 경상도로 강제 이주, 평균 20점 이하는 모조리 전라도로 강제 이주, 평균 21점에서 79점 사이는 모조리 충청도로 강제 이주시킨 후에 전라도와 경상도에서만 표본을 추출해 볼 수도 있겠습니다.

    또 다른 방법으로는 공권력을 동원하여 아예 시험지를 분리해서, 전라도 학생이 보는 수능시험은 무조건 초등학교 4학년 수준으로 출제하도록 강제하고 경상도 학생이 보는 수능시험은 무조건 대학교 2학년 전공과목 수준으로 출제하도록 강제하면 가우스 분포가 안 나올 수도 있을 것 같습니다.

    또 다른 방법으로는 이미 가우스 분포를 보이는 표본을 인위적으로 바꾸고 조작하면 됩니다.

    제가 이해하는 바는 이 정도 입니다만, 저도 통계학 전공자는 아니기 때문에 100% 단정적으로 믿지는 마시고 좀 더 알아보시는 것이 좋을 듯 싶습니다. 적극적인 의견 개진에 감사드립니다.
  • 반달가면 2020/05/18 17:21 #

    "미베인 교수의 결론이 정치적으로 민감하고 마음에 들지 않으니 연구 부정이 있는지 조사하자"는 식의 주장은 과학/수학/통계학과는 전혀 무관한 그냥 정치놀음이군요. 예시로 가져오신 주장이 개소리라는 말씀에는 저도 100% 동의합니다.

    제가 직접 찾아보진 않았는데 미베인 교수가 선거 결과를 통계적으로 분석한 것이 이번이 처음은 아니고 과거에도 많이 했었다고 합니다.
  • Oso정도는입만갖고텀 2020/05/18 19:18 #

    중심극한정리의 기본가정은 1. 서로 독립 2. 동일한 분포를 따른다. 인데 도별 샘플링을 한 경우 이미 1번 가정에 위배되지 않나요? 독립이라는 이야기는 P(A|B) = P (B|A) 라는 이야기인데 이미 지역에 조건을 걸어서 샘플링에 조작을 가한 상태에서도 독립이라는 가정이 유지된다고 보신 근거가 무엇인지 궁금합니다. 저는 두 번째 상황을 제시할 때 아예 개별 그룹이 지역별로 제한되어서 샘플링 되었다고 했는데요. 이 상황에서 독립이 유지될 것 같지는 않습니다.

    문제는 이 상황은 지역구 별로 샘플링을 한 것과 정확하게 동일한 상황이라는 거죠. 즉, 확률변수를 생성할 때 완전 랜덤으로 집단의 크기만 바꾸는 경우와 지역을 기준으로 샘플을 선택하여 확률변수를 생성한 경우를 놓았을 때 후자가 서로 독립이라는 가정을 깨지 않는다는 근거가 있어야 중심극한 정리의 전제가 들어맞잖아요. 그거 주시면 끝납니다.
  • 반달가면 2020/05/18 21:05 #

    중심 극한정리는 각 변수가 동일 분포를 따를 경우에는 당연히 성립하고, 동일 분포가 아니어도 성립합니다. 선거하는데 각 투표소별 표본이 굳이 동일 분포라고 가정할 필요는 없습니다.

    위키피디아(https://en.wikipedia.org/wiki/Central_limit_theorem)를 참고하시면, 동일 분포를 가정하는 경우는 classical CLT 또는 Lindebeg-Levy CLT라고 되어 있고 동일 분포가 아닌 경우(조건이 완화된 경우)는 Lyapunov CLT라고 되어 있습니다.

    표본집단의 상호 독립성은, 예를 들어 종로구 사직동 투표소에서 투표한 사람들의 선택이 종로구 삼청동 투표소에서 투표한 사람들의 선택에 종속되어 있지는 않을 것이므로, 표본집단끼리 서로 독립적이라고 봐도 무리가 없다고 생각합니다. 유권자 전체를 모집단으로 볼 때, 표본을 추출하는 지점이 지역별로 구분되어 있다는 이유로 독립성에 훼손이 올 것 같지는 않군요.

    삼청동에서 민주당일 이길 확률이 P(A), 사직동에서 민주당이 이길 확률이 P(B)이면 양쪽에서 다 이길 확률 P(A&B)는 어떻게 될까요? 한쪽의 유권자들이 노예처럼 다른쪽의 지시를 따르거나 하지 않고 그냥 자기 맘대로 투표할 것이므로 P(A&B)=P(A)*P(B)일 것이라고 봅니다. 마찬가지로 경상도 학생의 수능점수가 전라도 학생의 수능점수에 종속될 이유는 없어 보입니다.

    대통령 지지율 조사를 할 때도 연령별/성별/지역별로 표본을 추출할텐데 이 경우도 뭔가 나누는 기준을 세웠으니 가우스 분포를 이용해서 분석을 할 수 없다고 보시는 것인지요? 가우스 분포를 사용할 수 없었다면 조사결과를 발표하면서 신뢰도/신뢰구간 같은 용어 자체가 아예 나올 일이 없을텐데요.
  • Oso정도는입만갖고텀 2020/05/19 01:43 #

    음. 대화가 겉도는 것 같군요. 이만 줄이려고 했... 는데...

    제 룸메가 인도에서 온 천재예요. 20대 초반인데 지금 물리학 박사과정 2년차를 마친 인간입니다. 저는 뇌피셜과 인터넷으로 다져진 잡지식을 자랑하는데 이넘은 레퍼런스를 들고오는 인간이예요. 심지어 실험물리도 아니고 이론물리임. 얘가 '뭐하냐?' 이래서 '역시 난 멍청해. 인터넷에서 한국 선거가 조작되었다는 사람 봤는데 내가 중심극한정리 잘못 적용했나 싶어서 물어보고 있어. 걍 너한테 오면 되는데 내가 왜 ㅋㅋ' 이랬습니다. 그리고 주제가 뭔지 설명했더니 얘 대답이 '1980년대쯤 나오고 주창자가 벌써 폐기한 이론을 왜 지금 적용하지?' 이러더군요. 그리고 신나서 1시간동안 설명. 아오. 자식아. 잠 좀 자자.

    그 이야기 듣고 답답해서 제가 빠따 들어봤습니다.

    미베인 아저씨 연구목록 보니까 응... 맞아요. 선거부정 관련해서 논문 여러 개 썼네요. Abstract 대강 읽고 '연구 방법이랑 주제 선택이 이상한데??' 이렇게 생각하던 와중 증거 잡은 듯 합니다.

    이 분이 Klimek 외 3인이 2012년에 발표한 Statistical detection of systematicelection irregularities을 꽤 자주 인용해요. (1) 참조하세요. 냄새가 딱 나더라구요. 아. 저 논문이 모델 혹은 연구방법론을 제시했고 미베인 아저씨는 그것을 실제 데이터에 적용했구나. 그래서 그 논문을 봤습니다. 학술지가 PNAS 라고 하는 것인데 이름이 Proceedings... 로 시작해서 '응?? 왜 정식 학술지가 아니라 프로시딩... 그러니까 연구 초고가 학술지 이름에 있지?' 이랬는데 알고보니 본좌급 학술지. 제가 이렇게 무식합니다. 핫.

    뭐여튼. 논문 링크는 (2) 여기에 있습니다.

    이건 몇 페이지 안 되는지라 대충 스윽 훑어보는데 대충 주제는 '선거부정을 통계적으로 찾아낼 수 있다. 각 투표소의 결과를 투표율이랑 당선자의 비율을 2차원 그래프상에 뿌렸을 때 분포가 요상한 게 나오면 그거 선거 부정이다!' 이게 포인트네요. 네. 미베인이 한 것과 똑같은 접근 방법입니다. 아마 이 분들이 그 방법론을 학계에서 처음 주장한 것 같아요. 그런데 문제가 있어요. 미베인 이 아저씨. 잘못 적용한 것 같아요.

    링크 보시면 Fig. 1. 있거든요? 거기 잘 보시면 러시아 2011, 2012, 우간다 선겨결과가 있는데 우측 최상단에 조그만한 섬이 나오고 저자들이 거기에 빨간 동그라미 쳐놓았습니다. 100%를 먹어도 아직 40%^ 더 먹을 게 있는 러시아 자료를 썼으니 얘들한테서 선거부정이 있다는 것은 의심할 여지가 없죠. 그리고 선거부정이 없는 다른 나라랑 비교를 해 보니까 그래프 모양이 이상한데? 이게 포인트가 됩니다.

    그런데 그거 잘 보면 개웃겨요. 미베인이랑 똑같은 그래프 썼는데 폴란드랑 캐나다는 정규분포를 따르지 않습니다. 캐나다는 쌍봉나오고 폴란드랑 핀란드는 피크가 너무 넓어요. (물론 분산이 너무 낮아서 그럴 수도 있겠지만 퍼진 정도는 넓지 않아요.) 그래서 '읭? 이게 뭔 개소리야? 왜 쌍봉이 나와?' 이러면서 설명 읽어보니까. '응. 캐나다는 프랑스/영국주 차이가 커서 그래. 핀란드의 경우는 True Finns 논쟁때문에 그래.) 이러네요.

    그러니까. 정규분포 안 따른다고 선거부정이 의심된다는 이야기는 Klimek 논문 어디에도 없고, 정규분포 안 따르는 게 한국에서만 나오는 것도 아니라는 겁니다.

    시발 장난해? 와. 난 내가 문과 전공 대학원생이라 씨발 존나 모르는 줄 알고 바닥에서 빌빌 기었는데 미베인 씹쌔끼는 교수라는 놈이 뭐????? 하. 존나 게을러터진새끼. 빵이 목구멍으로 넘어가냐? 와. 이런 새끼가 미시간대학 교수인 거 보니까 정치학쪽에서 교수하기 존나 쉬운가 봅니다? 역시 교수되려면 정치질을 해야되. 근데 난 수업시간에 교수 뚝배기 깨버리잖아? 안 될 놈이군. 아 뭐... 우리학교 교수놈들 중 몇몇놈만 봐도 교수하려면 정치질이 짱인 것 같긴 하다만... 미베인은 마침 전공도 정치학이네 ㅋㅋ.

    뭐 빠따 든 김에 끝까지 패죠.

    클리맥 외 3인 논문 그래프로 다시 돌아가겠습니다. 거기 보면 140%랑 우간다 그래프에서는 두 가지 특이 경향이 있습니다. 1. 투표율/당선자득표율 100/100 구간에 작은 섬이 나온다. 2. 분포가 우상향을 향한다. 이게 당연하죠. 미베인이 뭐라고 했더라... 아. 선거부정에는 두 종류가 있다. 1. 표 무더기 추가하기. 2. 표 바꿔치기. 만약 표 무더기를 추가한다면 해당 선거구의 투표율과 1등 득표율은 올라가겠죠. 이 경우 정상치에 비해 우상단으로 점이 이동합니다. 그리고 표 바꿔치기를 하면 x축은 변화가 없고 y축으로 올라가겠죠? 결국 점이 상단으로 움직입니다.

    이러면 아주아주 그래프를 잘 해석할 수 있어요. 러시아의 경우는 우상단으로 향하는 분포가 관측되니까 없는 표 얹어서 처리했다는 이야기고. 우간다의 경우는 우상단으로 가는 경향도 있지만 좀 약하고 수직 상단으로 올라가는 경향이 강하니 얘들은 표 바꿔치기를 주로 쓰고 거기에 표 더하기를 양념으로 쳤나는 결론이 나오죠.

    아. 이제 미베인은 공식적으로 개병신입니다.

    그 개병신이 연구 방법 제대로 골라놨는데 역시 병신수준 어디 안 가서 지 모델 뽕에 취해서 '어? 내 모델이랑 안맞네? 너 이단!' 이거 시전한게 그 불쏘시개의 본질이라 이겁니다. 제대로 할거면 '그래프 분포가 우상단으로 움직이거나 수직 상승하는 것이 있다.' 이게 나와야지 가우시안 어쩌고 이런 이야기 하면 병신 인증 찍는 거라구요. 응. 뭐 인증했으니까 병신으로 불러도 상관 없지.


    아씨. 그냥 눈팅만 하면서 쓸만한 사람 있나 알아보려고 했는데. 솔직히 반달가면님은 인격적으로 훌륭한 분이라고 생각해요. 제가 인성 쓰레기라서 잘 압니다. ㅋㅋ 저랑 다르면 되거든요. 근데 이거 미친 놈 찾기는 이렇게나 쉽고 아주 그냥 자기 병신짓을 논문으로 발표해서 업적으로 삼는 놈을 이렇게나 후빨하는 곳이라니. 음....... 친구넘이 여기 건질 거 있다고 해서 와봤는데 아닌 것 같네요.



    (1)
    http://www-personal.umich.edu/~wmebane/pm18.pdf
    http://www-personal.umich.edu/~wmebane/pm17.pdf
    http://www-personal.umich.edu/~wmebane/Russia2016.pdf


    (2)
    https://www.pnas.org/content/pnas/109/41/16469.full.pdf
  • Oso정도는입만갖고텀 2020/05/19 01:44 #

    아. 제 기준에서 반달가면님은 Oso보다는 한 수 위입니다. 입만 갖고는 힘들어서 논문 봤잖아요. ㅋㅋㅋ
  • Oso정도는입만갖고텀 2020/05/19 02:02 #

    아 부탁이 하나 있어요. 저는 이글루 운영진이 저한테 통보도 안 하고 밸리발행기능 막아놨거든요? 그래서 포스팅 못 올려요. 혹시 할 말 더 있으시면 많은 사람들 보게 글 하나 더 써서 밸리에다가 올려주실 수 있나요?

    지금 여기에 적어놓으니까 노출이 덜 된것 같은데, 그래도 제 이야기 찰지게 까줄 뉴밸러가 한 사람은 있지 않을까요. 웁살라대학 정치학 교수도 있는데. 아 뭐 그새끼는 개꿀잼이긴 하지만 ㅋㅋㅋㅋㅋ (설마 연구교수인데 교수라고 하는 거 아니겠지?)

    여튼 똥통 속에 보석을 건질 수 있다면 똥무더기에 손 넣는 게 손해는 아니죠. 제 결론은 잠정적으로 여기에 똥밖에 없다는 건데, 보석도 혹 있나 궁금하네요.

    물론 싫으시면 어쩔 수없죠.

  • 반달가면 2020/05/19 12:38 #

    CLT에서 동일분포 가정이 필요 없다는 점은 이미 알려진 사항이고, 표본집단의 독립성 문제에 대해서만 논증해 주시면 됩니다.

    P(A|B)=P(B|A)와 P(A&B)=P(A)*P(B)는 같은 얘기이므로 편하신 쪽으로 접근하셔서 지역으로 구분되는 표본집단이 왜 독립적이지 않다고 생각하시는지만 제가 납득할 수 있게 예시를 들어서 구체적으로 논해 주시면 될 것 같은데요.

    미베인 교수의 이번 논문에 "히스토그램이 반드시 가우스 분포여야 한다"는 주장은 없습니다. 미베인 교수는 어떤지 모르겠지만 제가 그렇게 생각한다는 것이고, 왜 그렇게 생각하게 되었는지는 이미 본문과 답글에 제시하였습니다.

    그러나, 만약 투표소별 표본집단이 상호독립이 아니라 종속관계가 있다고 논증된다면 CLT 조건이 깨지니까 제 주장은 철회해야겠지요.

    제가 생업이 있어서 클리멕 논문을 당장 읽지는 못하겠고, 시간이 되면 한번 보던지 하겠습니다.

    댓글란이 너무 산만하니 더 이상 여기에 길게 답글 달지 마시고, 본인 블로그에 글 쓰신후에 트랙백하시거나 답글로 링크 남겨주시면 제가 가서 읽겠습니다.
  • Oso정도는입만갖고텀 2020/05/20 00:12 #

    인품 이 정도 되는 사람도 졸렬함을 피해갈 수 없구나. 뉴밸은 탑솔이야. 정신병이 있는 사람이 탑솔을 하는 것인가 탑솔을 해서 정신병에 걸리는 것인가. 뉴밸 탈출은 지능순인 것 확인했으니 전 이만 탈출하겠습니다.

    1. 뭐 투칼럼이긴 하지만 5페이지짜리 논문 읽는데 한 시간 안 걸립니다. 그리고 논문을 다 이해하지 않더라도 미베인이 멍청한 건 그냥 나와요. 생업? 누군 생업이... 아. 지금은 방학이라 없지. ㅋㅋ. 여튼 전공자라면 변비의 힘을 약간만 빌리면 화장실에서 똥싸면서 읽고도 남는 논문을 생업을 핑계로 ㅋㅋㅋ. 아니 위쪽에 헛소리 싸놓은 건 생업이랑 무관하고 학계에서 널리 인정받는 논문 읽는 건 생업이랑 관계있어? ㅋㅋㅋ 영어는 함?

    2. 덧글창이 지저분하단다 ㅉㅉ. 응. 논쟁에서 발렸다는 이야기를 자기 입으로 못 하니까 슬슬 딴 핑계 나오기 시작하지.

    3. 정상적으로 선거 시행했는데 피크 2개 뜨는 그래프랑 정규분포 안 따르는 그래프, 그리고 그래프를 해석하는 적당한 방법까지 떠먹여 줬는데도 알량한 자존심때문에 지식을 늘릴 기회를 날리는구나. 그 수준이니 그 모양이지. 이쯤이면 사람 말을 못 알아들어서 대화가 안 되는거지.

    4. 너 하는 거 보니까 그냥 중심극한정리의 가정을 대충 완화시킨 거 가지고 헛소리 찍싸고 있는데 응. 니가 모르는 건 알겠고 내 룸메가 아는 거 아니까 이제 그만 갈란다.
  • Oso정도는입만갖고텀 2020/05/20 00:16 #

    하나 더. 너 모델과 데이터의 상호작용에 대해서 들어는 봤냐? 데이터가 모델을 안 따를 때, 이것이 anomaly의 증거인지 아니면 이미 실제 상태가 모델을 안 따르는 상태로 변했기 때문인지 확실하게 알 방법이 없다는 논의가 있다고.

    난 미베인 개소리하는 거 듣자마자 저거 생각하면서 '존나 자신감 쩌네 미친놈. 눈에 뵈는 게 없으니까 그딴 소리를 하지.' 이랬는데. 애초에 연구 방법 자체를 잘못 택한 새끼를 가지고 뭔.

    아!!! 정치학 교수하기 존나 쉽구나!!!! 역시 정치가 최고야!!!
  • 반달가면 2020/05/20 13:57 #

    지역별로 구분된 표본추출의 상호독립성에 대해 질문드렸더니 대답은 안하시고 룸메이트의 권위나 빌려가면서 비난이나 하시면 그건 그냥 본인 얼굴에 침뱉기 입니다.

    온라인에서나 오프라인에서나 질문에는 대답 안하고 격하게 인신공격성 발언하시는 분들은 지금까지 제가 본 바로는 전부 다 어설프게 현자 코스프레하는 바보들이던데, 굳이 그런 스타일로 가실 필요가 있는지요?

    클리멕 논문은 오늘 저녁에 읽어보고 이해되는 한도내에서 정리해 볼 예정입니다.
  • Oso정도는입만갖고텀 2020/05/21 08:45 #

    아주 그냥 병병병병이네.

    내 목적은 중심극한정리에 대한 내 이해가 잘못되었는지 아닌지 점검하는 것과 미베인 논문이 중심극한정리를 이용해서 보조가 가능한지 아닌지 확인하는 거라고. 내가 너랑 덧글 달아서 내 목적중에 어느 하나라도 이룰 수 있는게 있냐? 없다는 게 확인되는 순간 함께해서 더러웠고 다시는 보지말자 하는 게 정답이지.

    논제가 아니라 사람을 보니까 수준이 안 맞는거잖아.

    그리고. 생업이 핑계인 건 인정하는거지? ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

    간다.
  • 반달가면 2020/05/21 12:11 #

    중심극한 정리에 대한 본인의 이해도와 미베인 논문과의 연관성 확인은 여기서 댓글놀이 하는 것보다 통계학 교과서와 관련 논문을 찾아서 스스로 성실하게 공부하는 것이 훨씬 더 확실한 방법입니다.

    반말해대면서 비난하는걸로 본인 인격 인증도 충분히 하셨으니 이제 가던 길 가시기 바랍니다.
  • Jonny 2020/05/22 01:26 # 삭제

    ㅋㅋㅋㅋ 인도인 룸메의 권위에 의존한 주장을 펼치다 말 막히니 개싸움을 유도하는 광신적 원시 뇌를 가진 답정너 초딩인격 인간한테 문명적 대우를 해줄 수 있다는게 가장 놀랍군.
  • 지나가다가 2020/05/22 03:22 # 삭제

    인성이 아쉬워서 그렇지 OSO 정도는 입만으로 턴다는 애 말이 맞긴 함 인도 룸메 얘기만 안하고 진중하게 하나하나 깠으면 그냥 완승인데 인성때문에 털리네ㅋㅋㅋ
  • Oso정도는입만갖고텀 2020/05/22 04:11 #

    지나가다가//

    누구 말이 맞다구요? ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

    아씨바 내 뱈ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
  • Oso정도는입만갖고텀 2020/05/22 04:12 #

    난 내 이익이 없는 짓에 시간낭비 안함. 이익의 종류는 내 성질머리, 지식. 이 두 가지.
    나 여기 스트레스 풀러 오는데 왜 참냐?
  • nolifer 2020/05/22 13:15 #

    니새끼가 왜 대학원생인지 잘 알 수 있는거 같습니다^^ 꼬우면 논문 써서 미베인이랑 데스매치 해보든가 애미뒤진새끼야 미베인이 개병신새끼면 짐까지 밝혀낸 모든 부정선거가 싹 다 개구라가 되는건데 실제론 어떻다? ㅋㅋㅋㅋㅋㅋㅋㅋ
  • Oso정도는입만갖고텀 2020/05/22 13:40 #

    nolifer //

    차단 쳐박는 건 수꼴 병신들 공통 패시브 스킬이냐 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

    반달가면은 차단 안 박았으니 수꼴음.. 이건 좀 생각해봐야 할 거 같고. 병신 아닌 건 인정.
  • Oso정도는입만갖고텀 2020/05/22 13:41 #

    nolifer //

    아니 그리고 교수 되려면 대학원생 거쳐야지 안 거치고 어떻게 교수됨? ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

    아니 니들은 약도 안 먹는데 어떻게 약 먹는 애들보다 못하냐? ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

    그리고 그거 내 분야 아니라서 실적도 안된다고 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 개븅신인가.
  • Oso정도는입만갖고텀 2020/05/22 13:42 #

    진심 이 맛에 뉴밸을 못 끊어요. 아! 뽕맛에 취한다!
  • Oso정도는입만갖고텀 2020/05/22 13:44 #

    근데 나 진짜 궁금한데 좌빨병신들 Q값갖고 꼴값할 때 '지랄' 이랬고 수꼴병신들 가우시안갖고 꼴값할 때 '지랄' 이랬는데. 하기야. 좌빨새끼들은 내가 Q값 까니까 나보고 수꼴이랬고 수꼴새끼들은 지금 선거부정갖고 내가 지랄한다고 좌빨이라 하니 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 아이고 배야 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 수준 존나 잘 맞는 새끼들 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

    난 정체성을 찾은 건가 못 찾은 건가. 내 정체성은 그저 혼돈의 카오스인가 ㅋㅋㅋㅋㅋㅋ
  • 백성주 2020/06/27 12:32 # 답글

    사전투표소는 3508 곳이라고 합니다..
  • 반달가면 2020/06/28 14:16 #

    그렇군요. 투표소 수가 1만개가 아니라 3천5백개라도 이 문제는 유효합니다.
  • ㅁㄴㅇㄹ 2020/07/02 23:42 # 삭제 답글

    총선조작 드립치는건 말도안되는 헛소리임.
    그냥 보수들이 일뽕짓하고 박사모짓 하고다녀서 지지층 다 떠나간건데
  • 반달가면 2020/07/03 10:39 #

    어느 부분이 어떻게 말이 안되는지 구체적으로 지적하시지 않고 "헛소리" 정도로 뭉뚱그리면, 본문의 내용이 크게 틀리지 않았거나 반박할 근거가 마땅치 않다고 말하는 것과 별반 다르지 않습니다.
  • ㅁㄴㅇㄹ 2020/07/02 23:44 # 삭제 답글

    총선조작 드립치지말고 민주당 이길궁리나 하자
댓글 입력 영역
* 비로그인 덧글의 IP 전체보기를 설정한 이글루입니다.


B-Side


adsense(w160_h600)2

통계 위젯 (화이트)

659767
4519
2078636

2019 대표이글루_IT

Google Analytics