adsense_in_article_test


선거의 이상징후에 대한 통계적 탐지 가능성(Klimek, et al.) 일기/잡담

피터 클리멕(Peter Klimek) 등 4인이 공저한 2012년 PNA 논문이다. 원문은 아래의 링크에서 받을 수 있다.

Statistical detection of systematic election irregularities - Peter Klimek, et al.
https://www.pnas.org/content/pnas/109/41/16469.full.pdf

이전에 작성한 월터 미베인 교수의 총선 투표 조작 관련 논문에 대한 게시글(여기로)에서 댓글을 주고받던 중에 나온 논문인데, 내가 통계학 전공은 아니므로 정성적으로 이해하는 한도 내에서 기초적인 고찰을 해 보고자 한다. 이탤릭(기울여 쓰기)체로 표시한 부분은 논문에서 인용한 것이다.

초록(abstract)의 요지는 전국적으로 이루어지는 선거는 표본이 충분히 크기 때문에 통계적인 분석을 통해 이상징후를 탐지할 수 있는 여지가 있다는 것이다. 조작이 들어간 것으로 의심되는 선거는 그렇지 않은 선거에 비해 분포의 첨도(kurtosis, 봉우리가 뾰족한 정도) 눈에 띄게 큰 것을 볼 수 있었다는 내용이 나온다.

세계 각국의 선거 결과 데이터가 공개되어 있으므로, 논문이 작성된 2012년 기준으로 최근에 선거가 있었던 오스트리아(Austria), 캐나다(Canada), 체코(Czech Republic), 핀란드(Finland), 루마니아(Romania), 러시아(Russia), 우간다(Uganda) 등의 데이터를 사용했다.


It has been shown that, by using an appropriate rescaling of election data, the distributions of votes and turnouts approxmately follow a Gaussian distribution.

과거의 논문으로부터 선거 결과를 적절한 변환을 통해 축척을 맞출 경우, 득표율과 투표율은 근사적으로 가우스 분포를 따른다고 제시되어 있다.



이 명제를 기술한 논문은 클리멕 논문의 참고문헌 24번으로, 아래와 같다.

Borghesi C, Bouchaud JP (2010) Spatial correlations in vote statistics: A diffusive field model for decision making. Eur Phys J B 75:395-404
https://arxiv.org/pdf/1003.2807.pdf

자, 이제 클리멕 논문의 Fig.1을 보자.


선거 지문(election fingerprint)라고 표현을 하고 있는데, 가로축은 투표율로 설정하고 세로축은 당선후보의 득표율로 설정하여 2차원 그래프를 그린 형태다.

한가지 유의할 점은 세로축의 기준이 미베인 교수의 논문과 다르다는 점이다. 미베인 교수의 논문에 제시된 그래프에서는 당선후보 득표율을 득표수/유권자수로 설정한 반면에 클리멕 논문에서는 당선후보 득표율을 득표수/투표자수로 설정했다. 당선후보 득표율 계산의 기준이 되는 분모가 서로 다르다.
 
따라서 미베인 교수의 논문에 제시된 그래프에 나타난 점들은 y=x 직선 아래쪽에 분포한다. 당선후보의 득표수가 투표자수를 넘을 수 없기 때문이다. (미베인 교수의 그래프는 이 글 맨 앞에서 언급한 이전 게시물에 있다.)
 
반면에 클리멕 논문의 히스토그램을 보면 가로축은 유권자수 기준이고 세로축은 투표자수 기준이라 y=x 직선 상단에도 유효한 값들이 분포하는 것을 볼 수 있다.  
 
세로축의 정의가 다르므로 Fig.1의 그래프와 미베인 교수의 그래프를 1:1로 비교하기는 어렵다.

어쨌든, 이 그림에서 몇가지 흥미로운 점들을 볼 수 있다.

러시아(Russia)의 2개 선거와 우간다(Uganda)의 선거를 보자. 중간쯤에 있는 군집 외에 빨간색 동그라미를 친 부분에 군집이 하나 더 있다. 투표율 거의 100%인 동시에 당선후보에게 거의 100% 몰표가 쏟아진 부분이다. 일반적인 선거에서는 좀처럼 상상하기 어려운 양상이다.

캐나다(Canada)의 경우, 군집이 2개인 것을 볼 수 있다. 이 논문에는 캐나다의 영어권과 프랑스어권이 매우 이질적이기 때문이라고 언급되어 있다. 아마도 두 군집중 하나에 영어권 선거구가 대부분 몰리고 나머지 군집에 프랑스어권 선거구가 대부분 몰려 있었던 모양이다. 군집에 크기로 보건대 하단의 작은 군집이 퀘벡(Quebec)주에 속한 프랑스어권이 아닐까 싶다.

캐나다 결과에서 수치적인 측면만 놓고 보자면, 상단의 군집은 당선자 득표율이 25~75% 사이에 분포하고 하단의 군집은 득표율 20% 이하에 주로 분포하는 것으로 보인다. 주로 2자/3자 경쟁구도가 다수이긴 하지만(상단 군집), 비슷한 수준의 지지율을 보이는 최소 5명 이상의 후보가 난타전을 벌인 것으로 보이는 지역도 많다(하단 군집).

오스트리아, 프랑스, 루마니아, 핀란드 등은 군집의 위치가 하단쪽에 위치한다. 예를 들어 프랑스는 군집의 위치가 우측 하단이다. 우측으로 쏠렸다는 것은 전반적으로 투표율이 높다는 것을 의미하고, 하단으로 쏠렸다는 것은 당선후보 득표율이 낮았음을 의미한다. 양자구도보다는 3~5명 이상의 다자구도 경합이 주를 이루고 있다고 추측할 수 있다.

체코는 군집의 위치가 상단에 위치한다. 당선후보의 득표율이 50~80% 즈음에 몰려 있다. 대다수의 지역에서 압승이 이루어지는 것으로 보아, 아마도 지역색이 확실한 모양이다. 우리 나라에서 영남과 호남 지역의 데이터만 가지고 이렇게 2차원 그래프를 그리면 체코와 비슷한 양상일 것 같다.

핀란드는 "True Finns" 논란 때문에 군집의 모양이 찌그러졌다는 언급이 있는데, 이건 무슨 얘기인지 잘 모르겠다.

어쨌든 이러한 데이터셋을 가지고 i번째 선거단위의 당선후보 득표율을 로그 득표율(logarithmic vote rate) vi=log((Ni-Wi)/Wi)로 정의했다. Ni는 i번째 선거단위의 투표자수이고 Wi는 i번째 선거단위의 당선후보 득표수다.

왜 이런 변환 함수를 쓰는지는 앞에서 언급한 참고문헌 24번에 나와있는 모양인데, 읽어보지 않아서 모르겠다(읽는다고 얼마나 이해할지도 미지수). 다만, 당선후보 득표율이 50%가 되는 경우(Ni=2Wi)를 0으로 기준을 잡고(log1=0) 득표율에 비례하도록 변환했다는 점 정도는 알 수 있다.
 
이 논문에서 상정하는 선거조작 시나리오는 두가지다.

첫번째는 "incremental fraud"인데, 나를 선택한 투표지를 추가하거나 상대의 표를 내 표로 교체하는 형태다. Fig.1의 러시아와 우간다의 군집이 우상향으로 삐져나가는 경향(투표율/득표율이 증가하는 경향)이 이러한 조작을 암시한다.

두번째는 "extreme fraud"인데, 투표율도 100% 가까이 나오면서 특정 후보에 100% 가까운 몰표가 쏟아지는 형태다. Fig.1의 러시아와 우간다 군집에서 우측 상단 모서리 부분(빨간 동그라미 친 부분)이 이러한 조작을 암시한다.  

여기까지 생각하고 이제 Fig.2로 넘어간다.


Fig.2는 위에서 설명한 vi로 가로축을 설정하고 모든 예시된 모든 국가의 선거 결과를 평균은 0, 분산은 1이 되도록 축척을 조정하여 당선후보 득표율 분포를 그린 후에, 검은색 선으로 표준 정규분포(standard normal distribution)를 그려서 비교한 것이다.

조금씩 찌그러지긴 했어도, 러시아와 우간다를 제외한 모든 국가가 가우스 분포에 근접하고 있음을 볼 수 있다.


In Fig.2, we show the distribution of vi for each country. Roughly, to first order, the data from different countries collapse to an approximate Gaussian distribution as previously observed. Clearly, the data for Russia fall out of line.

Fig.2에서 각 국가별 vi 분포를 제시하였다. 이전에도 관찰된 바 있듯이, 대강 1번째 근사값(first order)으로 볼 때 서로 다른 국가의 데이터가 가우스 분포에 근접한다. 러시아는 명백하게 다른 양상을 보인다.



투표율/득표율 2차원 그래프에서 2개의 군집이 보였던 캐나다, 군집의 모양이 찌그러진 핀란드와 폴란드조차 Fig.2에 제시된 당선후보 득표율 히스토그램은 가우스 분포에 근접하는 모습이다.

반면에 러시아의 2개 선거는 완전히 달라서 위로 뾰족하게 치고 올라간 부분이 두드러진다. 우간다 역시 러시아만큼은 아니지만 가우스 분포에서 눈에 띄게 상당히 벗어나 있음을 볼 수 있다.

이제 Fig.3으로 넘어가자.


Fig.3의 그래프는 찌그러진 정도를 계산해서 그린 그래프다. 가로축은 표본집단 규모(aggregation level)를 나타내는데, A와 B는 가로축이 선거단위의 평균 유권자수(average number of electorate per unit)이고 C와 D는 선거단위수(number of units)다. 세로축은 편포도(skewness)와 첨도(kurtosis)를 나타내는데, A와 C는 편포도이고 B와 D는 첨도다.

Fig.3에서 제시하고자 하는 요지는 표본집단 규모에 따라 찌그러진 정도를 계산한 결과(편포도, 첨도)가 다르게 나타날 수 있다는 것이다. 즉, 너무 크게 뭉뚱그리거나 너무 자잘하게 분할할 경우 러시아와 우간다의 이상징후가 파묻혀서 제대로 보이지 않을 수 있다. 이상징후가 존재하더라도 표본집단 규모에 따라서 편포도와 첨도가 적게 나타나서 가우스 분포처럼 보일 수 있는 여지가 있다는 뜻이다.

이상징후가 있음에도 불구하고 당선후보 득표율 히스토그램이 가우스 분포처럼 나타날 가능성이 있으므로, 이러한 모호성 문제를 해결하기 위하여 표본집단 규모에 크게 영향을 받지 않는 선거 조작 모델을 고안했다는 것이 이 논문의 주제다.

이제 Fig.4를 보자.


러시아의 2개 선거, 우간다, 스위스를 대상으로 선거 조작 시나리오를 설정하고(일정 비율로 표를 교체하는 "incremental fraud"와 특정 후보에 100% 가까운 몰표가 나오는 "extreme fraud") 모델링을 해서 선거 조작 모델의 파라메터를 조정하여 실제 선거 데이터와 근접하게 만들 수 있는지를 본 것이다. 그리고 나서 조작의 영향이 없을 경우 어떤 결과가 나오는지를 추정했다.

Fig.4에서 "Data"는 실제 선거 데이터이고 "Model(fit)"은 선거 조작 모델을 이용하여 실제 데이터에 근접하도록 설정한 것이다.

"Model(fair)"는 조작의 영향을 제거할 경우 공정선거(fair election)로 추정되는 결과다.

스위스는 Data, Model(fit), Model(fair)가 비슷한 양상이다. 반면에 러시아와 우간다는 조작이 있었다고 모델링할 경우 Model(fit)을 Data와 매우 비슷한 양상으로 만들 수 있다. Model(fair)는 실제 데이터와 크게 다른 모습을 보여준다. 러시아와 우간다의 선거는 뭔가 이상해 보이므로 추가적인 검증과 조사가 필요하다고 판단할 수 있다.

공정선거였을 경우에 어떤 형태가 되었을지 추정해서 보여주는 Model(fair)는 모두 가우스 분포에 근접한다.

대략 이 정도이고, 선거조작 모델과 관련된 구체적인 값들에 대한 자세한 내용은 시간도 없고 귀찮으니 생략하고 이쯤에서 결론으로 넘어가겠다.


We show that it is not sufficient to discuss the approximate normality of turnout, vote, or logarithmic vote rate distributions to decide if election results may be corrupted. We show that these methods can lead to ambiguous signals, because results depend strongly on the aggregation level of the election data.

투표율, 득표율, 로그 득표율(logarithmic vote rate) 분포가 정규 분포에 근접하는지의 여부만 가지고 조작을 판단하는 것은 충분치 않다. 표본집단을 얼마나 세밀하게 구분하느냐(aggregation level)에 따라 결과가 다를 수 있어서 조작을 암시하는 신호가 모호해질 수 있기 때문이다.



가우스 분포와의 유사성(즉, 편포도와 첨도)만을 기준으로 삼을 경우 표본집단을 어떻게 나누느냐에 따라 결과 수치가 달라질 수 있기 때문에, 표본집단 분할에 크게 영향을 받지 않는 선거 조작 모델을 고안하여 제시했다는 것이 이 논문의 요지다.  


It is imperative to emphasize that the shape of the fingerprints in Fig.1 will deviate from pure 2-d Gaussian distributions as a result of nonfraudulent mechanisms as well because of heterogeneity in the population. The purpose of the parametric model is to quantify to which extent ballot stuffing and the mechanism of extreme fraud may have contributed to these deviations or if their influence can be ruled out on the basis of the data. For the elections in Russia and Uganda, they cannot be ruled out.

Fig.1에서 볼 수 있듯이, 이질적인 인구 구성이나 조작과 무관한 어떤 영향에 의해 선거조작이 아닌 경우에도 군집의 형태가 순수한 2차원 가우스 분포에서 벗어나는 경우가 발생할 수 있다는 점을 강조할 필요가 있다. 선거 조작 모델을 고안한 목적은 이러한 벗어남에 있어서 선거조작이 어느 정도로 영향을 주었는지 또는 이러한 영향이 없다고 판단할 수 있는지를 수치화하는 것이다. 러시아와 우간다의 선거는 조작 가능성을 배제할 수 없다.



논문의 결론은 미베인 교수의 논문과 같은 맥락이다. 수치 해석만을 고려한 분석이므로 이것만 가지고 조작이라고 100% 단정할 수는 없다. 그러나 선거 결과에 대한 통계 분석에서 이상징후가 눈에 띄게 두드러질 경우, 뭔가 심각하게 잘못된 것은 아닌지 생각해 볼 필요가 있다.  
 

Should such signals be detected, it is tempting to invoke G. B. Shaw, who held that "[d]emocracy is a form of government that substitutes election by the incompetent many for appointment by the corrupt few."

조작을 암시하는 신호가 탐지될 때, "민주주의는 부패한 소수에 의한 임명을 무능한 다수에 의한 선거로 대체한 정부 형태"라는 의견을 피력한 조지 버나드 쇼(George Bernard Shaw)를 떠올리기 쉽다.




덧글

  • 2020/05/21 07:33 # 답글 비공개

    비공개 덧글입니다.
  • 2020/05/21 12:10 # 비공개

    비공개 답글입니다.
  • 2020/05/21 13:55 # 비공개

    비공개 답글입니다.
  • 김대중협정 개정 2020/05/21 14:58 # 답글

    통계가 이상해 보이지 않도록 조작 프로그램을 짤 수 있을 거 같은데요.
  • 반달가면 2020/05/21 22:00 #

    엑셀에도 통계 관련 기능들이 포함되어 있고 통계 분석에 특화된 전문 프로그램들도 있는 데다가, 이미 다 공개되어 있는 데이터셋 사용했기 때문에 조작이 들어갔을 것 같진 않습니다. 이쪽 분야를 좀 아는 사람이라면 누구라도 검증해 볼 수 있을테니까요.
댓글 입력 영역
* 비로그인 덧글의 IP 전체보기를 설정한 이글루입니다.


B-Side


adsense(w160_h600)2

통계 위젯 (화이트)

657767
4519
2078634

2019 대표이글루_IT

Google Analytics