adsense_in_article_test


2020년 미국 대선 관련, 미시건(Michigan)주 개표결과 분석 - 시바 아야두라이(Shiva Ayyadurai) 2020년 11월 미국 대선



얼마전에 정리했던 조지아(Georgia)주 부정선거 의혹과 관련된 게시물인 "2020년 미국 대선 관련, 조지아(Georgia)주 재검표 근황"에서 댓글을 통해 알게 된 유튜브 동영상이다. 시바 아야두라이(Shiva Ayyadurai)라는 MIT 출신 과학자가 이번 미국 대선과 관련하여 미시건(Michigan)주 개표결과를 분석하여 소개하는 내용이다. 내가 이해한 수준에서 주요 내용을 정리해 본다.

이 문제를 살펴보려면 우선 미국 주(state)의 행정구역을 먼저 알아둘 필요가 있다. 하나의 주는 여러개의 "카운티(county)"로 구성되어 있다. 하나의 카운티는 여러개의 "프리싱트(precinct)"로 구성되어 있다.

즉, 프리싱트가 모여 카운티를 이루고 카운티가 모여서 주를 이룬다. 이 동영상에서 분석한 대상은 미시건주 특정 카운티의 프리싱트별(別) 득표율이 보이는 경향성이다.

또 한가지 알아둘 점은, 미시건주의 투표 방식이다. 유권자는 "정당투표(straight party vote)", "개별후보투표(individual candidate vote)" 이렇게 2가지 방식중 하나를 자유롭게 선택하여 투표할 수 있다.

이런 방식을 채택한 이유는 주에 따라 대선과 상원/하원 선거가 겹칠 수 있기 때문인 것으로 보인다. 예를 들어 정당투표를 선택하여 공화당에 투표하면 모든 공화당 후보에 대해 일괄투표한 것으로 간주된다.

반면에 예를 들어 대통령 후보는 공화당 후보를, 상원/하원의원 후보는 무소속 후보를 선택하고 싶다면 개별후보투표를 선택하여 각 후보에 기표하면 된다.

간단한 예를 들자면, 어떤 프리싱트에서 100명이 투표했는데, 60명은 정당투표를 선택해서 30명이 공화당에 기표했고, 나머지 40명은 개별후보투표를 선택해서 30명이 트럼프에 기표했다고 하자. 정당투표에서의 공화당 득표율은 30/60*100=50%가 된다. 개별후보투표에서의 트럼프 득표율은 30/40*100=75%가 된다. 이 프리싱트에서 트럼프의 전체 득표율은 60/100=60%가 될 것이다.

자, 그려면 정당투표와 개별후보투표의 통계적 경향성에 대해 생각해 보자. 예를 들어 미시건주 "Z"라는 카운티에 "A"라는 프리싱트가 있다고 생각해 보자. 이 프리싱트는 공화당 지지세가 강한 곳이라 정당투표를 선택하여 투표한 결과를 보니 공화당(트럼프) 득표율이 60%에 달했다. 그렇다면 이 프리싱트에서 개별후보투표를 선택하여 투표한 결과를 볼 때 트럼프(공화당) 득표율은 60%와 가까울 것인가, 아니면 무관할 것인가?

당연히 수치상의 차이는 있겠으나, 공화당 지지자들이 많은 프리싱트이므로, 개별후보투표를 선택한 사람들도 비슷한 비율로 다수가 공화당 후보인 트럼프를 선택할 것이다.

반대로 민주당 지지자들이 잔뜩 몰려 있는 프리싱트라면, 정당투표에서의 공화당 득표율도 낮고, 개별후보투표에서의 트럼프도 낮을 것이며, 득표율 차이가 아주 크진 않을 것이다.

이제 그래프를 그린다. X축은 정당투표에서의 공화당 득표율이고, Y축은 득표율 차이(개별후보투표에서의 트럼프 득표율 - 정당투표에서의 공화당 득표율)이다.

예를 들어 A 프리싱트에서 정당투표 공화당 득표율이 60%이고 개별후보투표 트럼프 득표율이 65%라면, 이 프리싱트를 그래프에 하나의 점으로 찍을 수 있다. X축은 60% 지점이 되고, Y축은 65 - 60 = 5% 지점이 된다. 아래의 그래프다.


특정 카운티에 대해 이런 그래프를 그리면, 여러개의 프리싱트가 있으므로 해당 카운티에 속한 프리싱트의 수만큼 점이 찍힌 산점도(scatter plot)가 생성된다.

이 산점도의 Y축 분포는 어떤 모습일 것인가? 아마도 Y=0% 기준으로 무작위로 점이 찍힐 것이라고 예상할 수 있다. 아래의 그래프다.


예를 들어 만약 트럼프가 공화당도 민주당도 지지하지 않는 중도층의 지지를 성공적으로 확보했다면, 또는 해당 카운티에서 공화당의 인기에 비해 트럼프 개인의 인기가 높다면, 개별후보투표에서의 트럼프 득표율이 정당투표에서의 공화당 득표율보다 높은 경향을 보일 수도 있을 것이다. 이렇게 되면 Y축값이 양수(+)인 점들이 많을 것이다. 아래의 그래프다.


반대로 공화당 지지자들 사이에서조차 트럼프 개인의 인기가 떨어졌다면, Y축값이 음수(-)인 점들이 많을 것이다. 아래의 그래프다.


이제 실제 개표결과를 가지고 몇개의 카운티에 대해 산점도를 그린다. 아래의 그래프는 미시건주 오클랜드 카운티(Oakland County)의 사전투표 결과다.


공화당 지지율이 높은, 즉 X축값이 큰 프리싱트일수록 트럼프 지지율이 떨어지는, 반비례하는 경향을 보인다. 그것도 직선으로 예쁘게 내려간다.

오클랜드 카운티의 당일투표 결과는 아래의 그래프다. 앞에서 보았던 사전투표와 같은 경향성을 보인다.


사전투표와 당일투표를 같이 놓고 보면 아래와 같다. 왼쪽이 사전투표, 오른쪽이 당일투표다.


무슨 이유인지 모르겠지만, 공화당 지지율이 높으면 높을수록 트럼프를 싫어하는 것 같다. 게다가 깔끔하고 예쁘게 직선형 경향성을 보이면서 말이다.

그렇다면 다른 카운티들은 어떨까? 아래의 그래프는 마콤 카운티(Macomb County)의 사전투표와 당일투표 결과다. 흥미롭게도, 오클랜드 카운티와 동일한 경향을 보인다.


또 다른 카운티를 보자. 아래의 그래프는 켄트 카운티(Kent County)의 사전투표와 당일투표를 하나의 그래프에 합해서 그린 것이다. 역시 동일한 경향을 보인다.


서로 다른 카운티가 있고 각 카운티마다 수많은 프리싱트가 있는데 이 모든 투표자들이 자기 취향대로 무작위로 각자 알아서 투표를 했다. 대체 어떻게 해야 저렇게 깔끔하게 비슷한 경향을 보이는 산점도를 뽑아낼 수 있을 것인가?

시바 아야두라이 박사의 주장은, 지리적으로 서로 떨어진 곳에서 투표자들이 각자 개인의 의사로 투표했다면 이런 식으로 계산한 듯한 경향성의 산점도가 나오는 것은 통계적으로 불가능하며, 개표/집계 소프트웨어에 선거조작 알고리즘이 포함되어 있을 가능성이 높다는 것이다.

공화당 지지율이 높은 곳일 수록 트럼프에게 간 표가 많을 것이므로, 공화당 지지율에 비례해서 트럼프의 득표를 바이든의 득표로 바꿔서 집계하도록 조작하면 이러한 경향성을 얻을 수 있다. 공화당 지지율이 높은 곳일수록 더 많은 수의 트럼프 득표를 가져다가 바이든 득표로 바꾸는 것이다.

공화당 지지율이 낮은 곳에서는 트럼프에게 간 표 자체가 적을 것이기 때문에 조작해야 할 대상도 적고 들킬 확률도 높다. 알고리즘으로 인하여 바이든 100%, 트럼프 0%의 득표율이 나오는 프리싱트가 속출하면 의심을 받을 수 있다.

"공화당 지지자들 중에서도 트럼프를 싫어하는 사람들이 많기 때문에 저러한 경향은 크게 이상하지 않다"라고 주장할 수도 있겠으나, 왜 서로 다른 카운티들이 저렇게 다 같이 약속이나 한 것처럼 깔끔한 선형 경향성을 보이는지 어떻게 설명할 수 있을 것인가?

이제 꽤나 재미 있는 그래프가 나온다. 웨인 카운티(Wayne County)다. 민주당의 아성(?) 디트로이트(Detroit)가 웨인 카운티에 속해 있으며 대다수의 프리싱트가 골수 민주당 지지자들로 바글거린다. 당연히 대다수의 프리싱트에서 공화당 득표율은 바닥일 것이고, 트럼프 득표율은 더 바닥일 것이라고 예상할 수 있을 것이다.

앞에서 언급했듯이, 만약 트럼프의 표를 바이든의 표로 바꿔서 계산하는 투표조작 알고리즘이 작동한다면 트럼프의 표 자체가 적을 것이기 때문에 효과도 별로 없고 오히려 들킬 확률만 높다.

그러므로 조작을 하려면 다른 방식을 써야 한다. 예를 들면 디트로이트 개표장인 TCF센터의 창문을 다 가리고 공화당 참관인들을 쫓아내고 개표작업을 중단한 후에 새벽의 어둠을 틈타 바이든에 기표된 가짜 투표지를 대량으로 쏟아붓는다던가 하는 방법을 써야겠다.

만약 부정선거가 애초부터 없었고, 단지 트럼프 개인의 이미지가 워낙 나빠서 공화당 득표율이 높을수록 트럼프 특표율이 낮아지는 것이 자연스러운 현상이라고 한다면, 웨인 카운티에서도 이러한 선형 반비례 경향성이 나타날 수 있을 것이다.

이제 그래프를 보자. 켄트 카운티와 마찬가지로 사전투표와 당일투표를 하나로 합해서 그린 것이다. 아래의 그래프다.


대체 이것을 어떻게 설명할 것인가? 오클랜드, 마콤, 켄트에서 보이던 깔끔한 선형성은 다 어디로 도망간 것인가?

게다가 공화당 지지율이 바닥인(X축값이 작은) 프리싱트에서 오히려 트럼프 개인의 지지율은 공화당 지지율보다 높아서 Y축이 양수(+)인 영역에 수많은 점이 찍히고, 공화당 지지율이 높은(X축값이 큰) 프리싱트에서도 트럼프 개인의 지지율이 더 높아서 Y축이 양수(+)인 영역에 대부분의 점들이 분포한다.

조작 알고리즘이 있었다는 가정하에 생각해 보자면, 최소한 다른 카운티에서 작동한 조작 알고리즘이 웨인 카운티에는 적용되지 않았음이 분명하다. 상식적으로 생각을 해 봐도, 민주당 절대우위 카운티이므로 이런 종류의 알고리즘은 당연히 적용하지 말아야 할 것이다.

수백만명이 무작위로 투표하는데 서로 다른 카운티에서 저런 식으로 서로 약속이라도 한 것 같은 경향성이 우연의 일치로 저렇게 나올 수 있을까? 게다가 민주당 절대우위인 웨인 카운티는 제외하고?

시바 아야두라이 박사의 주장을 요약하자면, 저렇게 많은 프리싱트가 모여서 다 같이 저렇게 깔끔한 선형 1차 함수의 경향성을 나타내도록 만드는 방법은 컴퓨터 알고리즘뿐이다. 이것은 가중경쟁 알고리즘(weighted race algorithm)이라고 불리며, 공화당 지지율에 비례하여 교체하는 트럼프 득표의 비율을 높이는 방식으로 구현되어 있는 것으로 추정된다.

미시건주 부정선거 의혹과 관련하여 예전에 정리했던 게시물에 있던 내용을 다시 가져와 보면 아래와 같다.


미시건주 공화당 의장(chairwoman) 로라 콕스(Laura Cox)는 금요일 기자회견에서 이렇게 말했다. "앤트림 카운티(Antrim County)에서 공화당쪽 표가 민주당표로 계산되어 6천표가 잘못 집계되었습니다. 카운티 사무원이 '집계용 소프트웨어에서 오류가 발생하여 표 계산이 잘못되었다'고 제보했습니다."

콕스는 "그 이후, 우리는 지금까지 47개 카운티가 동일한 소프트웨어를 사용하고 있다는 사실을 알아냈다"고 말했다. 미시건주의 총 83개 카운티중 절반이 넘는 비중이다. 콕스는 이 카운티들에서 "비슷한 오류가 발생하는지 철저하게 결과를 조사해야 한다"고 촉구했다.  트럼프 선거운동본부는 그녀의 언급을 트위터에 공유했다.

디트로이트 프리 프레스(the Detroit Free Press)의 보도에 의하면 앤트림 카운티에서 사용된 장비는 도미니언 보팅 시스템즈(Dominion Voting Systems)라는 업체의 장비다.



미시건주 공화당 의장 로라 콕스의 발언을 추가로 다시 가져와 본다.


직원들이 진실을 은폐하기 위해 TCF센터의 창문을 다 가렸습니다. 이것 말고도 무엇을 더 숨기고 있는 것입니까? 조셀린 벤슨(Jocelyn Benson, 미시건주 주무장관)은 투명한 선거를 약속했지만, 이번 선거는 전혀 투명하지 않았습니다.

우리가 정말로 납득할 수 없는 점은, 벤슨 장관이 유권자들에게 아직 개표되지 않은 표의 수가 얼마인지 말하지 못한다는 사실입니다. 단순한 산수일텐데도, 실제 상황에 전혀 근거하지 않은 이상한 수자를 얘기하는 것을 이해할 수가 없습니다. 주무장관이 투표 종료후 몇시간 내에 총 투표수가 얼마인지 미시건의 유권자에게 공표하는 것이 정상이라고 생각합니다.



우리나라의 지난 4.15 총선과 마찬가지로, 이것은 당장에 어느 한쪽으로 결론을 단정할 문제가 아니라 철저하고 면밀하게 조사하여 규명해야 할 문제다.




핑백

덧글

댓글 입력 영역
* 비로그인 덧글의 IP 전체보기를 설정한 이글루입니다.



통계 위젯 (화이트)

307398
2207
2432108

2019 대표이글루_IT

B-Side