Оппозиция – последнее прибежище негодяя



Именно так можно переиначить известный афоризм Сэмюэля Джонсона «Патриотизм – последнее прибежище негодяя», изучая новостную повестку Чувашии. Там я в свое время хорошо похулиганил на выборах. Друзья из местных периодически нагружают мне личку новостями со своего приволжского днища. Им есть, чем годиться, обильна чувашская земля на хайповые ДНОвости в последнее время.Collapse )

Main point

Что такое по-настоящему агрессивная реконструкция

После того как при обсуждении реконструкции результатов белорусских выборов коллега corbulon поинтересовался распределением последних цифр электоральных характеристик, мне захотелось немного пошалить.

Collapse )

Таким образом, если мы хотим оставаться в области мало-мальски вероятных исходов, то должны признать, что результат Лукашенко не превышает ¼, что соответствует реконструкции на основе данных по досрочному, надомному и протестному голосованию, тогда как реконструкция разделением участков, дающая инкумбенту ⅓ голосов, оказывается слишком мягкой.

Не будем при этом забывать, что не все фальсифицированные результаты рисованные, поскольку существуют и другие способы фальсификации, т.е. «действительность ещё кошмарней».

Collapse )
Main point

Как на самом деле проголосовала Белоруссия

Со дня белорусских выборов прошло больше месяца. Сбор копий протоколов с участков, видимо, завершился, т.к. база давно уже не пополняется. Можно выполнить анализ имеющихся данных.

Из 5767 белорусских участков база протоколов покрывает лишь 1310, причём только 1245 из них не имеют пропусков в нужных для анализа графах и не содержат внутренних противоречий (невозможность удовлетворить контрольным соотношениям положительными числами). Но и этого достаточно, чтобы приблизительно реконструировать истинные результаты. Разумеется, речь как всегда идёт об их слабой реконструкции. Т.е. ставится не вопрос, какой был бы результат, если бы всюду посчитали честно и предоставили соответствующие цифры, а вопрос, какой результат получен там, где таки посчитали честно и предоставили цифры.

Collapse )

Если собрать все достоверные участки (197 из 1245), получается оценка явки – 78,8%, результатов Лукашенко и Тихановской – 32,8% и 53,9%, т.е. инкумбент получил поддержку в 1,64 меньше своей конкурентки, проиграв ей в первом же туре.

Collapse )
Main point

SIR-модель с суперраспространителями

Простейшая модель развития эпидемии оперирует всего тремя переменными S, I и R – доли в популяции восприимчивых, инфицированных и выбывших (переболевших, помещённых в карантин или умерших) людей. Модель имеет всего один значимый параметр r (базовое репродуктивное число). Уравнения очень просты: dS/dt = −S·I/τ, dR/dt = Ir и S + I + R = 1. Характерное время τ на качественное поведение модели не влияет.

Если для простоты положить, что S(0) = 1 (изначально все восприимчивы), то тривиальное положение равновесия I = 0 устойчиво при r < 1 и неустойчиво при r > 1. В последнем случае появляется нетривиальное положение равновесия, куда популяция приходит, когда переболеет некоторая её часть. Это называется коллективным иммунитетом и это общеизвестно.

Пусть теперь популяция распадается на множество типов людей i = 0,1,2,…, различающихся своей социальной активностью. Люди типа i за единицу времени вступают в контакты с другими людьми в ki раз чаще, чем люди типа 0, причём при заражении человека тип его активности не меняется. В этом случае модель принимает вид dSi/dt = −kiSi·∑ikiIi/τ, dRi/dt = Iir и Si + Ii + Ri = ai, где ai = Si(0) – изначальные доли людей разной активности.

Введём для удобства эффективные доли восприимчивых, инфицированных и выбывших людей: S = ∑ikiSi, I = ∑ikiIi и R = ∑ikiRi. Динамика этих величин описывается уравнениями dS/dt = −Z·I/τ, dR/dt = I/rτ и S + I + R = const, где Z = ∑ik2iSi.

Связь эффективных долей выбывших и восприимчивых имеет вид dR/dS = −Z/r. В то же время относительная динамика долей разных типов восприимчивых даётся уравнением dSi/Si = ki·dS0/S0, из которого вытекает выражение dS = Z·dS0/S0. Таким образом, dR = −1/r·dS0/S0, с учётом чего уравнение баланса принимает вид dS + dI − 1/r·dS0/S0 = 0. Интегрируя его, получаем SS(0) + I = 1/r·ln S0/a0.

Нас интересует не всё решение, а только его стационарное состояние I = 0, условие на которое можно упростить, если обозначить x = S0/a0 и воспользоваться очевидным ln Si/ai = ki·ln x. Тогда получается r·∑iaiki·(xki−1) = ln x. Поделив обе стороны на x−1 и элиминировав тем самым тривиальную неподвижную точку, приходим к выражению r·∑iaiki·(xki−1) / (x−1) = ln x / (x−1), левая часть которого – возрастающая функция x, правая – убывающая из бесконечности, т.е. решение может быть только одно. Чтобы оно существовало, максимум левой части должен быть больше минимума правой: r·∑iaik2i > 1. Это условие приходит на смену тривиальному r > 1 для гомогенной популяции. Особо следует отметить, что в условие входит k2, а не просто k, т.е. результат деятельности суперраспространителей (типов с i > 0) таков, как будто они только тем и заняты, что взаимодействуют друг с другом.

Collapse )
Main point

А что у нас с электронным голосованием

Все попытки анализ и реконструкции результатов голосования по поправкам касаются только обычных участков, т.к. в субъектах, где проводится эксперимент по удалённому голосованию, имеется лишь по одному гигантскому электронному участку без какой-либо внутренней структуры.


Обзаведясь простым инструментом для прямой реконструкции результатов, я решил сравнить их для офлайн- и онлайн-голосования (тем более, что, коль скоро для последнего не имеет смысла понятие явки, то и мучиться с её реконструкцией не надо).


Субъект Явка
отсечки
Охват
избирателей
σ|| Уголовой
коэфиц.
Результат власти
Официальн. Реконструкция Электронный
город Москва 38,2% 40,9% 308 1,437 66,1% 59,0% 62,3%
Нижегородская обл. 31,4% 5,6% 172 2,052 80,7% 67,2% 59,7%

Если для обычного голосования всё ожидаемо (результаты в столице фальсифицируются поменьше, в провинции – побольше), то с дела с электронным обстоят посложнее.


Избиратель, умеющий в интернет, более информирован и потому менее подвержен пропаганде, а значит, результат власти в честном онлайне должен быть ниже, чем в офлайне. В Нижегородской области так и вышло. А вот в Москве удалённые результаты оказываются примерно посередине между официальными и их реконструкцией.


По итогу я вынужден скорректировать свою точку зрения, что электронные результаты фальсифицируются тотально. Нет, не всюду и не до полного беспредела, но в Москве – весьма ощутимо. Впрочем, возможно, провинция просто ещё не научилась…

Main point

Интегральный Шпилькин – scientists’s edition

Самосогласованный подход deluxe edition оказался гуманным до такой степени, что в случае умеренных фальсификаций не видит их вовсе. Поэтому пришлось вернуться к походу premium edition и устранить в нём неоднозначности.


Здесь используется аппроксимация линейной регрессией Деминга, проходящей через начало координат, зависимости числа голосов, поданных за власть, от числа гослов, поданных против неё, на всех участках с явкой, не превосходящей данной. Максимальная явка выбирается, исходя из максимизации отношения продольного и поперечного разброса точек при условии, что при больших явках график будет идти строго выше регрессионной прямой. Из углового коэффициента графика сразу получаются истинные результаты власти и условной оппозиции.



Результаты выборов
Год Явка
отсечки
Охват
избирателей
σ|| Уголовой
коэфиц.
Реконструкция Иска-
жение
Оппозиция Власть
2000 64,7% 72,9% 799 1,070 48,3% 51,7% 1,8%
2003 40,1% 18,4% 1453 0,478 67,7% 32,3% 5,2%
2004 46,0% 9,8% 633 1,968 33,7% 66,3% 5,0%
2007 51,9% 45,2% 401 1,280 43,9% 56,1% 8,2%
2008 46,9% 8,3% 1198 1,656 37,6% 62,4% 7,9%
2011 46,9% 42,9% 457 0,519 65,8% 34,2% 15,2%
2012 58,4% 68,5% 204 1,338 42,8% 57,2% 6,4%
2016 29,5% 21,5% 1828 0,633 61,2% 38,8% 15,4%
2018 55,2% 30,6% 3231 2,634 27,5% 72,5% 4,2%
2020 37,1% 14,7% 614 1,760 36,2% 63,8% 14,4%

Увы, ничто не даётся даром. Простота и ясность реконструкции результатов выдавливает все трудности в определение истинной явки. И нет никаких оснований считать, что она приходится на моду распределения избирателей по явке, как предлагается при использовании дифференциального подхода, ибо это распределение несимметрично.


Здесь в качестве оценки явки против власти просто берётся её максимальное значение, наблюдаемое для участков с явкой, не превосходящей данной. Через ранее найденный коэффициент это позволяет вычислить явку за власть, а там – и общую явку как их сумму. Далее оцениваются объёмы фальсификаций различных типов.

Реконструкция явки и объёмы фальсификации
Год Явка за Общая
явка
Завы-
шение
Фальшак, млн голосов Фальшивая
поддержка
оппоз. власть Вброс Переброс Всего
2000 32,1% 34,5% 66,6% 2,4% 2,5 0,12 2,6 6,7%
2003 34,8% 16,7% 51,6% 4,2% 4,6 0,09 4,6 20,4%
2004 19,1% 37,7% 56,7% 7,6% 8,3 0,70 9,0 18,1%
2007 23,9% 30,7% 54,5% 9,2% 10,1 1,25 11,3 25,3%
2008 21,6% 35,9% 57,5% 12,3% 13,2 0,95 14,2 27,0%
2011 32,3% 16,9% 49,2% 11,0% 12,0 2,02 14,1 43,4%
2012 24,9% 33,5% 58,4% 6,9% 7,6 1,30 8,9 19,6%
2016 22,3% 14,2% 36,5% 11,3% 12,5 0,48 13,0 45,4%
2018 16,3% 43,0% 59,3% 8,2% 9,0 0,63 9,6 17,0%
2020 15,9% 28,1% 44,1% 23,6% 25,5 1,26 26,8 46,9%

Бросается в глаза, что хотя объём фальсификаций на плебисците беспрецедентен, по доле фальшивых голосов в поддержке власти он не сильно отличается от двух последних думских выборов. Тем не менее, эта величина всё же оказывается чуть меньше половины. Видимо, власть не в состоянии достичь мухлежом большего, чем добивается пропагандой и принуждением.

Main point

Интегральный Шпилькин – deluxe edition

В прошлом посте я анонсировал иной подход к определению объёмов вброса голосов в рамках гипотезы Шпилькина. Можно не совмещать и не аппроксимировать графики, а рассчитать поддержку власти двумя разными способами и потребовать совпадения результатов. Иными словами – не экстремальность, а согласованность.


Итак, для участков с явкой не более T рассматривается число зарегистрированных на них избирателей Z, число избирателей V, принявших участие в голосовании, и число голосов P, поданных ими в поддержку власти. Для этой величины строятся две реконструкции P1(T) = P(T) · (V(1)−P(1)) ⁄ (V(T)−P(T)) и P2(T) = P(T) · Z(1) ⁄ Z(T), где единичный аргумент соответствует полной выборке участков. Если, как предполагается, результаты вариантов выбора не зависят от максимальной явки T, то первая реконструкция должна быть постоянной величиной, а вторая – прямой пропорциональностью. И пересечься эти графики должны при T* = 1. Из-за фальсификаций графики меняются.


Явка отсечки T*, при которой P1(T*) = P2(T*) позволяет ограничить выборку участков, которой ещё можно доверять. Соответствующее значение P считаем истинной поддержкой власти.


Как это выглядит для недавнего голосования, показана на рисунке.



И что может быть нагляднее? Другое дело, что покупается такая наглядность меньшей агрессивностью реконструкции, поскольку осечка выдавливается вправо. Впрочем, уменьшение агрессивности расширяет аудиторию, готовую воспринимать результаты. Их сводка по 10 голосованиям дана в таблице.


Результаты расчётов
Год Явка
отсечеки
Явка избирателей, % За власть, млн чел Результат власти
Офиц. Реальн. Разн. Офиц. Реальн. Разн. Офиц. Реальн. Разн.
2000 83,0% 68,9% 67,1% 1,9% 38,9 36,9 2,0 53,5% 52,2% 1,3%
2003 82,5% 55,7% 53,4% 2,3% 22,8 20,3 2,5 37,6% 34,9% 2,7%
2004 69,8% 64,4% 56,8% 7,6% 49,6 41,4 8,2 71,3% 67,5% 3,8%
2007 59,3% 63,8% 52,1% 11,6% 44,7 32,0 12,7 64,3% 56,3% 8,0%
2008 65,8% 69,8% 56,6% 13,2% 52,5 38,4 14,2 70,3% 63,3% 7,0%
2011 53,0% 60,2% 46,4% 13,8% 32,4 17,3 15,1 49,3% 34,2% 15,1%
2012 61,0% 65,3% 55,4% 10,0% 45,6 34,6 11,0 63,6% 57,0% 6,6%
2016 58,6% 47,9% 38,7% 9,2% 28,5 18,4 10,1 54,2% 43,3% 10,9%
2018 63,8% 67,5% 57,7% 9,8% 56,4 45,7 10,7 76,7% 72,7% 4,0%
2020 52,9% 67,7% 42,2% 25,4% 57,1 29,6 27,5 78,2% 65,0% 13,2%
Main point

Интегральный Шпилькин – premium edition

При обсуждении предыдущего поста на эту тему коллега oude_rus навёл меня на мысль, как упростить метод.


Значит, так. Рассматривается число голосов, поданных за власть и против власти (включая недействительные бюллетени), на всех участках с явкой, не превосходящей данной. Если мы предполагаем, что результат не зависит от явки, то отношение этих чисел должно быть постоянным. В российских реалиях при высоких явках голосов за власть оказывается многовато по сравнению с голосами против неё.


Отсортируем участки по возрастанию явки и будем, подбирая в выборку участки по одному, рассчитывать среднее отношение и его стандартное отклонение. Там, где последнее достигнет минимума, остановимся, отбросив участки с большей явкой.


При этом ничего не нужно делать визуально – ни совмещать графики плотности, ни оценивать положение ядра честных участков. Нужно только проследить, чтобы график отношения более не пересёк его вычисленный средний уровень, что может произойти при слишком малых выборах, но это тоже делается алгоритмически.


Единственная трудность тут, до которой при дифференциальном подходе дело вообще не доходит, – выбор того, какое отношение следует рассматривать – прямое или обратное. В таблицах далее я попробовал оба варианта, что даст дополнительные оценки погрешности метода.


Реконструация с помощью отношения «за власть» / «против власти»
Величина Явка
отсечки
Доля
участков
Отно-
шение
Общая явка Явка за власть Результат власти
Год Офиц. Реальн. Разница Офиц. Реальн. Разница Офиц. Реальн. Разница
2000 80% 71% 1,06 68,9% 66,6% 2,3% 36,8% 34,7% 2,1% 53,5% 52,0% 1,5%
2003 57% 44% 0,48 55,7% 48,1% 7,7% 20,9% 15,9% 5,0% 37,6% 33,1% 4,5%
2004 53% 11% 1,98 64,4% 48,5% 15,9% 45,9% 32,3% 13,5% 71,3% 66,7% 4,6%
2007 71% 55% 1,31 63,8% 56,5% 7,3% 41,0% 32,7% 8,3% 64,3% 57,8% 6,5%
2008 72% 42% 1,70 69,8% 59,4% 10,4% 49,0% 38,1% 10,9% 70,3% 64,0% 6,3%
2011 61% 48% 0,53 60,2% 49,9% 10,3% 29,6% 17,9% 11,8% 49,3% 35,7% 13,6%
2012 76% 71% 1,37 65,3% 60,6% 4,7% 41,5% 35,7% 5,8% 63,6% 58,8% 4,8%
2016 44% 43% 0,64 47,9% 35,1% 12,8% 25,9% 14,2% 11,8% 54,2% 40,3% 13,9%
2018 69% 51% 2,65 67,5% 59,8% 7,7% 51,8% 43,7% 8,1% 76,7% 73,0% 3,7%
2020 48% 15% 1,78 67,7% 40,1% 27,6% 52,8% 25,9% 27,0% 78,2% 64,4% 13,7%


Реконструация с помощью отношения «против власти» / «за власть»
Величина Явка
отсечки
Доля
участков
Отно-
шение
Общая явка Явка за власть Результат власти
Год Офиц. Реальн. Разница Офиц. Реальн. Разница Офиц. Реальн. Разница
2000 83% 77% 0,94 68,9% 67,0% 1,9% 36,8% 35,0% 1,8% 53,5% 52,1% 1,4%
2003 54% 34% 2,08 55,7% 46,1% 9,7% 20,9% 15,1% 5,8% 37,6% 32,8% 4,8%
2004 53% 11% 0,51 64,4% 48,4% 15,9% 45,9% 32,3% 13,5% 71,3% 66,7% 4,7%
2007 68% 50% 0,77 63,8% 55,6% 8,2% 41,0% 32,0% 9,0% 64,3% 57,4% 6,9%
2008 68% 34% 0,59 69,8% 57,3% 12,5% 49,0% 36,4% 12,6% 70,3% 63,4% 6,9%
2011 58% 42% 1,90 60,2% 48,9% 11,3% 29,6% 17,2% 12,5% 49,3% 35,1% 14,2%
2012 76% 71% 0,73 65,3% 60,5% 4,8% 41,5% 35,6% 5,9% 63,6% 58,8% 4,8%
2016 40% 33% 1,57 47,9% 33,4% 14,4% 25,9% 13,3% 12,7% 54,2% 39,6% 14,6%
2018 68% 49% 0,38 67,5% 59,4% 8,1% 51,8% 43,3% 8,4% 76,7% 72,9% 3,8%
2020 48% 15% 0,56 67,7% 40,2% 27,5% 52,8% 25,9% 26,9% 78,2% 64,4% 13,7%

На основе этих результатов количество голосов, поданных за власть, можно рассчитать тремя разными способами: 1) умножить явку за власть на число избирателей; 2) официальное число голосов против власти умножить/поделить на их среднее отношение; 3) на основе способа 1 реконструировать число голосов против власти и уже его умножать/делить. Результаты применения всех трёх способов для обоих вариантов отношения сведены в таблицу, показывающую, что они хорошо согласуются друг с другом.


Оценки поддержки власти, млн голосов
Величина Офици-
ально
Отношение «за» / «против» Отношение «против» / «за» Сред-
нее
Станд.
отлкон.
Коэф.
вариац.
Фальсификации
Год Оценка 1 Оценка 2 Оценка 3 Оценка 1 Оценка 2 Оценка 3 Объём Доля
2000 38,9 36,6 35,9 35,7 36,9 35,9 35,8 36,1 0,5 1,4% 2,8 7%
2003 22,8 17,3 18,3 16,9 16,5 18,2 16,2 17,2 0,9 5,2% 5,5 24%
2004 49,6 34,9 39,5 34,3 34,9 39,5 34,3 36,2 2,5 6,9% 13,3 27%
2007 44,7 35,6 32,5 33,9 34,9 32,3 33,6 33,8 1,3 3,9% 10,9 24%
2008 52,5 40,8 37,8 38,7 39,0 37,5 37,7 38,6 1,3 3,3% 13,9 27%
2011 32,4 19,5 17,6 18,4 18,7 17,5 18,1 18,3 0,8 4,2% 14,0 43%
2012 45,6 39,2 35,9 37,5 39,1 35,8 37,4 37,5 1,5 4,0% 8,1 18%
2016 28,5 15,6 15,5 14,8 14,6 15,4 14,1 15,0 0,6 3,9% 13,5 47%
2018 56,4 47,6 45,5 46,5 47,2 45,4 46,3 46,4 0,9 1,9% 10,0 18%
2020 57,1 27,9 28,4 27,3 28,0 28,4 27,3 27,9 0,5 1,8% 29,2 51%

Возможность такой проверки – не только бонус интегрального метода, но и задел для его модификации. В принципе, можно не минимизировать стандартное отклонение отношения, а требовать совпадения результатов методов 1 и 2 (результат метода 3 всё-таки не является независимым и приводится здесь только для контроля самосогласованности).


P.S. Снова с удовольствием отмечаю, что на общероссийском голосовании накидали за поправки голосов больше, чем их было подано.

Main point

Сколько всего нарисовано

Коллега kireev посчитал, сколько всего нарисовано голосов на общероссийском голосовании. Получилось 11,7 млн.
Великий труд – искать рисование вручную посубъектно и чуть ли не потерриториально!
Тигрята ленивы. Поэтому я просто добавил в свои автоматизированные расчёты сводный показатель значимости, консервативным образом учитывающий и неорганизованное (круглые числа), и организованное (сгустки) рисование результатов. После этого приписал всем субъектам (без электронных участков и участков, образованных за рубежом) веса, равные этой значимости и просуммировал с ними числа избирателей – зарегистрированных, пришедших, проголосовавших за или против. Не будь фальсификаций иных типов, отношение этих сумм дало бы истинные проценты явок и результатов. Так, явки общая, за и против оцениваются в 55,9%, 38,9% и 16,4% (при официальных 67,7%, 52,8% и 14,2%), а результаты за и против – 69,6% и 29,4% (при официальных 78,2% и 21,0%). Таким образом, за поправки нарисовано всего 15,0 млн голосов, из которых 12,6 млн вброшены, а 2,4 млн украдены у проголосовавших против. Исходя из оценки истинной общей явки в 40%, получаем, что сверх рисования накидали ещё где-то 17 млн бюллетеней, т.е. рисование стало вполне себе равноправным способом фальсификаций, лишь немного не дотягивающим до традиционных методов.
Main point

Интегральный Шпилькин

Мне всегда было непонятно, почему podmoskovnik для реконструкции результатов выборов использует дифференциальные распределения. Это же так неудобно! Появляется зависимость от величины бина, да и сами графики становятся очень неровными, что делает проблематичным их совмещение при масштабировании ординаты… Наконец дошли руки попробовать сделать тоже самое на уровне интегральных зависимостей.


Методика такова. Участки сортируются по возрастанию официальной явки и для них суммируются числа избирателей по разным категориям (зарегистрированных, пришедших на участок, проголосовавших, поддержавших власть). Далее строится график зависимости явки за власть от общей явки для накопленных сумм. Если предположение о независимости поддержки власти от явки выполнено, а фальсификаций нет, то график должен иметь вид прямой, проходящей через начало координат. Если в области больших явок из-за фальсификаций поддержка власти завышается в одно и то же число раз, то график тоже должен иметь вид прямой, но уже более крутой и не проходящей через начало координат. Таким образом, нужно просто аппроксимировать зависимость двухзвенной кусочно-линейной функцией через начало координат. Точки берутся без весов. Положение точки перелома находится из минимизации среднеквадратичного отклонения. Её абсцисса реконструирует истинную величину общей явкой, ордината – явки за власть, угловой коэффициент первой части – истинный результат власти.


Вот картина для недавнего голосования без учёта электронных участков. На графике оставлена каждая 50-я точка, но в расчётах брались все.



По сравнению с дифференциальной реконструкцией оценка общей явки составляет 46% против 43%, явки за власть – 29% против 28%, результата власти – 65% против 65%, а объёма фальсификации –24÷25 млн лишних голосов против 27 млн.

Завышение явки отыгрывается хуже всего, т.к. на самом деле переход между частями графика не скачкообразный, а плавный (видимо, из-за того, что голоса не только вбрасываются, но и перебрасываются), из-за чего точка перелома немного съезжает вправо. Это наводит на мысль подойти к реконструкции другим путём – просто аппроксимировать левую часть графика прямой пропорциональностью, бросив правую часть на произвол судьбы. Область аппроксимации здесь определяется максимизацией коэффициента детерминации данных.


При таком подходе реконструкций оказывается значительно более агрессивной, оценивая общую явку в 39%, явку за власть – в 25%, её результат – в 64%, а объём фальсификаций в 30÷31 млн лишних голосов. Этот результат менее чувствителен к способу фальсификаций и потому, имхо, заслуживает большего доверия. Особо хочется отметить, что никогда ранее масштабы фальсифицированной поддержки власти не превышали её истинной поддержки, но всё когда-то случается впервые.


В таблицах под катом приведены данные по подобным реконструкциям для всех российских выборов федерального уровня в XX веке. Цифрами в заголовках обозначено число аппроксимирующих прямых (2 или 1).

Collapse )