Category: россия

Category was added automatically. Read all entries about "россия".

Main point

А что у нас с электронным голосованием

Все попытки анализ и реконструкции результатов голосования по поправкам касаются только обычных участков, т.к. в субъектах, где проводится эксперимент по удалённому голосованию, имеется лишь по одному гигантскому электронному участку без какой-либо внутренней структуры.


Обзаведясь простым инструментом для прямой реконструкции результатов, я решил сравнить их для офлайн- и онлайн-голосования (тем более, что, коль скоро для последнего не имеет смысла понятие явки, то и мучиться с её реконструкцией не надо).


Субъект Явка
отсечки
Охват
избирателей
σ|| Уголовой
коэфиц.
Результат власти
Официальн. Реконструкция Электронный
город Москва 38,2% 40,9% 308 1,437 66,1% 59,0% 62,3%
Нижегородская обл. 31,4% 5,6% 172 2,052 80,7% 67,2% 59,7%

Если для обычного голосования всё ожидаемо (результаты в столице фальсифицируются поменьше, в провинции – побольше), то с дела с электронным обстоят посложнее.


Избиратель, умеющий в интернет, более информирован и потому менее подвержен пропаганде, а значит, результат власти в честном онлайне должен быть ниже, чем в офлайне. В Нижегородской области так и вышло. А вот в Москве удалённые результаты оказываются примерно посередине между официальными и их реконструкцией.


По итогу я вынужден скорректировать свою точку зрения, что электронные результаты фальсифицируются тотально. Нет, не всюду и не до полного беспредела, но в Москве – весьма ощутимо. Впрочем, возможно, провинция просто ещё не научилась…

Main point

Интегральный Шпилькин – premium edition

При обсуждении предыдущего поста на эту тему коллега oude_rus навёл меня на мысль, как упростить метод.


Значит, так. Рассматривается число голосов, поданных за власть и против власти (включая недействительные бюллетени), на всех участках с явкой, не превосходящей данной. Если мы предполагаем, что результат не зависит от явки, то отношение этих чисел должно быть постоянным. В российских реалиях при высоких явках голосов за власть оказывается многовато по сравнению с голосами против неё.


Отсортируем участки по возрастанию явки и будем, подбирая в выборку участки по одному, рассчитывать среднее отношение и его стандартное отклонение. Там, где последнее достигнет минимума, остановимся, отбросив участки с большей явкой.


При этом ничего не нужно делать визуально – ни совмещать графики плотности, ни оценивать положение ядра честных участков. Нужно только проследить, чтобы график отношения более не пересёк его вычисленный средний уровень, что может произойти при слишком малых выборах, но это тоже делается алгоритмически.


Единственная трудность тут, до которой при дифференциальном подходе дело вообще не доходит, – выбор того, какое отношение следует рассматривать – прямое или обратное. В таблицах далее я попробовал оба варианта, что даст дополнительные оценки погрешности метода.


Реконструация с помощью отношения «за власть» / «против власти»
Величина Явка
отсечки
Доля
участков
Отно-
шение
Общая явка Явка за власть Результат власти
Год Офиц. Реальн. Разница Офиц. Реальн. Разница Офиц. Реальн. Разница
2000 80% 71% 1,06 68,9% 66,6% 2,3% 36,8% 34,7% 2,1% 53,5% 52,0% 1,5%
2003 57% 44% 0,48 55,7% 48,1% 7,7% 20,9% 15,9% 5,0% 37,6% 33,1% 4,5%
2004 53% 11% 1,98 64,4% 48,5% 15,9% 45,9% 32,3% 13,5% 71,3% 66,7% 4,6%
2007 71% 55% 1,31 63,8% 56,5% 7,3% 41,0% 32,7% 8,3% 64,3% 57,8% 6,5%
2008 72% 42% 1,70 69,8% 59,4% 10,4% 49,0% 38,1% 10,9% 70,3% 64,0% 6,3%
2011 61% 48% 0,53 60,2% 49,9% 10,3% 29,6% 17,9% 11,8% 49,3% 35,7% 13,6%
2012 76% 71% 1,37 65,3% 60,6% 4,7% 41,5% 35,7% 5,8% 63,6% 58,8% 4,8%
2016 44% 43% 0,64 47,9% 35,1% 12,8% 25,9% 14,2% 11,8% 54,2% 40,3% 13,9%
2018 69% 51% 2,65 67,5% 59,8% 7,7% 51,8% 43,7% 8,1% 76,7% 73,0% 3,7%
2020 48% 15% 1,78 67,7% 40,1% 27,6% 52,8% 25,9% 27,0% 78,2% 64,4% 13,7%


Реконструация с помощью отношения «против власти» / «за власть»
Величина Явка
отсечки
Доля
участков
Отно-
шение
Общая явка Явка за власть Результат власти
Год Офиц. Реальн. Разница Офиц. Реальн. Разница Офиц. Реальн. Разница
2000 83% 77% 0,94 68,9% 67,0% 1,9% 36,8% 35,0% 1,8% 53,5% 52,1% 1,4%
2003 54% 34% 2,08 55,7% 46,1% 9,7% 20,9% 15,1% 5,8% 37,6% 32,8% 4,8%
2004 53% 11% 0,51 64,4% 48,4% 15,9% 45,9% 32,3% 13,5% 71,3% 66,7% 4,7%
2007 68% 50% 0,77 63,8% 55,6% 8,2% 41,0% 32,0% 9,0% 64,3% 57,4% 6,9%
2008 68% 34% 0,59 69,8% 57,3% 12,5% 49,0% 36,4% 12,6% 70,3% 63,4% 6,9%
2011 58% 42% 1,90 60,2% 48,9% 11,3% 29,6% 17,2% 12,5% 49,3% 35,1% 14,2%
2012 76% 71% 0,73 65,3% 60,5% 4,8% 41,5% 35,6% 5,9% 63,6% 58,8% 4,8%
2016 40% 33% 1,57 47,9% 33,4% 14,4% 25,9% 13,3% 12,7% 54,2% 39,6% 14,6%
2018 68% 49% 0,38 67,5% 59,4% 8,1% 51,8% 43,3% 8,4% 76,7% 72,9% 3,8%
2020 48% 15% 0,56 67,7% 40,2% 27,5% 52,8% 25,9% 26,9% 78,2% 64,4% 13,7%

На основе этих результатов количество голосов, поданных за власть, можно рассчитать тремя разными способами: 1) умножить явку за власть на число избирателей; 2) официальное число голосов против власти умножить/поделить на их среднее отношение; 3) на основе способа 1 реконструировать число голосов против власти и уже его умножать/делить. Результаты применения всех трёх способов для обоих вариантов отношения сведены в таблицу, показывающую, что они хорошо согласуются друг с другом.


Оценки поддержки власти, млн голосов
Величина Офици-
ально
Отношение «за» / «против» Отношение «против» / «за» Сред-
нее
Станд.
отлкон.
Коэф.
вариац.
Фальсификации
Год Оценка 1 Оценка 2 Оценка 3 Оценка 1 Оценка 2 Оценка 3 Объём Доля
2000 38,9 36,6 35,9 35,7 36,9 35,9 35,8 36,1 0,5 1,4% 2,8 7%
2003 22,8 17,3 18,3 16,9 16,5 18,2 16,2 17,2 0,9 5,2% 5,5 24%
2004 49,6 34,9 39,5 34,3 34,9 39,5 34,3 36,2 2,5 6,9% 13,3 27%
2007 44,7 35,6 32,5 33,9 34,9 32,3 33,6 33,8 1,3 3,9% 10,9 24%
2008 52,5 40,8 37,8 38,7 39,0 37,5 37,7 38,6 1,3 3,3% 13,9 27%
2011 32,4 19,5 17,6 18,4 18,7 17,5 18,1 18,3 0,8 4,2% 14,0 43%
2012 45,6 39,2 35,9 37,5 39,1 35,8 37,4 37,5 1,5 4,0% 8,1 18%
2016 28,5 15,6 15,5 14,8 14,6 15,4 14,1 15,0 0,6 3,9% 13,5 47%
2018 56,4 47,6 45,5 46,5 47,2 45,4 46,3 46,4 0,9 1,9% 10,0 18%
2020 57,1 27,9 28,4 27,3 28,0 28,4 27,3 27,9 0,5 1,8% 29,2 51%

Возможность такой проверки – не только бонус интегрального метода, но и задел для его модификации. В принципе, можно не минимизировать стандартное отклонение отношения, а требовать совпадения результатов методов 1 и 2 (результат метода 3 всё-таки не является независимым и приводится здесь только для контроля самосогласованности).


P.S. Снова с удовольствием отмечаю, что на общероссийском голосовании накидали за поправки голосов больше, чем их было подано.

Main point

Унесённые бюллетени

Любопытен список из 5 субъектов, в которых на 100 тыс. проголосовавших было, якобы, унесено менее 10  бюллетеней: Ингушетия (ровно 0), Калмыкия (2,0), Тыва (2,2), Карачаево-Черкесия (5,2) и Алтай (6,0). Из них 4 субъекта прошли все тесты на рисование (спалилась одна лишь Тыва). Это, разумеется, говорит не о чистоте голосования, а о неустранимых ограничениях математически-строгих тестов.
Main point

Выдуманные результаты всенародного голосования

Интуиция подсказывает, что если устранить все препятствия к манипуляциям с бюллетенями, то рисование результатов должно сократиться. Интуиция неправа.


Я посмотрел на распространённость круглых значений для 3 электоральных характеристик – числа выданных бюллетеней, промилле явки избирателей и промилле интересного власти результата (поскольку на этом голосовании размер участка почти не фальсицировался, он из анализа исключён). Для числа выданных бюллетеней учитываются участки, где эта величина не менее 20, для явки – участки с более чем 500 избирателями и её неабсолютным значением, для результата – участки с более чем 600 проголосовавшими.


Рассматривается значимость гипотезы о том, что избыток круглых значений возникает естественным путём. Далее в таблице приводятся величины pα – десятичный логарифм значимости гипотезы, взятый с обратным знаком. Анализ проводится посубъектно. Для 85 субъектов следует считать подозрительными (одно ложноположительное срабатывание в каждом тесте) pα ≥ lg 85 ≈ 1,93, исключительными (одно ложноположительное срабатывание на десять тестов) pα ≥ lg 850 ≈ 2,93 и невероятными (одно ложноположительное срабатывание на сто тестов) pα ≥ lg 8500 ≈ 3,93.


Подробно методика описана тут.


Кроме отдельных характеристик рассматривается их комбинация. По получении итоговых результатов я планировал обновить таблицу, дав результаты проверки многомерной гипотезы, требующей очень много компьютерного времени. Но пока решил ограничиться её аппроксимацией с помощью множественного теста. Для него значимости всех используемых d гипотез перемножаются (их показатели складываются) S = Σc=0d–1c и новый показатель вычисляется по формуле pα = S – lg(hd(S/lge)), где hd – первые d членов разложения экспоненты в ряд Тейлора. Это – приближённый расчёт, но зато очень быстрый. Поскольку погрешность расчётов показателя здесь может достигать нескольких десятых, следует относиться с осторожностью относиться к результатам множественного теста, лежащим вблизи интерпретационных порогов.


В дополнение к поиску неорганизованного рисования, основанного на человеческой любви к круглым числам, я ищу и организованное, обусловленное централизованным заданием целевых процентов, которые могут быть и некруглыми. В результате появляются сгустки, методика поиска которых подробно описана тут. Для сгустков также посчитана аппроксимация с помощью множественного теста, объединяющая сгустки явки и результата (здесь-то уже многомерную гипотезу не проверишь).


Collapse )

Итого: 93% субъектов хотя бы в одном множенственном тесте оказались подозрительными, из них 55% – исключительными, из них – 39% невероятными. Эти значения намного превышают то, что наблюдалось на обычных выборах даже в 2008 г.

Main point

Уханька в Москве

Это – просто творческая переработка поста Миши Тамма.
Я беру официальные данные о приросте числа заболевших COVID-19 в Москве, усредняю в семидневном окне, чтобы устранить недельный ход, и приближаю логарифм сглаженного прироста непрерывной кусочно-линейной функцией (сам знаю, что работать с приростами вместо кумулятивных данных – халтура, но уж больно лень возиться с нелинейным МНК). Получилась вот такая картинка (точки относятся к серединам интервалов осреднения), состоящая из нескольких линейных участков.

Точки излома (подбираются так, чтобы минимизировать ошибку аппроксимации) пришлись на 29 марта, 17 апреля и 27 апреля. Первая точка отстоит на 12 дней от момента закрытия учебных заведений в городе (17 марта), вторая – на 12 дней от конца пресловутой «нерабочей недели» (5 апреля), когда стало понятно, что у нас не выходные, а локдаун, ну, и третья – на 12 дней от организованной оленеводом давки на входах в метро (15 апреля). Таким образом, для сглаженных московских данных 12 дней являются временем реакции на значимые события.

UPD. Возобновившийся рост – это на самом деле переход к новому плато, т.к. имело место импульсное воздействие, а не смена условий. Если посмотреть график для несглаженных приростов, то это хорошо видно.

На этом графике первое плато становится несколько шире, дотягиваясь до середин недель, когда, по-видимому, регистрация заболевших происходит активнее чем в выходные. Две точки по краям можно как относить, так и не относить к первому плато. Такая вариативность оставлена для оценки погрешности дополнительного числа заболевших, которые мы поимели благодаря давке. По состоянию на 08 мая оно равняется 22,4(5) тыс. человек, или 23(1)% от общего числа заболевших. Значение получено как наполенная разность между развитием ситуации на уровне первого и второго плато.
Main point

Комбинированный тест на нолики

Ранее я уже показывал эффективность проверки на избыток психологически притягательных значений электоральных характеристик (круглых для целочисленных и целых для процентных) для выявления электоральных фальсификаций. Однако при этом характеристики рассматривались индивидуально. Попытка сочетать проверки бесславно провалилась как из-за неудачного выбора того, что именно следует проверять, так и из-за грубых математических ошибок, вызванных слабым пониманием инструментария матстатистики. За прошедшее время добрые люди помогли мне прокачать скиллы. И вот – новая попытка.


Collapse )
Main point

Парные нолики

Пока ищется способ сделать значимости для триномиальных распределений из прошлого поста p-значениями, посчитаю-ка я просто парные нолики.


Для трех основных электоральных характеристик (промилле общей явки, промилле результата власти и участие избирателей в выборах) для каждого субъекта на каждых выборах считается число k участков, где одновременно какие-то две характеристики из трёх оказались круглыми (вероятность того, что это произошло случайно, – 1%). Если в субъекте всего n допустимых участков (не менее 100 участников и неполная явка при её рассмотрении), то значимость α гипотезы о том, что число успехов k не было завышено, может быть рассчитана просто как сумма биномиальных членов. Например в Excel α = БиномРасп(nk;n;99%;1).


Поскольку постановка одномерная, пороги для качественной интерпретации и раскраски значений показателя pα = –lgα заведомо являются теми же, что при испытаниях на круглые значения для отдельных характеристик.


Для 68 субъектов хотя бы по разу хотя бы для одной пары характеристик зафиксировано pα ≥ 2, из для 35 – pα ≥ 3, из них для 20 – pα ≥ 4, из них для 15 – pα ≥ 5. При рассмотрении одиночных характеристик соответствующие количества составили 60, 29, 22 и 17. При переходе к парам из списка исключительных и невероятных выскользнули Ингушетия, Крым, Тыва, Ямало-Ненецкий а/о., Хабаровский кр. и Саратовская обл., где, видимо, не очень склонны рисовать круглые числа сразу для нескольких характеристик. Зато спалились Красноярский кр., Иркутская, Новосибирская и Пензенская обл., где наоборот.


Collapse )
Main point

Полиномиальные нолики

Получила неожиданное развитие тема обнаружения в результатах выборов избытка круглых чисел, которые (в силу своей психологической привлекательности и некоторых других причин) при фальсификациях массово возникают для количества принявших участие, а также для промилле общей явки и результата партии/кандидата власти.


Традиционный Disclaimer. При обработке результатов, чтобы гарантировать значительную ширину разброса рассматриваемых электоральных характеристик, учитываются только участки, где участие в выборах приняли не менее 100 человек. Это, кроме того, позволяет сделать пренебрежимо малой вероятность концентрации явки и результата на дробях с малыми знаменателями. Наконец, для явки исключаются из рассмотрения участки, где участие в выборах приняли все без исключения зарегистрированные избиратели, т.к. это может быть следствием отсутствия заранее составленных их списков, что делает явку фиктивной величиной.


К настоящему моменту устоявшийся инструментарий связан с проверкой статистических гипотез для испытаний Бернулли. Если вероятность успеха (круглое число) p = 10%, а вероятность неудачи (некруглое число) q = 90%, то при k успехах в n попытках вероятность того, что отношение k / n достигло своего (быть может, подозрительно высокого) значения в результате естественных причин α = Σi=knCnipiqni. Чтобы не работать со сверхмалыми числами, вместо значимости α, используется её десятичный показатель pα = –lgα, увеличение которого на 1 соответствует уменьшению вероятности отсутствия фальсификаций на порядок.


Для 865 результатов федеральных выборов в 1999–2008 гг. значения pα ≥ 5 можно считать невероятными, pα ≥ 4 – исключительными, pα ≥ 3 – подозрительным, pα ≥ 2 – отмеченными (они не вызывают подозрений в рамках массива из 10 выборов, но всё-таки подозрительны в рамках контренных выборов).


Оказалось, что эту схему можно существенно улучшить, если рассматривать векторные электоральные характеристики. Простейшими из них являются парные комбинации: Участие–Явка, Явка–Власть, Власть–Участие. При этом значимость гипотезы о естественном возникновении наблюдаемой доли круглых чисел даётся уже суммой не биноминальных, а триномиальных членов: α = Σi=knlΣj=lnin!/(ij!·(nij)!)·piqjrnij, где k – число случаев, когда круглыми оказываются обе характеристики, l – когда только одна, а вероятности p = 1%, q = 18% и r = 81%. Всё остальное сохраняется без изменений.


Чувствительность теста выросла радикально! Некоторые субъекты, которые при рассмотрении характеристик по одной не попадали даже в подозрительные, стали сразу невероятными, не говоря уже о менее радикальных уточнениях. Для 86 субъектов хотя бы по разу хотя бы для одной пары характеристик встретились отмеченные показатели, из для 67 – подозрительные, из них для 38 – исключительные, из них для 25 – невероятные.


Collapse )
Main point

Хитрожадное голосование

В предыдущем посте я ввёл понятие жадного голосования, под которым понималось использование на участке, не оборудованном кэгами, всех без исключения бюллетеней при неполной явке.
Владимир Егоров обратил внимание на то, что в хитрые фальсификаторы иногда оставляют несколько бюллетеней, чтобы не палиться.
В этой связи целесообразно ввести понятие хитрожадного голосования, предполагающего не полное исчерпания бюллетеней, а допускающего оставление какого-то их числа неиспользованными, но не более чем (n/n0)½ штук. Здесь n – число зарегистрированных на участке избирателей, а n0 – масштабный параметр. Выбор его оптимального значения сложен, но предварительный анализ показывает, что разумный диапазон 100 ≤ n0 ≤ 500. Я пока взял самый жёсткий вариант n0 = 100 (участки от 100 избирателей считаются хитрожадными, если остался лишь 1 бюллетень, от 400 – если до 2, от 900 – если до 3 и т.д.). Просто жадное голосование хитрожадным не считается. Требование превышение количества зарегистрированных избирателей над количеством полученных комиссией бюллетеней сохраняется.
Анализ распределения хитрожадности показывает, что подозрительными следует считать субъекты с долей хитрожадных участков от 0,22%, весьма подозрительными – от 0,38%. Более детальных градаций я пока не вводил, хотя максимальная зарегистрированная хитрожадность составляет аж 15,4% (Дагестан, 2011 г.).
В таблицу далее собраны случаи голосования с хитрожадностью от 1%. Для сравнения приведены и соответствующие значения жадности, раскраска ячеек для которой сохранена из предыдущего поста. А для хитрожадности выделены случаи, когда она оказывается выше жадности. В таком занятном поведении хотя бы по разу замечены республики Ингушетия, Кабардино-Балкария, Коми, Северная Осетия, Тыва, Чечня (3 раза подряд!), Чувашия и Якутия, а также Усть-Ордынский Бур., Чукотский и Ямало-Ненецкий авт.окр. и Нижегородская обл.
Collapse )
Main point

Жадное голосование

Зачастую на выборах возникает нереалистичная ситуация, когда количество участвовавших в них избирателей в точности совпадает с числом бюллетеней, полученных участковой избирательной комиссией, но при этом оказывается меньше числа избирателей, зарегистрированных в её списках. Все три числа могут совпасть для спецучастков (особенно это типично для кораблей, с которых избирателям некуда деться), но крайне маловероятно, чтобы все бюллетени были выбраны естественным путём при неполной явке.


UPD: Кроме участков с полной явкой не рассматриваются участки, где установлены кэги (комплексы электронного голосования). При их использовании иногда в качестве числа полученных бюллетеней берут не количество полученных одноразовых карточек для голосования, а таки число проголосовавших избирателей. Это, возможно, и нарушение, но никак не злой умысел.


Назовём ситуацию совпадения числа полученных бюллетеней и количества якобы проголосовавших избирателей жадным голосованием, поскольку она должна возникать в ситуации когда фальсификаторы подчистую выгребают все наличные бюллетени в попытках достичь желаемых высоких значений явки и/или результата власти. При этом на самих участках с жадным голосованием уровень фальсификаций оказывается сравнительно невысок, именно потому, что ограничен недостаточным числом имеющихся бюллетеней. При этом на других участках того же субъекта федерации, более обильных бюллетенями, фальсификаторы могут насытиться и не запалиться напрямую. Однако поскольку стиль и масштабы фальсификаций у нас субъектоспецифичны, наличие значительной доли жадных участков надёжно дискриминирует результаты выборов в субъекте в целом.


За 1999–2018 гг. имеются данные о федеральных выборах по 865 субъектам (считая зарубежную территорию за отдельный субъект). Из них в 240 случаях жадных участков не было, а в 625 – были. И здесь встаёт вопрос о том, сколько орехов – куча. Строго на него ответить сложно, но предварительные прикидки позволяют установить следующие пороги для доли жадных участков в субъекте.

UPD: Далее приведенные порги пересчитаны по той же методике после исключения участков с кэгами.


Если доля жадных участков меньше 0,31% (225 случаев), то фальсификации – незначительные (нельзя исключать и случайного стечения обстоятельств). Если она больше этого порога, но меньше 1,16% (250 случаев), фальсификации – умеренные (весьма подозрительно, но сложно что-то доказать). Если она больше и второго порога, но ещё меньше 6,54% (125 случаев), фальсификации – масштабные, а если больше, то – запредельные (25 случаев).


Collapse )