?

Log in

No account? Create an account

Полиномиальные нолики

Получила неожиданное развитие тема обнаружения в результатах выборов избытка круглых чисел, которые (в силу своей психологической привлекательности и некоторых других причин) при фальсификациях массово возникают для количества принявших участие, а также для промилле общей явки и результата партии/кандидата власти.


Традиционный Disclaimer. При обработке результатов, чтобы гарантировать значительную ширину разброса рассматриваемых электоральных характеристик, учитываются только участки, где участие в выборах приняли не менее 100 человек. Это, кроме того, позволяет сделать пренебрежимо малой вероятность концентрации явки и результата на дробях с малыми знаменателями. Наконец, для явки исключаются из рассмотрения участки, где участие в выборах приняли все без исключения зарегистрированные избиратели, т.к. это может быть следствием отсутствия заранее составленных их списков, что делает явку фиктивной величиной.


К настоящему моменту устоявшийся инструментарий связан с проверкой статистических гипотез для испытаний Бернулли. Если вероятность успеха (круглое число) p = 10%, а вероятность неудачи (некруглое число) q = 90%, то при k успехах в n попытках вероятность того, что отношение k / n достигло своего (быть может, подозрительно высокого) значения в результате естественных причин α = Σi=knCnipiqni. Чтобы не работать со сверхмалыми числами, вместо значимости α, используется её десятичный показатель pα = –lgα, увеличение которого на 1 соответствует уменьшению вероятности отсутствия фальсификаций на порядок.


Для 865 результатов федеральных выборов в 1999–2008 гг. значения pα ≥ 5 можно считать невероятными, pα ≥ 4 – исключительными, pα ≥ 3 – подозрительным, pα ≥ 2 – отмеченными (они не вызывают подозрений в рамках массива из 10 выборов, но всё-таки подозрительны в рамках контренных выборов).


Оказалось, что эту схему можно существенно улучшить, если рассматривать векторные электоральные характеристики. Простейшими из них являются парные комбинации: Участие–Явка, Явка–Власть, Власть–Участие. При этом значимость гипотезы о естественном возникновении наблюдаемой доли круглых чисел даётся уже суммой не биноминальных, а триномиальных членов: α = Σi=knlΣj=lnin!/(ij!·(nij)!)·piqjrnij, где k – число случаев, когда круглыми оказываются обе характеристики, l – когда только одна, а вероятности p = 1%, q = 18% и r = 81%. Всё остальное сохраняется без изменений.


Чувствительность теста выросла радикально! Некоторые субъекты, которые при рассмотрении характеристик по одной не попадали даже в подозрительные, стали сразу невероятными, не говоря уже о менее радикальных уточнениях. Для 86 субъектов хотя бы по разу хотя бы для одной пары характеристик встретились отмеченные показатели, из для 67 – подозрительные, из них для 38 – исключительные, из них для 25 – невероятные.


Под катом – полные таблицы по всем выборам и парам характеристик для субъектов, хотя бы однажды показавших подозрительный показательСвернуть )

Истинная редакция

Когда либералы (что бы это ни значило) в ответ на фразу «Пора валить!» уточняют «Кого?», а патриоты (тот же дисклеймер) – «Куда?», дела страны безнадёжны.
P.S. А если кто-то рассказывает этот анекдот с обратным соответствием вопросов политическим ориентациям, без вариантов – пропагандон.
Способность испытывать правильные эмоции по неправильным поводам обретается не раньше, чем умение отличать неправильные поводы от правильных.
Способность осознать это обретается не раньше, чем умение испытывать правильные эмоции по неправильным поводам.
Способность говорить об этом…
Ступени, ступени, ступени…
Определение количественных порогов для качественной интерпретации уровня жадности и хитрожадности голосования представляет собой сложную задачу. Однако сами эти уровни можно использовать для оценки общего объёма массовых фальсификаций. Для этого субъекты федерации сортируются по возрастанию в них суммарной доли жадных и хитрожадных участков (при равенстве вторичная сортировка осуществляется по убыванию численности зарегистрированных избирателей, что уменьшает флуктуации). Далее субъекты отбрасываются по одному с конца списка и для оставшихся рассчитывается явка за власть, домножение которой на общее число избирателей даёт оценку истинного числа голосов, поданных в поддержку власти. Вычитая эту оценку из официальной цифры, находим гипотетическое завышение поддержки власти.
Данный метод имеет два очевидных недостатка.
1) Разумеется, выявляются не все фальсификации. Для этого было бы необходимо иметь какое-то число реперных субъектов с честно подсчитанными результатами, чего у нас не бывает. Иначе говоря, в зачёт идут только массовые, т.е. превосходящие общий фон, фальсификации.
2) Не понятно, где следует остановиться при отбрасывании субъектов. Если отбросить слишком мало, то будет велика систематическая погрешность, связанная с остающимися значительными фальсификациями, а если отбросить слишком много, то будет велика стохастическая погрешность, связанная с недостаточной представительностью выборки. Очень приблизительно можно сказать, что в российских условиях следует оставлять субъекты, охватывающие 20÷50% избирателей.
На графике представлена зависимость расчётного завышения от сохранённой доли избирателей.

В парах парламентских/президентских выборов 1999/2000 и 2003/04 гг., отличавшихся сравнительно небольшими фальсификациями, их выявляемый объём выше для более поздних президентских, что отражает общую тенденцию к нарастанию фальсификаций от низкой базы. Далее на первое место по объёму фальсификаций выходят уже парламентские выборы. В паре 2007/08 гг. их отрыв ещё невелик, но в 2011/12 и 2016/18 гг. он становится подавляющим. Можно предположить, что естественно высокая поддержка кандидата власти оставляет меньше возможностей для подтасовок в его пользу, тогда как низкая поддержка партии власти не только допускает, но и настоятельно требует их. Президентские выборы 2004–18 гг. застыли на объёме массовых фальсификаций в 6÷7 млн голосов, а потолок для парламентских выборов, составляющий 10÷11 млн голосов, был достигнут лишь в 2010-е гг.
Из графика также видна ошибочность распространённого мнения, что выборы начали массово фальсифицировать лишь в 2003/04 гг. Тогда начали массово выдумывать результаты, что проще чем физически вбрасывать бюллетени. Но уже в 2000 г. имеются 1÷2 млн лишних голосов у кандидата власти. Массовые фальсификации не прослеживаются лишь для 1999 г., однако следует помнить, что доступные данные для тех выборов не просто сильно не полны, они, скорее всего, выборочно неполны. Ведь если передавать детальные данные в центр необязательно, то самую туфту открывают наименее охотно.
В предыдущем посте я ввёл понятие жадного голосования, под которым понималось использование на участке, не оборудованном кэгами, всех без исключения бюллетеней при неполной явке.
Владимир Егоров обратил внимание на то, что в хитрые фальсификаторы иногда оставляют несколько бюллетеней, чтобы не палиться.
В этой связи целесообразно ввести понятие хитрожадного голосования, предполагающего не полное исчерпания бюллетеней, а допускающего оставление какого-то их числа неиспользованными, но не более чем (n/n0)½ штук. Здесь n – число зарегистрированных на участке избирателей, а n0 – масштабный параметр. Выбор его оптимального значения сложен, но предварительный анализ показывает, что разумный диапазон 100 ≤ n0 ≤ 500. Я пока взял самый жёсткий вариант n0 = 100 (участки от 100 избирателей считаются хитрожадными, если остался лишь 1 бюллетень, от 400 – если до 2, от 900 – если до 3 и т.д.). Просто жадное голосование хитрожадным не считается. Требование превышение количества зарегистрированных избирателей над количеством полученных комиссией бюллетеней сохраняется.
Анализ распределения хитрожадности показывает, что подозрительными следует считать субъекты с долей хитрожадных участков от 0,22%, весьма подозрительными – от 0,38%. Более детальных градаций я пока не вводил, хотя максимальная зарегистрированная хитрожадность составляет аж 15,4% (Дагестан, 2011 г.).
В таблицу далее собраны случаи голосования с хитрожадностью от 1%. Для сравнения приведены и соответствующие значения жадности, раскраска ячеек для которой сохранена из предыдущего поста. А для хитрожадности выделены случаи, когда она оказывается выше жадности. В таком занятном поведении хотя бы по разу замечены республики Ингушетия, Кабардино-Балкария, Коми, Северная Осетия, Тыва, Чечня (3 раза подряд!), Чувашия и Якутия, а также Усть-Ордынский Бур., Чукотский и Ямало-Ненецкий авт.окр. и Нижегородская обл.
Читать дальше...Свернуть )

Жадное голосование

Зачастую на выборах возникает нереалистичная ситуация, когда количество участвовавших в них избирателей в точности совпадает с числом бюллетеней, полученных участковой избирательной комиссией, но при этом оказывается меньше числа избирателей, зарегистрированных в её списках. Все три числа могут совпасть для спецучастков (особенно это типично для кораблей, с которых избирателям некуда деться), но крайне маловероятно, чтобы все бюллетени были выбраны естественным путём при неполной явке.


UPD: Кроме участков с полной явкой не рассматриваются участки, где установлены кэги (комплексы электронного голосования). При их использовании иногда в качестве числа полученных бюллетеней берут не количество полученных одноразовых карточек для голосования, а таки число проголосовавших избирателей. Это, возможно, и нарушение, но никак не злой умысел.


Назовём ситуацию совпадения числа полученных бюллетеней и количества якобы проголосовавших избирателей жадным голосованием, поскольку она должна возникать в ситуации когда фальсификаторы подчистую выгребают все наличные бюллетени в попытках достичь желаемых высоких значений явки и/или результата власти. При этом на самих участках с жадным голосованием уровень фальсификаций оказывается сравнительно невысок, именно потому, что ограничен недостаточным числом имеющихся бюллетеней. При этом на других участках того же субъекта федерации, более обильных бюллетенями, фальсификаторы могут насытиться и не запалиться напрямую. Однако поскольку стиль и масштабы фальсификаций у нас субъектоспецифичны, наличие значительной доли жадных участков надёжно дискриминирует результаты выборов в субъекте в целом.


За 1999–2018 гг. имеются данные о федеральных выборах по 865 субъектам (считая зарубежную территорию за отдельный субъект). Из них в 240 случаях жадных участков не было, а в 625 – были. И здесь встаёт вопрос о том, сколько орехов – куча. Строго на него ответить сложно, но предварительные прикидки позволяют установить следующие пороги для доли жадных участков в субъекте.

UPD: Далее приведенные порги пересчитаны по той же методике после исключения участков с кэгами.


Если доля жадных участков меньше 0,31% (225 случаев), то фальсификации – незначительные (нельзя исключать и случайного стечения обстоятельств). Если она больше этого порога, но меньше 1,16% (250 случаев), фальсификации – умеренные (весьма подозрительно, но сложно что-то доказать). Если она больше и второго порога, но ещё меньше 6,54% (125 случаев), фальсификации – масштабные, а если больше, то – запредельные (25 случаев).


Под катом – таблица по всем выборам и субъектамСвернуть )
Рассматриваются официальные результаты президентских 2012 и 2018 гг., парламентских 2016 г. и мэрских 2013 и 2018 гг. выборов по г.Москве. Их результаты в силу слабой фальсификации потенциально способны выступать источником социологических данных, отражая политические предпочтения и активность москвичей.
Результаты берутся порайонно за исключением Новой Москвы, для которой Троицкий АО выступает как единый район, а Новомосковский АО – как районы Сосенский и Новомосковский (для 2018 г. – официально, для 2013 и 2016 гг. – разделён вручную по расположению участков). Кроме того, район Выхино-Жулебино искусственно разделён на виртуальные районы Выхино и Жулебино по линии МКАД.
Специализированные участки (3600+) исключены из рассмотрения в силу того, что голосующие на них избиратели ограничены как в доступе к информации о кандидатах и партиях, так и в свободе принятия решения об участии в голосовании. Также исключены из рассмотрения и дачные участки (5000+), где списки избирателей составляются по факту явки, из-за чего её значения фиктивны.
Предметом анализа является явка за кандидата/партию власти, суммарная явка за оппозицию (все прочие кандидаты/партии) и протестная явка (испорченные бюллетени, неумышленное возникновение которых сводится к минимуму исключением спецучастков). Для каждого района вычисляется медианное значение этих величин, причем районы учитываются с весами, равными списочному составу избирателей на сохраненных участках. Использование именно медианы, а не среднего, позволяет практически свести на нет эффекты от спорадических фальсификаций (фальсифицируют результаты обычно там, где и так поддержка власти велика) и до некоторой степени компенсировать эффект от мобилизации административно-зависимого электората.
Для явки каждого типа (за власть, за оппозицию, против всех) строится приближение вида ter = ke·ar + be, где индекс e обозначает выборы, а r – район, т.е. ищутся нулевая be и первая ke, ar главные компоненты сингулярного разложения матрицы ter. При этом компоненты be и ke отвечают за историю, а ar – за географию.
Во всех выкладках районы учитываются с весами, равными числу сохраненных в них избирателей. Значения явок нормируются на их среднеквадратичное отклонение для каждых выборов (нормировка на среднее здесь бы была некорректной, поскольку ноль не является выделенным значением в силу наличия «ядерного» электората). В результате удаётся получить приближение для явки за власть, за оппозицию и против всех со стандартными погрешностями 1,33%, 0,73% и 0,096% пунктов соответственно.
Поскольку главные компоненты определяются с точностью до произвольного линейного преобразования, перед началом анализа их следует отнормировать. Выбрана следующая нормировка: значения политической активности рассматриваемого типа a = ¼ и ¾ должны соответствовать верхнему и нижнему квартилям распределения избирателей по активности. Иначе говоря, по четверти избирателей имеют значения a < ¼ и a > ¾. При этом величина k/2 приобретает смысл полуширины распределения избирателей по явке рассматриваемого типа, так что k далее будет называется «шириной» (будь распределение равномерным, такая трактовка была бы строгой, но реальное распределение, разумеется, значительно шире). При этом удобно сделать замену me = beke/2, где me – среднее арифметическое квартилей, т.е. приблизительно медиана распределения избирателей по активности. В новых обозначениях исходная формула принимает вид ter = ke·(ar−½) + me.
Изменение величин ke и me от выборов к выборам представлено на рисунках.

«Ширина» распределения избирателей по голосованию за оппозицию наглядно иллюстрирует конкурентность выборов, которая в 2012–13 гг. была очень высокой, в 2016 г. начала снижаться, но ещё оставалась высокой (не забываем, что это всё-таки не Россия, а Москва) и обрушилась в 2018 г. Поддержка власти, медленно снижавшаяся в 2012–16 гг., напротив, в 2018 г. повысилась, что, скорее всего, отражается мобилизацией административно-зависимого электората. Косвенно эта гипотеза подтверждается схожестью графиков «ширины» распределения для поддержки власти и протестного голосования – часть бюджетников, насильно пригнанных на избирательные участки, портят бюллетени. С другой стороны, тому же может способствовать и сокращение конкурентности выборов, не оставляющее альтернатив для оппозиционного голосования.

«Медиана» распределения отслеживает, в первую очередь, тип выборов. Для президентских выборов она лежит выше, чем для парламентских, а для парламентских – выше, чем для местных, что особенно хорошо видно по голосованию за власть. Однако и на этом графике прослеживается снижение конкурентности выборов в 2018 г. Оппозиция, лишённая возможности выставить своих кандидатов, демонстрирует снижение «медианы» по сравнению с аналогичными выборами прошлых циклов, тогда как власть ее повышает. Протестное голосование здесь, в отличие от предыдущего графика, следует за оппозицией, что тоже вполне ожидаемо.

Если мне кто-нибудь объяснит, как сделать наглядную цветовую шкалу, для отображения величин, сочетающих чётко определённые реперные точки с непонятным диапазоном изменения вне отрезка, задаваемого этими точками, я сделаю апдейт с цветовыми картами для значений ar. Пока же я ограничусь анализом представленной на рисунке связи активностей жителей района в голосовании за оппозицию (абсцисса) и за власть (ордината).

За исключением нескольких очень лояльных районов, убежавших сильно вверх, точки группируются вдоль ниспадающей прямой, показывающей, что чем выше оппозиционная активность жителей района, тем ниже провластная.
Я разделил районы на 6 групп. Первая (синие) не ложатся на прямую, а остальные – возникают при продвижении вдоль неё. Несколько районов классифицировать было затруднительно, поэтому я их отнёс сразу к двум смежным группам сразу (двойные значки). Очень интересно эти группы располагаются на карте города (территория районов, имеющих эксклавы, закрашивается целиком, независимо от того, есть ли в этих эксклавах избирательные участки).

Синее – это глубокая периферия, остальное – городская территория или ближняя периферия с общей тенденцией продвижения от бирюзового к фиолетовому по мере отдаления от центра. Хотя, разумеется, Москва не вполне концентрична, так что и провинциальность ее юго-востока, и урбанистичность запада достаточно отчётливо прослеживаются в типе политической активности москвичей.

Вопрос года

Как отличить Боширова от Дебоширова?
…и не чёрная. У нас полоса с надписью: «Crime scene! Do not cross!»

Охота на нолики

Коллеги kobak, podmoskovnik и oude_rus изучили динамику доли целочисленных процентов на федеральных выборах. Идея – правильная и давно витающая в воздухе. И раз она уже дошла до стадии публикаций, поделюсь и своими мыслями на этот счёт.
Как мне представляется, избирательные участки, где фальсификаторы рисуют круглые числа (целые проценты являются круглыми числами в терминах промилле), надо считать не по стране, а по субъектам федерации, иначе тотальная склонность Поволжья и Северного Кавказа к этому типу фальсификаций замазывает общую картину.

Я рассматриваю следующие 3 электоральные характеристики: количество избирателей, принявших участие в выборах (получивших избирательные бюллетени); явку избирателей – долю зарегистрированных избирателей, принявших участие в выборах; результат власти – долю избирателей, поддержавших кандидата/партию власти, измеряемая от числа принявших участие в голосовании (опустивших бюллетень в урну). Две последние величины, являющиеся дробями, при анализе превращались в целые числа путем умножения на 1000 и округлением до ближайшего целого. Чтобы гарантировать значительную ширину разброса для количества принявших участие выборах и по возможности исключить дроби с малыми знаменателями для явки и результата, учитываются только те участки, на которых участие в выборах приняли более 100 человек. Кроме того, для явки исключаются участки, где в выборах приняли участие все без исключения зарегистрированные избиратели (это может быть следствием отсутствия заранее составленных списков избирателей, что делает явку фиктивной величиной).

Первый, примитивный, анализ направлен на рассмотрение доли субъектов федерации, где доминируют круглые числа для участия в выборах или промилле явки либо результата власти.

Сразу обращает на себя внимание, что хотя, как продемонстрировали коллеги, по интегральному использованию этого метода фальсификаций для явки 2016 и 2018 гг. превзошли 2008 г., по его распространённости мы ещё не достигли былого великолепия. Почти вся туфта сконцентрирована в 2 федеральных округах.

Сама по себе констатация преобладания круглых чисел не очень информативна, т.к. их может быть лишь чуть больше нормы. Поэтому я ввожу количественную меру. Регистрация на участке круглого значения электоральной характеристики представляется собой испытание Бернулли с вероятностью успеха 0,1. Легко посчитать вероятность того, что число успехов на выборке из рассматриваемых участков субъекта превысит определённое число. Ситуация, когда вероятность получить наблюдаемое (или большее его) число успехов оказывается ниже 1/100 (в РФ чуть менее 100 субъектов), считается подозрительной.


Здесь уже видно, что участие в выборах хоть и рисуется круглым наиболее часто (предыдущий график), но сильно не концентрируется по субъектам.
По круглым промилле явки мы пока не вышли на уровень 2008 г., хотя и впрямь близки к нему.

Наконец, зная вероятность того, что в субъекте имели место фальсификации определённого типа, можно оценить их интегральный эффект для страны в целом, если суммировать результаты по субъектам с весами, равными минимуму из вероятностей, рассчитанных для 3 рассматриваемых электоральных характеристик. Это даёт более истинные проценты явки и результата власти, распространение которых на всю страну, позволяет оценить эффект от фальсификаций рассматриваемого типа. Конечно, этот метод – кое в чём варварский, но общую картину он передаёт верно.

Как можно видеть, в 2018 г. рисование круглых чисел дало меньше липовых голосов, чем в 2016 г. Скорее всего, это связано с возросшим разнообразием фальсификаций (возврат физических вбросов и массовое открепление избирателей) и несколько улучшившимся общественным контролем за голосованием и подсчётом голосов.