?

Log in

No account? Create an account

При анализе рисования целых процентов на выборах я ранее, чтобы избежать возникновения ложноположительных срабатываний на дробях с малыми знаменателями, отсекал малые участки, под которыми понимались те, где участие в выборах приняли менее 100 избирателей. Ниже, вроде бы, порог устанавливать рискованно, а выше – жалко.


Однако всё оказалось немного не так, как мне представлялось.


Читать дальше...Свернуть )

Парные нолики

Пока ищется способ сделать значимости для триномиальных распределений из прошлого поста p-значениями, посчитаю-ка я просто парные нолики.


Для трех основных электоральных характеристик (промилле общей явки, промилле результата власти и участие избирателей в выборах) для каждого субъекта на каждых выборах считается число k участков, где одновременно какие-то две характеристики из трёх оказались круглыми (вероятность того, что это произошло случайно, – 1%). Если в субъекте всего n допустимых участков (не менее 100 участников и неполная явка при её рассмотрении), то значимость α гипотезы о том, что число успехов k не было завышено, может быть рассчитана просто как сумма биномиальных членов. Например в Excel α = БиномРасп(nk;n;99%;1).


Поскольку постановка одномерная, пороги для качественной интерпретации и раскраски значений показателя pα = –lgα заведомо являются теми же, что при испытаниях на круглые значения для отдельных характеристик.


Для 68 субъектов хотя бы по разу хотя бы для одной пары характеристик зафиксировано pα ≥ 2, из для 35 – pα ≥ 3, из них для 20 – pα ≥ 4, из них для 15 – pα ≥ 5. При рассмотрении одиночных характеристик соответствующие количества составили 60, 29, 22 и 17. При переходе к парам из списка исключительных и невероятных выскользнули Ингушетия, Крым, Тыва, Ямало-Ненецкий а/о., Хабаровский кр. и Саратовская обл., где, видимо, не очень склонны рисовать круглые числа сразу для нескольких характеристик. Зато спалились Красноярский кр., Иркутская, Новосибирская и Пензенская обл., где наоборот.


Под катом – полные таблицы по всем выборам и парам характеристик для субъектов, хотя бы однажды показавших подозрительный показательСвернуть )

Полиномиальные нолики

Получила неожиданное развитие тема обнаружения в результатах выборов избытка круглых чисел, которые (в силу своей психологической привлекательности и некоторых других причин) при фальсификациях массово возникают для количества принявших участие, а также для промилле общей явки и результата партии/кандидата власти.


Традиционный Disclaimer. При обработке результатов, чтобы гарантировать значительную ширину разброса рассматриваемых электоральных характеристик, учитываются только участки, где участие в выборах приняли не менее 100 человек. Это, кроме того, позволяет сделать пренебрежимо малой вероятность концентрации явки и результата на дробях с малыми знаменателями. Наконец, для явки исключаются из рассмотрения участки, где участие в выборах приняли все без исключения зарегистрированные избиратели, т.к. это может быть следствием отсутствия заранее составленных их списков, что делает явку фиктивной величиной.


К настоящему моменту устоявшийся инструментарий связан с проверкой статистических гипотез для испытаний Бернулли. Если вероятность успеха (круглое число) p = 10%, а вероятность неудачи (некруглое число) q = 90%, то при k успехах в n попытках вероятность того, что отношение k / n достигло своего (быть может, подозрительно высокого) значения в результате естественных причин α = Σi=knCnipiqni. Чтобы не работать со сверхмалыми числами, вместо значимости α, используется её десятичный показатель pα = –lgα, увеличение которого на 1 соответствует уменьшению вероятности отсутствия фальсификаций на порядок.


Для 865 результатов федеральных выборов в 1999–2008 гг. значения pα ≥ 5 можно считать невероятными, pα ≥ 4 – исключительными, pα ≥ 3 – подозрительным, pα ≥ 2 – отмеченными (они не вызывают подозрений в рамках массива из 10 выборов, но всё-таки подозрительны в рамках контренных выборов).


Оказалось, что эту схему можно существенно улучшить, если рассматривать векторные электоральные характеристики. Простейшими из них являются парные комбинации: Участие–Явка, Явка–Власть, Власть–Участие. При этом значимость гипотезы о естественном возникновении наблюдаемой доли круглых чисел даётся уже суммой не биноминальных, а триномиальных членов: α = Σi=knlΣj=lnin!/(ij!·(nij)!)·piqjrnij, где k – число случаев, когда круглыми оказываются обе характеристики, l – когда только одна, а вероятности p = 1%, q = 18% и r = 81%. Всё остальное сохраняется без изменений.


Чувствительность теста выросла радикально! Некоторые субъекты, которые при рассмотрении характеристик по одной не попадали даже в подозрительные, стали сразу невероятными, не говоря уже о менее радикальных уточнениях. Для 86 субъектов хотя бы по разу хотя бы для одной пары характеристик встретились отмеченные показатели, из для 67 – подозрительные, из них для 38 – исключительные, из них для 25 – невероятные.


Под катом – полные таблицы по всем выборам и парам характеристик для субъектов, хотя бы однажды показавших подозрительный показательСвернуть )

Истинная редакция

Когда либералы (что бы это ни значило) в ответ на фразу «Пора валить!» уточняют «Кого?», а патриоты (тот же дисклеймер) – «Куда?», дела страны безнадёжны.
P.S. А если кто-то рассказывает этот анекдот с обратным соответствием вопросов политическим ориентациям, без вариантов – пропагандон.
Способность испытывать правильные эмоции по неправильным поводам обретается не раньше, чем умение отличать неправильные поводы от правильных.
Способность осознать это обретается не раньше, чем умение испытывать правильные эмоции по неправильным поводам.
Способность говорить об этом…
Ступени, ступени, ступени…
Определение количественных порогов для качественной интерпретации уровня жадности и хитрожадности голосования представляет собой сложную задачу. Однако сами эти уровни можно использовать для оценки общего объёма массовых фальсификаций. Для этого субъекты федерации сортируются по возрастанию в них суммарной доли жадных и хитрожадных участков (при равенстве вторичная сортировка осуществляется по убыванию численности зарегистрированных избирателей, что уменьшает флуктуации). Далее субъекты отбрасываются по одному с конца списка и для оставшихся рассчитывается явка за власть, домножение которой на общее число избирателей даёт оценку истинного числа голосов, поданных в поддержку власти. Вычитая эту оценку из официальной цифры, находим гипотетическое завышение поддержки власти.
Данный метод имеет два очевидных недостатка.
1) Разумеется, выявляются не все фальсификации. Для этого было бы необходимо иметь какое-то число реперных субъектов с честно подсчитанными результатами, чего у нас не бывает. Иначе говоря, в зачёт идут только массовые, т.е. превосходящие общий фон, фальсификации.
2) Не понятно, где следует остановиться при отбрасывании субъектов. Если отбросить слишком мало, то будет велика систематическая погрешность, связанная с остающимися значительными фальсификациями, а если отбросить слишком много, то будет велика стохастическая погрешность, связанная с недостаточной представительностью выборки. Очень приблизительно можно сказать, что в российских условиях следует оставлять субъекты, охватывающие 20÷50% избирателей.
На графике представлена зависимость расчётного завышения от сохранённой доли избирателей.

В парах парламентских/президентских выборов 1999/2000 и 2003/04 гг., отличавшихся сравнительно небольшими фальсификациями, их выявляемый объём выше для более поздних президентских, что отражает общую тенденцию к нарастанию фальсификаций от низкой базы. Далее на первое место по объёму фальсификаций выходят уже парламентские выборы. В паре 2007/08 гг. их отрыв ещё невелик, но в 2011/12 и 2016/18 гг. он становится подавляющим. Можно предположить, что естественно высокая поддержка кандидата власти оставляет меньше возможностей для подтасовок в его пользу, тогда как низкая поддержка партии власти не только допускает, но и настоятельно требует их. Президентские выборы 2004–18 гг. застыли на объёме массовых фальсификаций в 6÷7 млн голосов, а потолок для парламентских выборов, составляющий 10÷11 млн голосов, был достигнут лишь в 2010-е гг.
Из графика также видна ошибочность распространённого мнения, что выборы начали массово фальсифицировать лишь в 2003/04 гг. Тогда начали массово выдумывать результаты, что проще чем физически вбрасывать бюллетени. Но уже в 2000 г. имеются 1÷2 млн лишних голосов у кандидата власти. Массовые фальсификации не прослеживаются лишь для 1999 г., однако следует помнить, что доступные данные для тех выборов не просто сильно не полны, они, скорее всего, выборочно неполны. Ведь если передавать детальные данные в центр необязательно, то самую туфту открывают наименее охотно.
В предыдущем посте я ввёл понятие жадного голосования, под которым понималось использование на участке, не оборудованном кэгами, всех без исключения бюллетеней при неполной явке.
Владимир Егоров обратил внимание на то, что в хитрые фальсификаторы иногда оставляют несколько бюллетеней, чтобы не палиться.
В этой связи целесообразно ввести понятие хитрожадного голосования, предполагающего не полное исчерпания бюллетеней, а допускающего оставление какого-то их числа неиспользованными, но не более чем (n/n0)½ штук. Здесь n – число зарегистрированных на участке избирателей, а n0 – масштабный параметр. Выбор его оптимального значения сложен, но предварительный анализ показывает, что разумный диапазон 100 ≤ n0 ≤ 500. Я пока взял самый жёсткий вариант n0 = 100 (участки от 100 избирателей считаются хитрожадными, если остался лишь 1 бюллетень, от 400 – если до 2, от 900 – если до 3 и т.д.). Просто жадное голосование хитрожадным не считается. Требование превышение количества зарегистрированных избирателей над количеством полученных комиссией бюллетеней сохраняется.
Анализ распределения хитрожадности показывает, что подозрительными следует считать субъекты с долей хитрожадных участков от 0,22%, весьма подозрительными – от 0,38%. Более детальных градаций я пока не вводил, хотя максимальная зарегистрированная хитрожадность составляет аж 15,4% (Дагестан, 2011 г.).
В таблицу далее собраны случаи голосования с хитрожадностью от 1%. Для сравнения приведены и соответствующие значения жадности, раскраска ячеек для которой сохранена из предыдущего поста. А для хитрожадности выделены случаи, когда она оказывается выше жадности. В таком занятном поведении хотя бы по разу замечены республики Ингушетия, Кабардино-Балкария, Коми, Северная Осетия, Тыва, Чечня (3 раза подряд!), Чувашия и Якутия, а также Усть-Ордынский Бур., Чукотский и Ямало-Ненецкий авт.окр. и Нижегородская обл.
Читать дальше...Свернуть )

Жадное голосование

Зачастую на выборах возникает нереалистичная ситуация, когда количество участвовавших в них избирателей в точности совпадает с числом бюллетеней, полученных участковой избирательной комиссией, но при этом оказывается меньше числа избирателей, зарегистрированных в её списках. Все три числа могут совпасть для спецучастков (особенно это типично для кораблей, с которых избирателям некуда деться), но крайне маловероятно, чтобы все бюллетени были выбраны естественным путём при неполной явке.


UPD: Кроме участков с полной явкой не рассматриваются участки, где установлены кэги (комплексы электронного голосования). При их использовании иногда в качестве числа полученных бюллетеней берут не количество полученных одноразовых карточек для голосования, а таки число проголосовавших избирателей. Это, возможно, и нарушение, но никак не злой умысел.


Назовём ситуацию совпадения числа полученных бюллетеней и количества якобы проголосовавших избирателей жадным голосованием, поскольку она должна возникать в ситуации когда фальсификаторы подчистую выгребают все наличные бюллетени в попытках достичь желаемых высоких значений явки и/или результата власти. При этом на самих участках с жадным голосованием уровень фальсификаций оказывается сравнительно невысок, именно потому, что ограничен недостаточным числом имеющихся бюллетеней. При этом на других участках того же субъекта федерации, более обильных бюллетенями, фальсификаторы могут насытиться и не запалиться напрямую. Однако поскольку стиль и масштабы фальсификаций у нас субъектоспецифичны, наличие значительной доли жадных участков надёжно дискриминирует результаты выборов в субъекте в целом.


За 1999–2018 гг. имеются данные о федеральных выборах по 865 субъектам (считая зарубежную территорию за отдельный субъект). Из них в 240 случаях жадных участков не было, а в 625 – были. И здесь встаёт вопрос о том, сколько орехов – куча. Строго на него ответить сложно, но предварительные прикидки позволяют установить следующие пороги для доли жадных участков в субъекте.

UPD: Далее приведенные порги пересчитаны по той же методике после исключения участков с кэгами.


Если доля жадных участков меньше 0,31% (225 случаев), то фальсификации – незначительные (нельзя исключать и случайного стечения обстоятельств). Если она больше этого порога, но меньше 1,16% (250 случаев), фальсификации – умеренные (весьма подозрительно, но сложно что-то доказать). Если она больше и второго порога, но ещё меньше 6,54% (125 случаев), фальсификации – масштабные, а если больше, то – запредельные (25 случаев).


Под катом – таблица по всем выборам и субъектамСвернуть )
Рассматриваются официальные результаты президентских 2012 и 2018 гг., парламентских 2016 г. и мэрских 2013 и 2018 гг. выборов по г.Москве. Их результаты в силу слабой фальсификации потенциально способны выступать источником социологических данных, отражая политические предпочтения и активность москвичей.
Результаты берутся порайонно за исключением Новой Москвы, для которой Троицкий АО выступает как единый район, а Новомосковский АО – как районы Сосенский и Новомосковский (для 2018 г. – официально, для 2013 и 2016 гг. – разделён вручную по расположению участков). Кроме того, район Выхино-Жулебино искусственно разделён на виртуальные районы Выхино и Жулебино по линии МКАД.
Специализированные участки (3600+) исключены из рассмотрения в силу того, что голосующие на них избиратели ограничены как в доступе к информации о кандидатах и партиях, так и в свободе принятия решения об участии в голосовании. Также исключены из рассмотрения и дачные участки (5000+), где списки избирателей составляются по факту явки, из-за чего её значения фиктивны.
Предметом анализа является явка за кандидата/партию власти, суммарная явка за оппозицию (все прочие кандидаты/партии) и протестная явка (испорченные бюллетени, неумышленное возникновение которых сводится к минимуму исключением спецучастков). Для каждого района вычисляется медианное значение этих величин, причем районы учитываются с весами, равными списочному составу избирателей на сохраненных участках. Использование именно медианы, а не среднего, позволяет практически свести на нет эффекты от спорадических фальсификаций (фальсифицируют результаты обычно там, где и так поддержка власти велика) и до некоторой степени компенсировать эффект от мобилизации административно-зависимого электората.
Для явки каждого типа (за власть, за оппозицию, против всех) строится приближение вида ter = ke·ar + be, где индекс e обозначает выборы, а r – район, т.е. ищутся нулевая be и первая ke, ar главные компоненты сингулярного разложения матрицы ter. При этом компоненты be и ke отвечают за историю, а ar – за географию.
Во всех выкладках районы учитываются с весами, равными числу сохраненных в них избирателей. Значения явок нормируются на их среднеквадратичное отклонение для каждых выборов (нормировка на среднее здесь бы была некорректной, поскольку ноль не является выделенным значением в силу наличия «ядерного» электората). В результате удаётся получить приближение для явки за власть, за оппозицию и против всех со стандартными погрешностями 1,33%, 0,73% и 0,096% пунктов соответственно.
Поскольку главные компоненты определяются с точностью до произвольного линейного преобразования, перед началом анализа их следует отнормировать. Выбрана следующая нормировка: значения политической активности рассматриваемого типа a = ¼ и ¾ должны соответствовать верхнему и нижнему квартилям распределения избирателей по активности. Иначе говоря, по четверти избирателей имеют значения a < ¼ и a > ¾. При этом величина k/2 приобретает смысл полуширины распределения избирателей по явке рассматриваемого типа, так что k далее будет называется «шириной» (будь распределение равномерным, такая трактовка была бы строгой, но реальное распределение, разумеется, значительно шире). При этом удобно сделать замену me = beke/2, где me – среднее арифметическое квартилей, т.е. приблизительно медиана распределения избирателей по активности. В новых обозначениях исходная формула принимает вид ter = ke·(ar−½) + me.
Изменение величин ke и me от выборов к выборам представлено на рисунках.

«Ширина» распределения избирателей по голосованию за оппозицию наглядно иллюстрирует конкурентность выборов, которая в 2012–13 гг. была очень высокой, в 2016 г. начала снижаться, но ещё оставалась высокой (не забываем, что это всё-таки не Россия, а Москва) и обрушилась в 2018 г. Поддержка власти, медленно снижавшаяся в 2012–16 гг., напротив, в 2018 г. повысилась, что, скорее всего, отражается мобилизацией административно-зависимого электората. Косвенно эта гипотеза подтверждается схожестью графиков «ширины» распределения для поддержки власти и протестного голосования – часть бюджетников, насильно пригнанных на избирательные участки, портят бюллетени. С другой стороны, тому же может способствовать и сокращение конкурентности выборов, не оставляющее альтернатив для оппозиционного голосования.

«Медиана» распределения отслеживает, в первую очередь, тип выборов. Для президентских выборов она лежит выше, чем для парламентских, а для парламентских – выше, чем для местных, что особенно хорошо видно по голосованию за власть. Однако и на этом графике прослеживается снижение конкурентности выборов в 2018 г. Оппозиция, лишённая возможности выставить своих кандидатов, демонстрирует снижение «медианы» по сравнению с аналогичными выборами прошлых циклов, тогда как власть ее повышает. Протестное голосование здесь, в отличие от предыдущего графика, следует за оппозицией, что тоже вполне ожидаемо.

Если мне кто-нибудь объяснит, как сделать наглядную цветовую шкалу, для отображения величин, сочетающих чётко определённые реперные точки с непонятным диапазоном изменения вне отрезка, задаваемого этими точками, я сделаю апдейт с цветовыми картами для значений ar. Пока же я ограничусь анализом представленной на рисунке связи активностей жителей района в голосовании за оппозицию (абсцисса) и за власть (ордината).

За исключением нескольких очень лояльных районов, убежавших сильно вверх, точки группируются вдоль ниспадающей прямой, показывающей, что чем выше оппозиционная активность жителей района, тем ниже провластная.
Я разделил районы на 6 групп. Первая (синие) не ложатся на прямую, а остальные – возникают при продвижении вдоль неё. Несколько районов классифицировать было затруднительно, поэтому я их отнёс сразу к двум смежным группам сразу (двойные значки). Очень интересно эти группы располагаются на карте города (территория районов, имеющих эксклавы, закрашивается целиком, независимо от того, есть ли в этих эксклавах избирательные участки).

Синее – это глубокая периферия, остальное – городская территория или ближняя периферия с общей тенденцией продвижения от бирюзового к фиолетовому по мере отдаления от центра. Хотя, разумеется, Москва не вполне концентрична, так что и провинциальность ее юго-востока, и урбанистичность запада достаточно отчётливо прослеживаются в типе политической активности москвичей.

Вопрос года

Как отличить Боширова от Дебоширова?