?

Log in

No account? Create an account
Рассматриваются официальные результаты президентских 2012 и 2018 гг., парламентских 2016 г. и мэрских 2013 и 2018 гг. выборов по г.Москве. Их результаты в силу слабой фальсификации потенциально способны выступать источником социологических данных, отражая политические предпочтения и активность москвичей.
Результаты берутся порайонно за исключением Новой Москвы, для которой Троицкий АО выступает как единый район, а Новомосковский АО – как районы Сосенский и Новомосковский (для 2018 г. – официально, для 2013 и 2016 гг. – разделён вручную по расположению участков). Кроме того, район Выхино-Жулебино искусственно разделён на виртуальные районы Выхино и Жулебино по линии МКАД.
Специализированные участки (3600+) исключены из рассмотрения в силу того, что голосующие на них избиратели ограничены как в доступе к информации о кандидатах и партиях, так и в свободе принятия решения об участии в голосовании. Также исключены из рассмотрения и дачные участки (5000+), где списки избирателей составляются по факту явки, из-за чего её значения фиктивны.
Предметом анализа является явка за кандидата/партию власти, суммарная явка за оппозицию (все прочие кандидаты/партии) и протестная явка (испорченные бюллетени, неумышленное возникновение которых сводится к минимуму исключением спецучастков). Для каждого района вычисляется медианное значение этих величин, причем районы учитываются с весами, равными списочному составу избирателей на сохраненных участках. Использование именно медианы, а не среднего, позволяет практически свести на нет эффекты от спорадических фальсификаций (фальсифицируют результаты обычно там, где и так поддержка власти велика) и до некоторой степени компенсировать эффект от мобилизации административно-зависимого электората.
Для явки каждого типа (за власть, за оппозицию, против всех) строится приближение вида ter = ke·ar + be, где индекс e обозначает выборы, а r – район, т.е. ищутся нулевая be и первая ke, ar главные компоненты сингулярного разложения матрицы ter. При этом компоненты be и ke отвечают за историю, а ar – за географию.
Во всех выкладках районы учитываются с весами, равными числу сохраненных в них избирателей. Значения явок нормируются на их среднеквадратичное отклонение для каждых выборов (нормировка на среднее здесь бы была некорректной, поскольку ноль не является выделенным значением в силу наличия «ядерного» электората). В результате удаётся получить приближение для явки за власть, за оппозицию и против всех со стандартными погрешностями 1,33%, 0,73% и 0,096% пунктов соответственно.
Поскольку главные компоненты определяются с точностью до произвольного линейного преобразования, перед началом анализа их следует отнормировать. Выбрана следующая нормировка: значения политической активности рассматриваемого типа a = ¼ и ¾ должны соответствовать верхнему и нижнему квартилям распределения избирателей по активности. Иначе говоря, по четверти избирателей имеют значения a < ¼ и a > ¾. При этом величина k/2 приобретает смысл полуширины распределения избирателей по явке рассматриваемого типа, так что k далее будет называется «шириной» (будь распределение равномерным, такая трактовка была бы строгой, но реальное распределение, разумеется, значительно шире). При этом удобно сделать замену me = beke/2, где me – среднее арифметическое квартилей, т.е. приблизительно медиана распределения избирателей по активности. В новых обозначениях исходная формула принимает вид ter = ke·(ar−½) + me.
Изменение величин ke и me от выборов к выборам представлено на рисунках.

«Ширина» распределения избирателей по голосованию за оппозицию наглядно иллюстрирует конкурентность выборов, которая в 2012–13 гг. была очень высокой, в 2016 г. начала снижаться, но ещё оставалась высокой (не забываем, что это всё-таки не Россия, а Москва) и обрушилась в 2018 г. Поддержка власти, медленно снижавшаяся в 2012–16 гг., напротив, в 2018 г. повысилась, что, скорее всего, отражается мобилизацией административно-зависимого электората. Косвенно эта гипотеза подтверждается схожестью графиков «ширины» распределения для поддержки власти и протестного голосования – часть бюджетников, насильно пригнанных на избирательные участки, портят бюллетени. С другой стороны, тому же может способствовать и сокращение конкурентности выборов, не оставляющее альтернатив для оппозиционного голосования.

«Медиана» распределения отслеживает, в первую очередь, тип выборов. Для президентских выборов она лежит выше, чем для парламентских, а для парламентских – выше, чем для местных, что особенно хорошо видно по голосованию за власть. Однако и на этом графике прослеживается снижение конкурентности выборов в 2018 г. Оппозиция, лишённая возможности выставить своих кандидатов, демонстрирует снижение «медианы» по сравнению с аналогичными выборами прошлых циклов, тогда как власть ее повышает. Протестное голосование здесь, в отличие от предыдущего графика, следует за оппозицией, что тоже вполне ожидаемо.

Если мне кто-нибудь объяснит, как сделать наглядную цветовую шкалу, для отображения величин, сочетающих чётко определённые реперные точки с непонятным диапазоном изменения вне отрезка, задаваемого этими точками, я сделаю апдейт с цветовыми картами для значений ar. Пока же я ограничусь анализом представленной на рисунке связи активностей жителей района в голосовании за оппозицию (абсцисса) и за власть (ордината).

За исключением нескольких очень лояльных районов, убежавших сильно вверх, точки группируются вдоль ниспадающей прямой, показывающей, что чем выше оппозиционная активность жителей района, тем ниже провластная.
Я разделил районы на 6 групп. Первая (синие) не ложатся на прямую, а остальные – возникают при продвижении вдоль неё. Несколько районов классифицировать было затруднительно, поэтому я их отнёс сразу к двум смежным группам сразу (двойные значки). Очень интересно эти группы располагаются на карте города (территория районов, имеющих эксклавы, закрашивается целиком, независимо от того, есть ли в этих эксклавах избирательные участки).

Синее – это глубокая периферия, остальное – городская территория или ближняя периферия с общей тенденцией продвижения от бирюзового к фиолетовому по мере отдаления от центра. Хотя, разумеется, Москва не вполне концентрична, так что и провинциальность ее юго-востока, и урбанистичность запада достаточно отчётливо прослеживаются в типе политической активности москвичей.

Вопрос года

Как отличить Боширова от Дебоширова?
…и не чёрная. У нас полоса с надписью: «Crime scene! Do not cross!»

Охота на нолики

Коллеги kobak, podmoskovnik и oude_rus изучили динамику доли целочисленных процентов на федеральных выборах. Идея – правильная и давно витающая в воздухе. И раз она уже дошла до стадии публикаций, поделюсь и своими мыслями на этот счёт.
Как мне представляется, избирательные участки, где фальсификаторы рисуют круглые числа (целые проценты являются круглыми числами в терминах промилле), надо считать не по стране, а по субъектам федерации, иначе тотальная склонность Поволжья и Северного Кавказа к этому типу фальсификаций замазывает общую картину.

Я рассматриваю следующие 3 электоральные характеристики: количество избирателей, принявших участие в выборах (получивших избирательные бюллетени); явку избирателей – долю зарегистрированных избирателей, принявших участие в выборах; результат власти – долю избирателей, поддержавших кандидата/партию власти, измеряемая от числа принявших участие в голосовании (опустивших бюллетень в урну). Две последние величины, являющиеся дробями, при анализе превращались в целые числа путем умножения на 1000 и округлением до ближайшего целого. Чтобы гарантировать значительную ширину разброса для количества принявших участие выборах и по возможности исключить дроби с малыми знаменателями для явки и результата, учитываются только те участки, на которых участие в выборах приняли более 100 человек. Кроме того, для явки исключаются участки, где в выборах приняли участие все без исключения зарегистрированные избиратели (это может быть следствием отсутствия заранее составленных списков избирателей, что делает явку фиктивной величиной).

Первый, примитивный, анализ направлен на рассмотрение доли субъектов федерации, где доминируют круглые числа для участия в выборах или промилле явки либо результата власти.

Сразу обращает на себя внимание, что хотя, как продемонстрировали коллеги, по интегральному использованию этого метода фальсификаций для явки 2016 и 2018 гг. превзошли 2008 г., по его распространённости мы ещё не достигли былого великолепия. Почти вся туфта сконцентрирована в 2 федеральных округах.

Сама по себе констатация преобладания круглых чисел не очень информативна, т.к. их может быть лишь чуть больше нормы. Поэтому я ввожу количественную меру. Регистрация на участке круглого значения электоральной характеристики представляется собой испытание Бернулли с вероятностью успеха 0,1. Легко посчитать вероятность того, что число успехов на выборке из рассматриваемых участков субъекта превысит определённое число. Ситуация, когда вероятность получить наблюдаемое (или большее его) число успехов оказывается ниже 1/100 (в РФ чуть менее 100 субъектов), считается подозрительной.


Здесь уже видно, что участие в выборах хоть и рисуется круглым наиболее часто (предыдущий график), но сильно не концентрируется по субъектам.
По круглым промилле явки мы пока не вышли на уровень 2008 г., хотя и впрямь близки к нему.

Наконец, зная вероятность того, что в субъекте имели место фальсификации определённого типа, можно оценить их интегральный эффект для страны в целом, если суммировать результаты по субъектам с весами, равными минимуму из вероятностей, рассчитанных для 3 рассматриваемых электоральных характеристик. Это даёт более истинные проценты явки и результата власти, распространение которых на всю страну, позволяет оценить эффект от фальсификаций рассматриваемого типа. Конечно, этот метод – кое в чём варварский, но общую картину он передаёт верно.

Как можно видеть, в 2018 г. рисование круглых чисел дало меньше липовых голосов, чем в 2016 г. Скорее всего, это связано с возросшим разнообразием фальсификаций (возврат физических вбросов и массовое открепление избирателей) и несколько улучшившимся общественным контролем за голосованием и подсчётом голосов.

Девиз царстования

Если мы не выстрелим себе в ногу, в неё выстрелят солдаты НАТО. (c)
Приведу пока картинки без комментариев.
Мне просто интересно, я один вижу здесь «что-то не то» в 2018 г.?









UPD: Явка за оппозицию – доля избирателей, проголосовавших за кого угодно, кроме кандидата/партии власти, или испортивших бюллетень.
Явка за оппозицию = Общая явка – Явка за власть
Этот метод – чисто алгоритмический. Как и в прошлом методе берётся зависимость доли недействительных бюллетеней (НДБ) от накопленной явки.
Далее итерируется диапазон её приемлемых значений по следующему алгоритму. Для текущего диапазона рассчитываются минимальное и максимальные доли НДБ. Исходя из их реального количества по этим долям вычисляются оценки минимального и максимального числа проголосовавших избирателей, на основе которых вычисляются новые границы диапазона явки. В качестве начальных значений явки взяты её верхняя и нижняя децили. При разбиении её диапазона на 200 точек процесс сходится за 2 итерации.
Результаты по доле НДБ и оценкам вброса даны в таблице.
ГодДоля НДБВброс
млн голосов% (от истин.)
20071,18%5,28,0%
20111,88%10,619,2%
20162,47%12,932,4%
20081,49%6,69,7%
20121,33%8,914,2%
20181,24%9,715,2%

Таким образом, хотя размеры вброса меньше для президентских выбором, чем для парламентских, в обоих случаях они растут от выборов к выборам. А вот доля НДБ растёт только для парламентских выборов, а для президентских снижается.

Охота на сгустки

Если при анализе равномерности распределения последней цифры целочисленных электоральных характеристик сменить систему счисления, то психологически притягательные нолики (целые проценты явки и результата) перестанут быть таковыми, а сгустки, т.е. концентрация на директивно заданных целевых показателях, никуда не денутся. Более того, если фальсификаторы в разных ТИК сосредотачиваются на разных целевых цифрах, то при смене системы счисления их сгустки могут наложиться.
Из ускользнувших ранее попались 2 субъекта федерации.
Из 137 всего участков Ингушетии для 35 участков результат кандидата власти лежит на отрезке [82,5%;82,7%], а для 40 – на чуть более широком [82,47%;82,74%], который отображается в первый при округлении до десятых процента.
А в Карачаево-Черкесии если взять основание системы счисления, равное 22, то за счёт наложения сгустков на 87,8% и на 90,0% получается –lgα ≈ 4,3. Учитывая перебор разных оснований, это – не очень много, но всё-таки…
Предмет анализа – распределение последних цифр основных целочисленных электоральных характеристик, значения которых выдумываются фальсификаторами: количества выданных бюллетеней, и умноженных на 1000 явки и результата кандидата власти (т.е. рассматриваются десятые доли процентов этих величин). У целочисленной случайной величины, разброс которых измеряется многими десятками и даже сотнями единиц, должны быть равновероятны. Это проверяется с помощью критерия Пирсона, позволяющего проверить гипотезу о естественном происхождении отклонений от равномерного распределения. Вероятность того, что эта гипотеза верна и отвергнута ошибочно задаётся её уровнем значимости α (подробное описание методики – тут).
Субъект–lgαВеличинаЦифра
Татарстан37,0Явка0
Дагестан35,5Явка0
Краснодарский кр.28,0Явка0
Башкортостан26,4Явка0
Кемеровская обл.17,8Явка0
Саратовская обл.8,0Явка0
Северная Осетия6,3Выдано0
Ставропольский кр.5,5Явка0
Крым4,4Выдано0
Тверская обл.3,4Выдано4
Карачаево-Черкесия2,9Явка0
Ростовская обл.2,9Явка0
Алтайский кр.2,6Выдано0
Тыва2,5Результат0
Хабаровский кр.2,5Выдано0
Ингушетия2,3Результат5
Липецкая обл.2,1Явка1
Чукотский авт.окр.2,1Выдано6
Мордовия1,7Результат0

Учитываются только участки, где выдано не менее 100 бюллетеней. Приводятся данные по электоральной характеристике с наименьшей значимостью гипотезы о случайном возникновении неравномерности последних цифр.
Для 86 (включая зарубежную территорию) субъектов и 3 электоральных характеристик должна в среднем 1 раз встретиться ситуация с –lgα = –lg3×86 ≈ 2,4. Всё, что меньше, можно считать естественным, что больше, следует считать подозрительным. Причём каждая единица увеличения –lgα означает десятикратное падение вероятности. Таким образом, Татарстан, Дагестан, Краснодарский кр., Башкортостан и Кемеровская обл. продемонстрировали запредельный уровень рисования, Саратовская обл., Северная Осетия и Ставропольский кр. – наглый, а Крым и Тверская обл. – умеренный.
Если учитывать субъекты с весами, равными α, то явка уменьшится с 67,5% до 64,1%, а результат кандидата власти – с 76,7% до 74,5%. Иначе говоря, тупое рисование цифр дает малый вклад в общий объём фальсификаций. Впрочем, так отлавливаются только случаи рисования психологически притягательных круглых или директивно заданных чисел. Последнее после саратовского случая стало нетипичным.
UPD: Обновил данные по состоянию на полдень 20.03. Кроме того, посмотрел, что будет если в качестве весов субъектов вместо минимума из трёх уровней значимости брать их произведение (опыт показывает, что в некоторых регионах в одних ТИК фальсифицируют явку, а в других – результат). При таком подсчёте явка уменьшается до 63,1%, результат кандидата власти – до 73,6%.

Оценка вброса

Если считать, что недействительные бюллетени (НДБ) не вбрасывают и поэтому с ростом общей явки их доля не должна меняться, то можно оценить вброс разбавляющих их действительных бюллетеней. Поскольку он увеличивает явку, при определении реальной доли НДБ наибольшего доверия заслуживают участки с сравнительно небольшой явкой. Однако именно для них наиболее существенна роль случайных факторов, в силу чего необходимо рассмотрение по возможности обширной выборки.

Удовлетворить одновременно обоим этим требованиям позволяет анализ кумулятивных характеристик доли НДБ, т.е. учитываются только участки с явкой, не превышающей некоторого порога. Его величина, определяемая из условий максимальной стационарности средней доли НДБ и минимальности его стандартного отклонения, составляет примерно 58÷68%. В этом диапазоне накопленной явки доля НДБ устанавливается на уровне в 1,237÷1,244%. С учетом их общего количества в 0,791 млн это позволяет ожидать 63,56÷63,92 млн проголосовавших. Однако по официальным данным проголосовало 73,53 млн чел., т.е. имеется излишек в 9,61÷9,97 млн бюллетеней, или 13,1÷13,6% от официального количества проголосовавших. Таким образом, истинная явка, составляющая 58,3÷58,7%, завышена на 8,8÷9,2% пункта. По меркам парламентских выборов это – немного.

UPD: Квантили условного распределения доли НДБ в зависимости от явки:

Обработка скользящем в окне 2500 участков.