?

Log in

No account? Create an account

Граничные условия

Точка зрения человека не может представлять для тебя больший интерес, чем сам человек, её высказавший.

Украинские выборы с многочисленными кандидатами и разнородными территориями страны оказались удобны для тестирования некоторого любопытного инструментария.

По всем территориальным избирательным округам Украины вычисляется медианная явка за каждого кандидата в обоих турах. Участки учитываются с весом, равным числу зарегистрированных избирателей. Полученные значения усредняются по всем округам с аналогичными весами. Разность между средней по стране явкой за рассматриваемого кандидата и полученной указанным способом средне-медианной явкой за него, отнормированная на корень из последней, может служить мерой действия некоторых искажающих факторов. Среди них важное, но, как оказалось, отнюдь не основное место занимают фальсификации. Значение указанной меры для всех кандидатов приведены на диаграмме.

Читать дальше...Свернуть )

Поскольку участки между турами выборов Президента Украины остались практически неизменными и политическая обстановка тоже поменялась не сильно, имеет смысл отобразить с помощью линейной регрессии явки за кандидатов в 1-м туре на явки во 2-м. Свободного члена модель не имеет. В качестве весовых коэффициентов, с которыми учитываются данные, берётся отношение произведения числа зарегистрированных избирателей к их полусумме.


Участки, где выявлены или подозреваются фальсификации, не исключаются из анализа, поскольку нет их полного реестра. Кроме того, если для обоснования фальсификации результатов 1-го тура в Донецькій области достаточно увидеть, что аномальные результаты инкумбента не воспроизвелись во 2-м, то обратный подход вряд ли применим. Иначе куда больше, чем по Донецькій области, вопросов во 2-м туре будет по Львівській, Івано-Франківській, Тернопільській и Вінницькій областям.


При обработке по участкам коэффициенты детерминации явки против всех (испорченные бюллетени), за Зеленского и за Порошенко составили соответственно 41,4%, 93,3% и 92,0%. На уровне участков флуктуации весьма сильны, что вполне ожидаемо. Если рассматривать территориально-выборные округа, то доля объяснённой дисперсии возрастает до солидных 93,0%, 99,4% и 99,0%. Поэтому дальнейшее рассмотрение ведётся на этом уровне.


Читать дальше...Свернуть )
Один українець – партизан.
Два українця – партизанський загін.
Три українця – партизанський загін зі зрадником.
Чотири українця – партизанський загін з трьома зрадниками.

Вот лично меня рассуждения romanik про вброс в пользу П.Порошенко в Донецкой обл., которую без какой-либо критики повторил kireev, совершенно не убеждают.


Во-первых, не может не смущать объединение в одном флаконе формального анализа официальных результатов со ссылкой на неформальные источники. А после того, как убеждаешься, что участок, который, вроде бы, спалили наблюдатели, на уровне цифр не демонстрирует никаких признаков фальсификаций, становится совсем странно.


Во-вторых, учитывая исключительную социально-политическую разнородность Украины, очень тяжело понять, что там является нормой. Почему не может быть хвоста у распределения результатов самого противоречивого кандидата в самой противоречивой области, тоже не вполне ясно.


Однако всё-таки анализ на уровне распределений архаичен и неточен. Поэтому я решил посмотреть зависимость частных явок (точнее антиявок конкретных кандидатов) от общей. На диаграмме общая явка – антиявка для социально-однородных территорий честные результаты ложатся примерно на прямую, вброс в пользу кандидата приводит к сдвигу точек вправо, а переброс голосов от других кандидатов – вниз.


На Украине хрен поймёшь, кто среди ихних 40 разбойников является Али-Бабой, а кто – Хасаном (да и у нас до сих пор идут дебаты, кто Белоснежка, а кто седьмой гном). Но всё-таки в Донецкой области 1 место занял некий Ю.Бойко. С него и начнём.


Читать дальше...Свернуть )

В предыдущем посте оптимизировалось пороговое число зарегистрированных на участке избирателей, при превышении которого он учитывается в тесте на целые проценты явки.


Здесь по аналогии я попытался оптимизировать пороговое число пришедших на участок избирателей, при превышении которого он учитывается в тесте на целые проценты результата партии/кандидата власти.


Результат получился качественно иным.


Читать дальше...Свернуть )

При анализе рисования целых процентов на выборах я ранее, чтобы избежать возникновения ложноположительных срабатываний на дробях с малыми знаменателями, отсекал малые участки, под которыми понимались те, где участие в выборах приняли менее 100 избирателей. Ниже, вроде бы, порог устанавливать рискованно, а выше – жалко.


Однако всё оказалось немного не так, как мне представлялось.


Читать дальше...Свернуть )

Парные нолики

Пока ищется способ сделать значимости для триномиальных распределений из прошлого поста p-значениями, посчитаю-ка я просто парные нолики.


Для трех основных электоральных характеристик (промилле общей явки, промилле результата власти и участие избирателей в выборах) для каждого субъекта на каждых выборах считается число k участков, где одновременно какие-то две характеристики из трёх оказались круглыми (вероятность того, что это произошло случайно, – 1%). Если в субъекте всего n допустимых участков (не менее 100 участников и неполная явка при её рассмотрении), то значимость α гипотезы о том, что число успехов k не было завышено, может быть рассчитана просто как сумма биномиальных членов. Например в Excel α = БиномРасп(nk;n;99%;1).


Поскольку постановка одномерная, пороги для качественной интерпретации и раскраски значений показателя pα = –lgα заведомо являются теми же, что при испытаниях на круглые значения для отдельных характеристик.


Для 68 субъектов хотя бы по разу хотя бы для одной пары характеристик зафиксировано pα ≥ 2, из для 35 – pα ≥ 3, из них для 20 – pα ≥ 4, из них для 15 – pα ≥ 5. При рассмотрении одиночных характеристик соответствующие количества составили 60, 29, 22 и 17. При переходе к парам из списка исключительных и невероятных выскользнули Ингушетия, Крым, Тыва, Ямало-Ненецкий а/о., Хабаровский кр. и Саратовская обл., где, видимо, не очень склонны рисовать круглые числа сразу для нескольких характеристик. Зато спалились Красноярский кр., Иркутская, Новосибирская и Пензенская обл., где наоборот.


Под катом – полные таблицы по всем выборам и парам характеристик для субъектов, хотя бы однажды показавших подозрительный показательСвернуть )

Полиномиальные нолики

Получила неожиданное развитие тема обнаружения в результатах выборов избытка круглых чисел, которые (в силу своей психологической привлекательности и некоторых других причин) при фальсификациях массово возникают для количества принявших участие, а также для промилле общей явки и результата партии/кандидата власти.


Традиционный Disclaimer. При обработке результатов, чтобы гарантировать значительную ширину разброса рассматриваемых электоральных характеристик, учитываются только участки, где участие в выборах приняли не менее 100 человек. Это, кроме того, позволяет сделать пренебрежимо малой вероятность концентрации явки и результата на дробях с малыми знаменателями. Наконец, для явки исключаются из рассмотрения участки, где участие в выборах приняли все без исключения зарегистрированные избиратели, т.к. это может быть следствием отсутствия заранее составленных их списков, что делает явку фиктивной величиной.


К настоящему моменту устоявшийся инструментарий связан с проверкой статистических гипотез для испытаний Бернулли. Если вероятность успеха (круглое число) p = 10%, а вероятность неудачи (некруглое число) q = 90%, то при k успехах в n попытках вероятность того, что отношение k / n достигло своего (быть может, подозрительно высокого) значения в результате естественных причин α = Σi=knCnipiqni. Чтобы не работать со сверхмалыми числами, вместо значимости α, используется её десятичный показатель pα = –lgα, увеличение которого на 1 соответствует уменьшению вероятности отсутствия фальсификаций на порядок.


Для 865 результатов федеральных выборов в 1999–2008 гг. значения pα ≥ 5 можно считать невероятными, pα ≥ 4 – исключительными, pα ≥ 3 – подозрительным, pα ≥ 2 – отмеченными (они не вызывают подозрений в рамках массива из 10 выборов, но всё-таки подозрительны в рамках контренных выборов).


Оказалось, что эту схему можно существенно улучшить, если рассматривать векторные электоральные характеристики. Простейшими из них являются парные комбинации: Участие–Явка, Явка–Власть, Власть–Участие. При этом значимость гипотезы о естественном возникновении наблюдаемой доли круглых чисел даётся уже суммой не биноминальных, а триномиальных членов: α = Σi=knlΣj=lnin!/(ij!·(nij)!)·piqjrnij, где k – число случаев, когда круглыми оказываются обе характеристики, l – когда только одна, а вероятности p = 1%, q = 18% и r = 81%. Всё остальное сохраняется без изменений.


Чувствительность теста выросла радикально! Некоторые субъекты, которые при рассмотрении характеристик по одной не попадали даже в подозрительные, стали сразу невероятными, не говоря уже о менее радикальных уточнениях. Для 86 субъектов хотя бы по разу хотя бы для одной пары характеристик встретились отмеченные показатели, из для 67 – подозрительные, из них для 38 – исключительные, из них для 25 – невероятные.


Под катом – полные таблицы по всем выборам и парам характеристик для субъектов, хотя бы однажды показавших подозрительный показательСвернуть )

Истинная редакция

Когда либералы (что бы это ни значило) в ответ на фразу «Пора валить!» уточняют «Кого?», а патриоты (тот же дисклеймер) – «Куда?», дела страны безнадёжны.
P.S. А если кто-то рассказывает этот анекдот с обратным соответствием вопросов политическим ориентациям, без вариантов – пропагандон.