?

Log in

No account? Create an account

Previous Entry | Next Entry

В ходе возни с результатами российских выборов мне окончательно разонравились методы, опирающиеся на нулевую гипотезу о независимости относительного результата от явки. Фундаментальной проблемой этой гипотезы является то, что даже в тех случаях, когда она, возможно, выполняется, на практике её невозможно проверить, поскольку наблюдаемые отклонения от неё могут быть обусловлены не только субъективными (фальсификации), но объективными (структура электората) факторами, неразличимыми в рамках однопараметрической гипотезы.
Например, если в городе явка и поддержка власти низкие, а на селе – высокие, то в целом результат власти будет нарастать с явкой. Однако такая их честная корреляция, вызванная социальной неоднородностью населения, неизбежно будет списана на фальсификации. Чтобы избежать таких ошибок для проверки и реконструкции следует выбирать регионы, достаточно маленькие, чтобы можно было быть уверенным в их преимущественной однородности, но вместе с тем достаточно большие, чтобы давать поддающуюся анализу выборку. Некоторые субъекты федерации заведомо не удовлетворяют первому условию, а территориальные избирательные комиссии – второму. Оптимальным размером обладают избирательные округа (их средний размер в 2016 г. составил 0,43(16) тыс. участков, на которых было зарегистрировано в среднем 0,5(1) млн избирателей).
Другим объективным фактором, приводящим к отклонению от тривиальной нулевой гипотезы, является, как будет показано далее, существование избирателей-зомби, которые поддерживают власть вне зависимости от активности и симпатий остальной части электората. Простейшее предположении, что зомби составляют некоторую часть электората, специфичную для каждого региона, имеет следствием не постоянство, убывание относительного результата власти по мере роста явки за счёт растворения зомби в массе более живых избирателей.
Разделение электората на две части и эффективный учёт остаточной неоднородности предполагает использование двухпараметрической нулевой гипотезы. Наиболее удобным её видом представляется предположение о линейной связи между явкой и антирезультатом власти (абсолютным результатом оппозиции). Гипотетическая прямая имеет положительный наклон, но не обязана проходить через начала координат, отсекая на оси абсцисс долю избирателей-зомби.
Существует два принципиальных способа фальсификаций результатов выборов – вброс голосов за власть (жульничество) и переброс их от оппозиции (воровство). Произвольное рисование цифр является лишь комбинацией этих способов, однако думать о них лучше по отдельности. Вброс голосов увеличивает явку, но не меняет антирезультата, переброс, наоборот, не меняете явки, но уменьшает антирезультат. Таким образом, в координатах явка–антирезультат фальсификации сдвигают точки в одну сторону от честной прямой (вправо и/или вниз). Участки округа, принадлежащие к её ближайшей окрестности считаются достоверными, а отстающие от неё далеко, – недостоверными. Квалификация участков проводится вручную, исходя из представлений о прекрасном, но со следующим формальным ограничением. Если какой-то участок признан достоверным (недостоверным), то достоверными (недостоверными) принудительно признаются и все участки, отклоняющиеся от текущего положения регрессионной прямой меньше (больше), чем он. Точки лежащие слева и сверху от прямой имеют отрицательное отклонение и автоматически считаются достоверными, независимо от абсолютной величины расстояния. Изменение списка достоверных участков может привести к смещению регрессионной прямой, поэтому подвергшийся переквалификации участок перебрасывается туда-сюда до тех пор, пока её положение не установится.
Подразделение участков на достоверные и недостоверные может быть неоднозначным, поэтому пробуются его различные варианты. При этом вводится промежуточная квалификация для участков, хотя бы по разу попадавшие как в доверенные, так и в недостоверные. Они считаются подозрительными. Впоследствии отнесение подозрительных участков к достоверным или к недостоверным даёт верхнюю и нижнюю оценку объёмов фальсификаций.
Дополнительным преимуществом использования такого представления данных является то, что числа по обеим осям измеряются в одних и тех же единицах (процентах от списочного состава избирателей), что позволяет использовать регрессию Деминга (минимизация суммы квадратов отклонений в направлении, перпендикулярном к регрессионной прямой, а не по ординате, как делается для обычных регрессий), не задумываясь, какую из переменных считать объясняющей, а какую – объясняемой (обычный регрессионный анализ требует отсутствия погрешности у объясняющей переменной, что в данном случае невыполнимо). Практика показывает, что среднеквадратичный разброс достоверных участков вокруг регрессивной прямой обыкновенно лежит в диапазона 0,6÷1,1%, что находится в разумном согласии со средней численностью избирательных участков около 1 тыс. чел.
Наконец, если проведение осмысленной прямой оказывается невозможным, результаты выбора во всём округ следует считать полностью фальсифицированным, не изобретая специальных методов отлова массовых фальсификаций. Однопараметрическая нулевая гипотеза ни в постановке Собянина–Суховольского, ни в постанове Шпилькина такой возможности не предоставляет. Разумеется, сказанное не означает, что не следует проверять регионы на общую достоверность с помощью альтернативных критериев (распределение последних цифр, разброс внутри территорий, сгустки, доля недействительных, динамика голосования и т.п.), просто это – другая задача.
Для проверки гипотезы были использованы данные по выборам в Госдуму по Москве в 2011 г. (здесь спецучастки не учитываются), для которых имеется реконструкция (основывающаяся на результатах образцово-показательных выборов 2012 и 2013 гг.). Тогда было переброшено около 0,32 млн голосов и вброшено не менее 0,63 млн.
Для каждого из 10 избирательных округов города анализ и реконструкция проводились независимо. на картинке представлен интегральный результат.

В 2011 г. всего по Москве было 624 достоверных, 279 подозрительных и 2471 недостоверных участков, в которых были зарегистрировано соответственно 1,39, 0,55 и 5,25 млн избирателей. Общая достоверность результатов выборов, т.е. охват электората достоверными участками, составляла 19±27% (в зависимости от отнесения подозрительных участков к достоверным или недостоверным). Было переброшено 0,37 млн голосов и вброшено 0,80÷0,87 млн.
Таким образом, предложенный метод даёт несколько большую оценку воровства и существенно большую оценку жульничества по сравнению с прошлым расчётом. Значительный прирост оценки вброса обусловлен скорее, всего тем, что для его величина ранее была получена лишь нижняя оценка, которая, следует признать, оказалась далека от истины. А общее увеличение размеров фальсификаций по обоим каналам связано, по видимому, с тем, что ранее реконструкция проводилась на уровне территориальных избирательных комиссий. Учитывая крайне низкий общий уровень достоверности результатов, разумно предположить, что на каждой территории были недостоверные участки, однако при их малой доле территория воспринималась как достоверная. Кроме того, как можно видеть из рисунка, некоторые результаты некоторых участков на фоне города вызывают большее доверие, чем на фоне лишь своего округа, что тоже могло привести к недооценке фальсификаций.
Резюмируя, методику можно счесть удовлетворительной и применить к сентябрьским выборам.
Перед этим следует сделать два замечания – техническое и принципиальное.
Для большинства участков, расположенных за рубежом (номера 8000+), нет заранее не составленных списков избирателей, что не позволяет определить явку и делает на них невозможной проверку результатов с помощью используемой гипотезы. Такие участки принудительно заносятся в подозрительные. Общее число избирателей, проголосовавших за рубежом, 0,23 млн человек или 0,2% от списочного состава избирателей.
Принципиальным аспектом является то, что если для Москвы можно предполагать, что её жители, которым не повезло проголосовать на мошеннических участках, характеризуются примерно такими же электоральными активностью и настроениями, как те, чьи голоса честно посчитаны, то для всей страны это заведомо не так. Например, жители национальных республик, где результаты выборов фальсифицируются чуть более чем полностью, более склонны к поддержке действующей власти, чем жители крупных русских городов, где результаты выборов иногда подсчитывают и честно.
Задача реконструкция результатов выборов имеет две постановки, очень похожие по форме, но принципиально различающихся по содержанию. Решение этой задачи в её слабой постановке дает ответ на вопрос «Какой результат получился бы, если бы голоса сразу честно посчитали?», а в сильной – на вопрос «Какой результат получится, если голоса всё-таки честно пересчитать?».
Различие постановок связано с тем обстоятельством, что власть, оставленная без общественного контроля, не может не искажать волеизъявление народа в свою пользу. Поэтому изначально честный подсчет возможен лишь там, где в достаточной мере развито гражданское общество, что среди прочего предполагает наличие минимально успешной оппозиции, потенциально способной поднимать своих избирателей на защиту их интересов. Там же, где это условие не выполнено, выяснить мнение избирателя с помощью процедуры голосования оказывается в принципе невозможно. Таким образом, имеется положительная корреляция между поддержкой оппозиции и достоверностью официальных результатов голосования, вследствие чего реконструкция в слабой постановке оказывается менее благоприятной для власти, чем в сильной.
Удивляться тому, что в условиях целенаправленных искажений возникают две «истинных» картины электоральных предпочтений, не следует. Если сильная постановка задачи, будучи по своей сути юридической, ориентирована на восстановление справедливости и отправление правосудия, то слабая, относясь к области социологии, возвращает выборам функционал инструмента, измеряющего взгляды политически-активной части населения.
Для реконструкции выборов в сильной постановке необходим хотя бы однократный (а лучше – неоднократный) честный подсчёт их результатов для рассматриваемого региона. Поскольку во многих субъектов федерации это условие не выполнено, для страны в целом имеет смысл говорить только о реконструкции в слабой постановке. Коль скоро жители некоторых регионов не готовы отстаивать свои избирательные права, их мнение при реконструкции заменяется мнением тех, кто хотя бы отчасти готов на это.
Аналогична ситуация со спецучастками, голосующие на которых избиратели ограничены либо в своих физических возможностях, либо в доступе к информации, либо в свободе выбора голосовать им или нет, а главное – в возможности добиваться уважения к своему волеизъявлению. Поэтому хотя результаты на каких-то спецучастках могут быть подсчитаны честно, используемая методика может записать их в недостоверные. И это справедливо.
Для выборов 2016 г. получились следующие результаты.
Явка: 35,4÷36,4% против официальной цифры в 47,8% – завышена на 31÷35% (на треть).
Антирезультат партии власти: 22,8% против официальной цифры в 21,9% – занижен на 4% (это объясняет, почему для этих выборов неплохо работает ГСС, для которой переброс голосов – нож острый).
Абсолютный результат партии власти: 12,5÷13,6% против официальной цифры в 21,9% – завышен на 90÷107% (т.е. вдвое).
Относительный результат партии власти: 35,4÷37,4% против официальной цифры в 54,2% – завышен на 45÷53% (т.е. в полтора раза).
Проголосовали: 38,9÷40,1 млн чел. против официальной цифры в 52,6 млн чел.
Проголосовали за партию власти: 13,8±15,0 млн чел. против официальной цифры в 28,5 млн чел.
Вброшено голосов за партию власти: 12,6÷13,7 млн, или 44÷48% от её официального результата.
Переброшено голосов партии власти: 1,0 млн, или 3,5% от её официального результата.
Доля избирателей-зомби (по регрессии для достоверных участков): 5,3±3,2%.
Общая достоверность результатов: 40÷52%. Полностью недостоверными являются результаты по 18 округам следующих субъектов федерации: Дагестан (все 3), Ингушетия (1), Кабардино-Балкария (1), Карачаево-Черкесия (1), Кемеровская область (3 из 4), Татарстан (все 6), Тюменская область (все 2), Чечня (1). Спорадические достоверные участки удалось сыскать в некоторых округах Северной Осетии, Кемеровской области, Башкортостана, Мордовии, Крыма, Тывы и даже во всех округах Саратовской области. Общая зависимость доли населения в достоверных участках от общего охвата избирателей по стране представлена на картинке. При её построении округа сортировались по достоверности результатов, которая откладывалась по ординате, а по абсциссе откладывалась с накоплением доля зарегистрированных избирателей.


UPD-1 для tivi_2: Классификация участков на примере Северо-западного округа Санкт-Петербурга, в котором у меня самый низкий разброс точек вокруг прямой. Возможно, я здесь напрасно записал некоторые участки в подозрительные.

Я взял только кусок картинки для лучшего разрешения, но в оставшейся части – только недостоверные участки.

UPD-2: Из-за стремления работать с крупномасштабной картинкой, я в некоторых случаях утрачивал правильное ощущение масштаба и напрасно записывал некоторые участки в подозрительные. Исправился (теперь всегда обязательно снимаю увеличение перед фиксацией результата и не забываю поглядывать на величину разброса точек вокруг прямой). Обсуждаемый УИК №1739 из СПб стал достоверным. Картинка переделана.

Метки:

Comments

tov_y
13 ноя, 2016 13:34 (UTC)
> Вы будете смеяться, но я подозревал, что вы написали это именно для меня.
А вот это, если Вы всерьёз, уже зачётно! :)

>Цитирую из сказанного вами выше: "Шпилькин получает ничтожные значения объёмов фальсификации в национальных республиках, которые мой метод целиком записывает в недостоверные."
>Это сказано об этих 10%?
Да.
Замечу также, что Шпилькин отыгрывается при рассмотрении данных по всей стране, на фоне которой эти регионы уже выглядят однозначно лажовыми.

>И еще два вопроса, ИМХО принципиальных:
>1. Если появится человек, наблюдатель на конкретном УИК от "Яблока", уверенный, что на данном УИК нарушений не было, то можно ли по данному образцовому УИК как-то настроить вашу модель (хотя бы по тому же городу, где этот УИК)?
В каком-то смысле я это и делал в той работе, когда реконструировал результаты думских выборов 2011 г. по Москве. Сначала по данным наблюдателей были проверены результаты выборов мэра Москвы в 2013 г., потом используя эти, уже доверенные, результаты – выборы Президента, а затем – на основе представлений о том, куда могут уползти ТИКи за год, а также с привлечение данных о наличии коибов (крайне затрудняющих перебросы голосов), были реконструированы и выборы 2011 г.
Сейчас я размышляю над тем, как бы подмешать в алгоритм не учёт наблюдателей (они где есть, где нет), а данные о недействительных бюллетенях. Это могло бы сократить долю подозрительных участков и дать возможность отнести их либо в достоверные, либо в недостоверные,

>2. Как верифицировать-то результат моделей, если выборы тайные?
Для сильной реконструкции – проводя выборы без подтасовок. Тогда реконструированные результаты отобразятся на истинные.
Для слабой реконструкции этот вопрос не имеет смысла, т.к. восстанавливается не то, что было, а то, что могло бы быть. Здесь надо ставить вопрос о зависимости результатов решения этой задачи от используемой модели. Поэтому и ценна альтернативная методология, которую развивает corbulon, опирающийся на данные о доле недействительных бюллетеней. Другой подход – изучение связи результатов с динамикой явки. Я свою деятельность на ниве электоральной статистики именно с этого и начинал. Однако там метод получился столь сложным, что его, по-моему, никто не понял.
tivi_2
13 ноя, 2016 16:44 (UTC)
На всякий случай свидетельствую: участок 1739, Санкт-Петербург, Приморский район. Фальсификаций и вбросов точно не было, возможно, была карусель с открепительными. Но это максимум 4-5 голосов.
termometr
13 ноя, 2016 17:08 (UTC)
спасибки!

Вот теперь возникает вопрос к авторам различных методик: что следует из такого утверждения?

tov_y
14 ноя, 2016 03:21 (UTC)
Из какого именно утверждения?
termometr
14 ноя, 2016 08:58 (UTC)
"участок 1739, Санкт-Петербург, Приморский район. Фальсификаций и вбросов точно не было"
corbulon
14 ноя, 2016 07:00 (UTC)
А что тут неясного??
Из этой информации (о 5 вброшенных бюл.) следует, что число голосов явившихся на выборы и число голосов за победителя (в расчете на один НДБ !!) возрастет.

Edited at 2016-11-14 10:01 (UTC)
termometr
14 ноя, 2016 08:40 (UTC)
"Ежели человека не кормить, не поить и не лечить, то он будет очень несчастный. Может даже помрет."

Если серьезно, то вомпросы по существу тут -
http://tov-y.livejournal.com/13018.html?thread=137946#t137946
tov_y
14 ноя, 2016 03:20 (UTC)
Слушайте, а Вы – матёрый человечище! С первой попытки попали в округ, для которого я построил самую узкую область достоверных участков – среднеквадратичное отклонение от прямой всего-навсего 0,51%. Возможно, я с этим округом несколько погорячился, но у меня УИК №1739 Северо-Западного округа Санкт-Петербурга отнесён к подозрительным. Надо подумать. Пока ничего не меняю, но приделал в конец текста апдейт с картинкой для этого округа, чтобы было что предметно обсуждать.
tivi_2
14 ноя, 2016 08:35 (UTC)
В любом случае я ручаюсь за чистоту результатов на участке. Я, кстати, не наблюдатель, а член УИК с ПРГ. Вижу процесс с самого начала работы УИК и отслеживаю все,начиная со списков и журнала телефонограмм. А в день выборов во все глаза смотрю за дополнительным списком и считаю проголосовавших на участке.
tov_y
14 ноя, 2016 10:31 (UTC)
> Я, кстати, не наблюдатель, а член УИК с ПРГ.
Важное уточнение! Моя интуиция не возражает, чтобы по этому округу чуть сдвинуть критерии и тогда 1739 сразу попадёт в достоверные (там всё на грани, он только кажется далеко лежащим от облака достоверных). Проблема в том, что в этом имеется элемент мошенничества, т.к. я начинаю привлекать сведения, внешние по отношению к алгоритму. И уж если начитать переделывать, то мне по-хорошему, наверное, мне надо десяток-другой самых "узких" округов перепроверить и ещё какое-то количество случайных. И лучше - слепым методом, а это надо программировать. Ой, как же лениво!
termometr
14 ноя, 2016 08:37 (UTC)
Точка уик плохо различима на нижнем графике - УИК №1739 это примерно
явка - 34, антирезультат - 21 ? Я правильно ее разглядел?

У вас есть результаты голосования по этому УИК? можете их дать тут?

Если взять эту точку как достоверную, то поможет ли это верифицировать вашу модель и как изменятся конечные результаты?

PS
tivi_2 я доверяю полностью.
tov_y
14 ноя, 2016 10:37 (UTC)
>Точка уик плохо различима на нижнем графике - УИК №1739 это примерно
явка - 34, антирезультат - 21 ? Я правильно ее разглядел?
Да. По-моему, я его так раскрасил, что перепутать невозможно.

>У вас есть результаты голосования по этому УИК? можете их дать тут?
Список: 2034
Недействительных бюллетеней: 14
Действительных бюллетеней: 686
ЕдРо: 262
Подробнее тут
termometr
14 ноя, 2016 11:09 (UTC)
Спасибо!

Смотрел бы и смотрел на результаты выборов в этом ТИКе! )))
barouh
15 ноя, 2016 03:17 (UTC)
А как ваш УИК подходил к определению недействительных? Бывают разные подходы. Одни комиссии формальничают и любой бюллетень, в котором можно углядеть признаки недействительности (галочка криво поставлена, что-нибудь сбоку приписано) относят к недействительным. Другие же более человечны и любой бюллетень, в котором однозначно понятно волеизъявление человека, голосованием признают действительным

Понятно, что средняя доля недействительных при двух подходах будет отличаться
tivi_2
19 ноя, 2016 10:21 (UTC)
Простите, не увидела Вашего вопроса. Недействительными были признаны бюллетени, где волю избирателя определить было невозможно, например, там, где галочки стояли во всех клетках.

Latest Month

Апрель 2018
Вс Пн Вт Ср Чт Пт Сб
1234567
891011121314
15161718192021
22232425262728
2930     

Page Summary

Разработано LiveJournal.com
Designed by Lilia Ahner