Товарищ Y (tov_y) wrote,
Товарищ Y
tov_y

Categories:

Что такое по-настоящему агрессивная реконструкция

После того как при обсуждении реконструкции результатов белорусских выборов коллега corbulon поинтересовался распределением последних цифр электоральных характеристик, мне захотелось немного пошалить.

В основу метода реконструкции может быть положено приблизительно всё, что угодно, кроме соотношения результатов власти и оппозиции, т.к. именно его и надо реконструировать. Но если мы уже знаем, что результаты чудовищно фальсифицированы причём в заведомо известную строну, то почему бы и нет? В качестве меры достоверности результатов на участке я взял r – отношение числа голосов, поданных за Тихановскую и Лукашенко, – и отсортировал участки по убыванию этой величины. Осталось, проведя где-то границу, отрезать нижнюю часть списка участков, а параметры верхней распространить на всю страну. Вот только где?

Прекрасным методом оказывается тест на рисованные данные. При заполнении протоколов выдуманными числами доля круглых среди них значимо превышает естественные 10%. Для ловли этого способа фальсификаций в белорусском случае оптимальны 3 электоральные характеристики: размер участка, а также промилле неабсолютной явки и результата инкумбента.

Из-за того, что явка и результат изначально представляют собой не десятичные, а обыкновенные дроби, возникает проблема малых знаменателей, благодаря которым естественная вероятность получения круглого промилле может превышать 10%. Для российских данных я эту проблему ранее решал отсечением малых участков. Но белорусская выборка слишком мала для обеспечения строгости таким расточительным путём. Поэтому здесь я для каждого встречающегося значения знаменателя (размера участка для явки и числа проголосовавших для результата) рассчитывал вероятность получения круглого промилле при случайном числителе, а далее усреднял эти вероятности по всем присутствующим в списке участков знаменателям. Полученное значение естественной доли круглых промилле p (для размера бралось просто 10%) подставлялось в формулу для значимости гипотезы о естественном возникновении избытка круглых значений α = BetaDisp(pknk+1), где k – число круглых промилле, а n – длина списка. Функция реализована BetaDisp во всех электронных таблицах.

Поскольку при наличии фальсификаций значимость α очень мала, вместо неё традиционно используется её десятичный показатель pα = −lgα, увеличение которого на 1 соответствует сокращению в 10 раз вероятности отсутствия фальсификаций. Для полного списка из 1245 участков, по которым имеются непротиворечивые данные, pα = 5,6 для размера 19,2 – для явки и 8,2 – для результата инкумбента.

Чтобы не возиться сразу с тремя характеристиками, я объединяю их в одну с помощью приближённого подхода, называемого множественным тестом. Сначала вычисляется произведение ζ = αРазмер · αЯвка · αРезультат, на основе которого и рассчитывается приведённая значимость α̃ = ζ·h(−lnζ), где h(t) = 1 + t + t2/2 – кусок разложения экспоненты, компенсирующий множественность гипотез. Для полного списка pα̃ = 29,9.

На картинке показано, как показатель приведённой значимости pα̃ возрастает по мере уменьшения среднего отношения r (это именно среднее по списку, а не порог отсечения). Как можно видеть, отношение поддержки Тихановской и Лукашенко, которое было получено при реконструкции разделением участков, (отмечено зелёной линией) примерно соответствует переходу от pα̃ ≈ 4 (1 шанс на 10 тысяч), к pα̃ ≈ 6 (1 шанс на миллион), при котором возможно было бы говорить про равенство кандидатов.

Для наглядности – аналогичная картинка по результатам основных кандидатов, но, в сущности, это – то же самое.

Таким образом, если мы хотим оставаться в области мало-мальски вероятных исходов, то должны признать, что результат Лукашенко не превышает ¼, что соответствует реконструкции на основе данных по досрочному, надомному и протестному голосованию, тогда как реконструкция разделением участков, дающая инкумбенту ⅓ голосов, оказывается слишком мягкой.

Не будем при этом забывать, что не все фальсифицированные результаты рисованные, поскольку существуют и другие способы фальсификации, т.е. «действительность ещё кошмарней».

UPD: Если бы кто-то уличил меня в хитрожопости, я бы написал отдельный пост. Но в обсуждении – тишина, поэтому я просто тихонечко допишу тут, в чём был подвох. Штука в том, что нельзя реконструировать результаты, обрезая на основе других критериев список, отсортированный по величине, коррелирующей с результатами.

Предположим, что, скажем, размер участка фальсифицируется просто в силу бардака. Ну, лень им там посчитать наличных избирателей, вот и пишут с точностью до десятка. Тогда неизбежно, по мере роста выборки значимость гипотезы о естественном возникновении избытка круглых размеров будет уменьшаться, а её показатель – нарастать. При этом отсортированный список будет обрезан слишком высоко, сохранив только участки с относительно высокой поддержкой оппозиционного кандидата. Поэтому, реконструируя результаты, корректно здесь ориентироваться только на значимость гипотезы для результата инкумбента.

Качественно картинки не меняются, но количественные изменения – существенны. Теперь результаты реконструкции разделением смотрятся нормально.

Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 2 comments