?

Log in

No account? Create an account

Previous Entry | Next Entry

При анализе рисования целых процентов на выборах я ранее, чтобы избежать возникновения ложноположительных срабатываний на дробях с малыми знаменателями, отсекал малые участки, под которыми понимались те, где участие в выборах приняли менее 100 избирателей. Ниже, вроде бы, порог устанавливать рискованно, а выше – жалко.


Однако всё оказалось немного не так, как мне представлялось.



Коллега afanasjev77 разумно заметил, что успех фальсификатора в деле рисования целых процентов обусловлен в т.ч. и доступным ему знаменателем. Чем тот ниже, тем труднее попасть в задуманное значение, сделав фальсификацию видимой тесту. Поэтому целесообразно устанавливать порог как можно выше, чтобы по возможности исключать из рассмотрения участки, где фальсификации оказываются замаскированы малым знаменателем.


Для простоты в качестве порогового значения при рассмотрении явки T, я буду использовать число избирателей R, зарегистрированных на участке, а не принявших участие в голосовании C, т.е. знаменатель дроби T = C/R.


Пусть фальсификатор пытается нарисовать явку ровно в P%. Для этого он придумывает участие C = [R·P/100], где квадратные скобки означают округление к ближайшему целому. Каковы при этом шансы на успех, т.е. на то, что промилле явки [T·1000] будут круглым числом (пусть даже это будет и не то число, которое задумывал фальсификатор)? Зависимость от знаменателя R вероятности успеха, усреднённой по всем целым 1 ≤ P ≤ 99, показана на картинке.



Синяя линяя – результаты для отдельных значений R, красная – сглаживание биномиальным фильтром 10-го порядка.


Как можно видеть, сглаженный график имеет минимум при R ≈ 50. При меньших знаменателях фальсификации зачастую порождают целые проценты, но не те, которые хотел фальсификатор. Далее вероятность успеха примерно линейно нарастает, становясь единичной при R = 1000.


Таким образом, наращивание порога и впрямь может быть оправдано. Однако, с другой стороны, на малых участках попытки фальсификаций совершаются в целом чаще, чем на больших, что может в какой-то мере компенсировать меньшие шансы на успех в деле рисования целых процентов. Кроме того, рост доли успехов при увеличении порога может и не компенсировать общего сокращения числа испытаний. В обсуждении я уже описывал модельную ситуацию, когда из 25 круглых и 75 некруглых участков после исключения маленьких остаётся 20 круглых (сокращение на 20%) и 57 некруглых (сокращение на 24%). Хотя доля круглых выросла (с 25% до почти 26%), значимость гипотезы о естественном возникновении избытка круглых участков α тоже выросла (показатель pα=–lgα уменьшился с 4,88 до 4,29).


Поэтому вопрос, какой порог лучше выбрать, следует решить практически. Для этого по всем федеральным выборам 1999-2018 гг. по всем субъектам федерации для различных значений минимального рассматриваемого R я считаю, сколько раз были зарегистрированы подозрительные (pα ≥ 3), исключительные (pα ≥ 4) и невероятные (pα ≥ 5) показатели значимости. Чтобы сделать эти количества нагляднее, я нормирую их на их максимально достижимые значения, получаемые использованием для каждых выборов в каждом субъекте того порога, который даёт максимальный показатель pα. Доли пойманных фальсификаций в зависимости от минимального размера рассматриваемого участка показаны на рисунке.



Оптимальный порог отсечения соответствует примерно 750 зарегистрированным избирателям. При этом ловится 53 подозрительных случая, из которых 48 – исключительные, из которых 40 – невероятные.


Для сравнения: если рассматривать, как раньше, участки, где приняли участие в выборах не менее 100 человек, то соответствующие значения составляют 51, 42 и 33 случая. Прирост – небольшой, но он достигается бесплатно, без ухудшения надёжности теста.


UPD: Посмотрел ещё раз на картинку. Вроде бы, 950 даже лучше чем 750. Тут числа получаются 55, 49 и 41. Но 750 – красивее :)


Comments

( 6 комментариев — Оставить комментарий )
vsvor
29 мар, 2019 02:01 (UTC)
Да, у меня были похожие цифры, но отсекал в итоге по 500. Если слишком тщательно выбирать границу, то в какой мере результат обусловлен этим выбором?

Есть более технологичный подход - сравнивать данные с распределением, полученным при помощи Монте-Карло для всех участков. Но его недостаток в том, что объяснить происходящее значительно сложнее.
tov_y
29 мар, 2019 08:10 (UTC)
> Если слишком тщательно выбирать границу, то в какой мере результат обусловлен этим выбором?
Ни в какой! Субъект должен проходить тест при любой границе. Но при какой-то одной. Если одновременно брать разные границы, то это увеличивает общее число попыток, смещая пороги для подозрительных, исключительных и невероятных значений. Причём, поскольку попытки не независимы, то не получается посчитать, на сколько смещаются пороги. Конечно, можно взять по максимуму – попробовать 10 разных границ и сдвинуть пороги для pα на 1. Но, по-моему, это не окупится.

> Есть более технологичный подход - сравнивать данные с распределением, полученным при помощи Монте-Карло для всех участков.
А что будет результатом сравнения?
vsvor
4 апр, 2019 02:27 (UTC)
1. Если для каждого нового набора данных подибрать границу заново, то это повлияет на результат. Хотя и незначительно.

2. Вероятность. Правда, при помощи Монте-Карло ее невозможно оценить в случаях, когда отклонения совсем уже дикие.
tov_y
4 апр, 2019 07:18 (UTC)
1. Мы не будем подбирать заново для каждого. Один разик выберем – и всё.
2. А тут – число сразу.
afanasjev77
29 мар, 2019 08:09 (UTC)
Можно попробовать посмотреть не суммарное число подозрительных выборов, а количество регионов, в которых хотя бы раз значимость превысила определенный порог. Не так важно 5 или 7 раз попался какой-то регион. Высокий уровень отсечения может хорошо выявлять фальсификации в конкретном субъекте. Но при этом субъекты, где мало больших участков, несмотря на наличие фальсификаций, могут оказаться незамеченными.
tov_y
29 мар, 2019 08:17 (UTC)
Я так делал. Ну, при старом подходе к отсечению мелких участков.
Если нас интересует сравнивать выборы разных лет по разгулу фальсификаций, то этот подход оказывается лучше. При этом порог для pα брался просто обратным числу субъектов (чуть меньше 2, а не 3 как для всего массива из 10 выборов).
( 6 комментариев — Оставить комментарий )

Latest Month

Сентябрь 2019
Вс Пн Вт Ср Чт Пт Сб
1234567
891011121314
15161718192021
22232425262728
2930     
Разработано LiveJournal.com
Designed by Lilia Ahner