Товарищ Y (tov_y) wrote,
Товарищ Y
tov_y

Categories:

Пороговый размер анализируемого участка для целых процентов (круглых промилле) явки

При анализе рисования целых процентов на выборах я ранее, чтобы избежать возникновения ложноположительных срабатываний на дробях с малыми знаменателями, отсекал малые участки, под которыми понимались те, где участие в выборах приняли менее 100 избирателей. Ниже, вроде бы, порог устанавливать рискованно, а выше – жалко.


Однако всё оказалось немного не так, как мне представлялось.



Коллега afanasjev77 разумно заметил, что успех фальсификатора в деле рисования целых процентов обусловлен в т.ч. и доступным ему знаменателем. Чем тот ниже, тем труднее попасть в задуманное значение, сделав фальсификацию видимой тесту. Поэтому целесообразно устанавливать порог как можно выше, чтобы по возможности исключать из рассмотрения участки, где фальсификации оказываются замаскированы малым знаменателем.


Для простоты в качестве порогового значения при рассмотрении явки T, я буду использовать число избирателей R, зарегистрированных на участке, а не принявших участие в голосовании C, т.е. знаменатель дроби T = C/R.


Пусть фальсификатор пытается нарисовать явку ровно в P%. Для этого он придумывает участие C = [R·P/100], где квадратные скобки означают округление к ближайшему целому. Каковы при этом шансы на успех, т.е. на то, что промилле явки [T·1000] будут круглым числом (пусть даже это будет и не то число, которое задумывал фальсификатор)? Зависимость от знаменателя R вероятности успеха, усреднённой по всем целым 1 ≤ P ≤ 99, показана на картинке.



Синяя линяя – результаты для отдельных значений R, красная – сглаживание биномиальным фильтром 10-го порядка.


Как можно видеть, сглаженный график имеет минимум при R ≈ 50. При меньших знаменателях фальсификации зачастую порождают целые проценты, но не те, которые хотел фальсификатор. Далее вероятность успеха примерно линейно нарастает, становясь единичной при R = 1000.


Таким образом, наращивание порога и впрямь может быть оправдано. Однако, с другой стороны, на малых участках попытки фальсификаций совершаются в целом чаще, чем на больших, что может в какой-то мере компенсировать меньшие шансы на успех в деле рисования целых процентов. Кроме того, рост доли успехов при увеличении порога может и не компенсировать общего сокращения числа испытаний. В обсуждении я уже описывал модельную ситуацию, когда из 25 круглых и 75 некруглых участков после исключения маленьких остаётся 20 круглых (сокращение на 20%) и 57 некруглых (сокращение на 24%). Хотя доля круглых выросла (с 25% до почти 26%), значимость гипотезы о естественном возникновении избытка круглых участков α тоже выросла (показатель pα=–lgα уменьшился с 4,88 до 4,29).


Поэтому вопрос, какой порог лучше выбрать, следует решить практически. Для этого по всем федеральным выборам 1999-2018 гг. по всем субъектам федерации для различных значений минимального рассматриваемого R я считаю, сколько раз были зарегистрированы подозрительные (pα ≥ 3), исключительные (pα ≥ 4) и невероятные (pα ≥ 5) показатели значимости. Чтобы сделать эти количества нагляднее, я нормирую их на их максимально достижимые значения, получаемые использованием для каждых выборов в каждом субъекте того порога, который даёт максимальный показатель pα. Доли пойманных фальсификаций в зависимости от минимального размера рассматриваемого участка показаны на рисунке.



Оптимальный порог отсечения соответствует примерно 750 зарегистрированным избирателям. При этом ловится 53 подозрительных случая, из которых 48 – исключительные, из которых 40 – невероятные.


Для сравнения: если рассматривать, как раньше, участки, где приняли участие в выборах не менее 100 человек, то соответствующие значения составляют 51, 42 и 33 случая. Прирост – небольшой, но он достигается бесплатно, без ухудшения надёжности теста.


UPD: Посмотрел ещё раз на картинку. Вроде бы, 950 даже лучше чем 750. Тут числа получаются 55, 49 и 41. Но 750 – красивее :)


Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 6 comments