?

Log in

No account? Create an account

Previous Entry | Next Entry

Парные нолики

Пока ищется способ сделать значимости для триномиальных распределений из прошлого поста p-значениями, посчитаю-ка я просто парные нолики.


Для трех основных электоральных характеристик (промилле общей явки, промилле результата власти и участие избирателей в выборах) для каждого субъекта на каждых выборах считается число k участков, где одновременно какие-то две характеристики из трёх оказались круглыми (вероятность того, что это произошло случайно, – 1%). Если в субъекте всего n допустимых участков (не менее 100 участников и неполная явка при её рассмотрении), то значимость α гипотезы о том, что число успехов k не было завышено, может быть рассчитана просто как сумма биномиальных членов. Например в Excel α = БиномРасп(nk;n;99%;1).


Поскольку постановка одномерная, пороги для качественной интерпретации и раскраски значений показателя pα = –lgα заведомо являются теми же, что при испытаниях на круглые значения для отдельных характеристик.


Для 68 субъектов хотя бы по разу хотя бы для одной пары характеристик зафиксировано pα ≥ 2, из для 35 – pα ≥ 3, из них для 20 – pα ≥ 4, из них для 15 – pα ≥ 5. При рассмотрении одиночных характеристик соответствующие количества составили 60, 29, 22 и 17. При переходе к парам из списка исключительных и невероятных выскользнули Ингушетия, Крым, Тыва, Ямало-Ненецкий а/о., Хабаровский кр. и Саратовская обл., где, видимо, не очень склонны рисовать круглые числа сразу для нескольких характеристик. Зато спалились Красноярский кр., Иркутская, Новосибирская и Пензенская обл., где наоборот.



Показатели pα для пары «Результат власти» + «Участие избирателей»


Субъект \ Год


1999


2000


2003


2004


2007


2008


2011


2012


2016


2018


Max
Дагестан 0,5 12,2 26,7 28,2 16,9 16,7 31,9 39,1 30,9 11,0 39,1
Татарстан 0,4 0,4 2,6 8,2 15,1 30,7 8,3 4,7 6,0 10,5 30,7
Башкортостан 1,0 0,7 1,4 21,7 15,0 18,0 3,5 3,1 8,0 8,3 21,7
Кемеровская обл. 0,2 0,6 0,3 2,6 8,0 5,9 2,0 1,3 5,6 6,9 8,0
Краснодарский кр. 2,0 0,6 0,4 0,4 1,3 5,3 2,4 2,7 0,9 7,6 7,6
Мордовия 1,0 0,9 2,9 1,9 1,7 3,9 7,1 1,3 4,3 0,6 7,1
Липецкая обл. 0,2 1,3 1,0 0,3 0,6 6,8 0,1 1,3 2,4 1,4 6,8
Кабардино-Балкария 0,0 0,4 2,6 2,5 2,0 6,7 0,5 3,0 3,5 0,8 6,7
Карачаево-Черкесия 0,0 0,4 0,4 1,4 6,6 4,3 1,4 0,6 0,3 1,4 6,6
Чечня 6,4 4,5 3,4 0,2 0,1 0,8 0,0 1,0 6,4
Тюменская обл. 0,1 0,0 1,7 0,6 6,2 1,4 2,9 5,8 4,1 5,3 6,2
Иркутская обл. 1,0 2,4 0,2 0,6 0,9 5,9 1,6 1,0 3,7 3,1 5,9
Самарская обл. 0,4 2,1 0,2 3,5 0,6 5,1 0,2 0,8 0,7 0,6 5,1
Ростовская обл. 0,1 0,1 0,9 1,5 3,8 5,0 0,9 0,4 1,3 0,4 5,0
Москва 0,4 1,3 1,3 0,2 1,1 2,8 5,0 0,4 0,5 0,4 5,0
Северная Осетия 0,5 1,1 0,0 1,5 1,2 2,1 0,6 2,4 4,0 4,6 4,6
Ставропольский кр. 1,5 0,2 0,4 1,5 0,6 0,1 1,1 1,3 0,9 4,6 4,6
Красноярский кр. 0,5 1,5 4,3 0,6 4,3 2,0 1,1 3,5 1,6 0,9 4,3
Пензенская обл. 0,2 3,0 0,4 0,7 4,3 3,8 1,1 0,3 0,3 0,4 4,3
Новосибирская обл. 0,0 4,3 2,7 1,9 0,8 2,1 0,4 1,5 2,0 1,7 4,3
Вологодская обл. 0,6 0,4 0,8 2,3 1,2 3,8 0,4 1,9 0,5 0,4 3,8
Саратовская обл. 0,7 1,2 3,5 2,9 0,4 3,7 1,7 3,1 1,0 3,5 3,7
Оренбургская обл. 0,0 1,6 1,9 3,4 0,3 0,8 3,1 0,9 3,5 2,4 3,5
Курганская обл. 0,1 0,6 1,5 1,1 3,4 1,4 1,2 1,0 3,0 1,0 3,4
Усть-Ордынский Бур. а/о 1,2 2,2 0,3 0,3 3,4 3,4
Костромская обл. 0,8 0,1 1,1 3,3 0,4 0,1 1,8 0,3 0,7 0,4 3,3
Московская обл. 0,4 1,5 0,2 0,7 1,7 0,2 1,3 1,6 3,3 0,7 3,3
Брянская обл. 2,7 2,6 1,4 0,7 0,6 2,8 1,4 1,6 3,2 1,6 3,2
Челябинская обл. 1,3 0,4 0,5 0,9 1,4 3,1 2,1 2,1 2,2 0,5 3,1
Амурская обл. 0,1 0,4 0,4 2,0 3,1 1,0 1,8 1,1 0,8 0,7 3,1
Воронежская обл. 0,4 0,4 2,5 0,7 0,4 3,1 1,0 1,8 2,7 2,4 3,1
Архангельская обл. 2,1 0,9 0,8 0,4 0,9 0,2 1,7 2,5 1,5 3,0 3,0
Тамбовская обл. 0,0 2,2 1,2 1,1 1,0 3,0 1,6 0,5 2,8 0,1 3,0
Хакасия 0,7 1,7 2,2 0,3 0,1 1,2 3,0 0,2 0,6 0,6 3,0
Смоленская обл. 0,7 0,4 0,7 1,4 2,9 2,1 0,6 0,8 0,5 1,4 2,9
Тульская обл. 0,1 1,2 0,1 0,2 1,3 0,3 2,9 0,8 1,8 1,5 2,9
Алтайский кр. 0,8 1,7 0,5 2,0 0,2 2,2 0,2 2,0 2,9 2,8 2,9
Хабаровский кр. 1,5 0,9 0,4 0,7 0,1 0,8 0,2 0,7 2,8 1,4 2,8
Чукотский а/о 0,0 0,3 0,3 0,3 1,0 0,4 0,0 0,4 1,1 2,8 2,8
Омская обл. 1,2 1,8 2,1 2,8 2,5 2,2 2,6 1,4 0,9 2,8 2,8
Приморский кр. 0,1 2,7 2,3 1,2 0,8 1,3 1,7 1,5 2,3 0,9 2,7
Марий Эл 0,5 0,2 0,4 0,5 0,7 2,7 1,2 0,5 0,2 1,7 2,7
Рязанская обл. 2,6 0,9 0,9 0,7 2,6 0,5 1,8 0,7 1,4 2,4 2,6
Калининградская обл. 0,2 0,7 0,9 0,4 0,4 1,9 2,6 0,6 1,0 0,5 2,6
Тверская обл. 0,2 1,7 0,6 2,6 0,6 2,3 1,3 0,1 1,4 2,1 2,6
Тыва 0,0 0,6 0,6 0,1 1,5 1,5 0,6 0,3 1,0 2,6 2,6
Псковская обл. 0,4 0,4 0,2 2,0 1,5 2,5 0,4 1,6 0,9 2,4 2,5
Пермский кр. 1,4 0,7 2,5 1,3 0,9 1,3 2,5
Еврейская авт.обл. 0,0 0,1 0,4 0,1 0,8 2,5 1,9 0,4 0,4 1,0 2,5
Нижегородская обл. 2,0 2,3 2,4 2,0 1,2 1,6 2,2 1,4 0,6 1,5 2,4
Свердловская обл. 0,5 1,9 1,9 1,0 0,1 0,0 0,7 1,1 2,4 1,2 2,4
Волгоградская обл. 0,5 0,9 1,5 2,1 2,4 1,1 1,5 1,2 1,6 0,4 2,4
Читинская обл. 0,5 2,3 0,6 0,6 1,4 2,3
Ханты-Мансийский а/о 0,0 1,5 0,0 0,0 0,4 1,1 1,5 0,1 2,3 1,9 2,3
Забайкальский кр. 0,4 0,3 2,3 1,5 0,7 2,3
Белгородская обл. 0,8 1,0 1,1 0,2 2,0 2,3 1,6 0,2 1,6 2,0 2,3
Кировская обл. 0,3 0,5 0,3 1,1 0,5 1,1 2,2 0,3 0,5 1,8 2,2
Чувашия 1,1 1,5 1,5 1,8 0,1 2,0 1,5 1,0 2,2 0,8 2,2
Коми 2,1 2,2 0,7 1,2 0,9 0,7 0,5 0,2 0,6 0,6 2,2
Удмуртия 0,7 2,1 0,5 1,2 0,3 0,2 0,6 0,0 0,4 0,7 2,1
Бурятия 0,1 0,8 0,8 0,3 1,2 1,4 0,7 2,1 1,7 1,2 2,1


Показатели pα для пары «Участие избирателей» + «Общая явка»


Субъект \ Год


1999


2000


2003


2004


2007


2008


2011


2012


2016


2018


Max
Дагестан 0,6 2,9 4,5 7,5 3,1 7,1 14,9 6,4 8,3 4,5 14,9
Башкортостан 0,1 0,4 0,6 2,2 4,5 8,7 0,1 4,1 3,8 1,2 8,7
Кабардино-Балкария 0,3 1,3 4,5 3,3 1,3 6,4 0,2 2,1 4,2 0,6 6,4
Татарстан 0,6 0,7 0,0 0,2 0,9 4,5 5,1 3,3 6,4 3,9 6,4
Краснодарский кр. 1,6 0,0 0,1 0,3 0,6 3,1 1,8 0,6 1,4 5,7 5,7
Карачаево-Черкесия 0,0 1,1 0,4 2,0 1,7 2,5 0,4 1,9 1,0 5,3 5,3
Кемеровская обл. 0,1 0,6 0,2 4,1 2,5 5,1 0,6 1,5 5,2 4,0 5,2
Ставропольский кр. 0,8 0,2 0,1 0,2 0,2 0,1 0,3 0,9 0,2 4,7 4,7
Чечня 4,3 1,1 0,0 0,6 0,0 0,0 0,2 1,4 4,3
Мордовия 0,4 0,4 0,6 0,5 4,0 1,8 0,4 0,5 0,9 0,3 4,0
Курская обл. 0,1 0,2 0,0 0,0 0,2 0,1 3,3 0,0 0,4 0,1 3,3
Северная Осетия 0,2 1,2 1,2 1,6 2,1 2,8 0,1 0,9 3,3 2,1 3,3
Санкт-Петербург 0,0 0,9 1,7 0,2 0,1 2,8 0,5 0,1 0,2 0,5 2,8
Самарская обл. 0,1 0,4 0,4 0,8 0,9 2,3 0,0 0,0 0,1 1,9 2,3
Ленинградская обл. 0,1 0,2 0,4 0,0 0,2 2,2 1,1 0,6 0,6 0,2 2,2
Тюменская обл. 0,5 0,0 0,2 1,7 1,1 2,1 1,6 1,3 1,3 0,5 2,1
Волгоградская обл. 0,3 0,3 0,8 0,4 0,2 0,3 0,3 0,2 2,1 0,2 2,1
Москва 0,1 0,6 0,6 2,1 0,2 0,6 1,0 1,1 0,4 0,6 2,1


Показатели pα для пары «Общая явка» + «Результат власти»


Субъект \ Год


1999


2000


2003


2004


2007


2008


2011


2012


2016


2018


Max
Татарстан 0,0 0,3 0,3 1,7 4,3 25,8 26,8 26,0 80,2 36,0 80,2
Башкортостан 1,6 0,1 0,0 32,9 10,1 37,6 13,1 11,0 36,3 26,7 37,6
Дагестан 0,0 1,9 1,4 21,9 7,3 16,3 3,0 10,5 22,4 31,3 31,3
Кабардино-Балкария 0,9 1,3 6,6 7,3 4,5 24,8 3,2 2,1 4,2 0,2 24,8
Карачаево-Черкесия 0,6 0,4 0,2 0,4 1,7 14,0 1,4 0,4 0,0 4,5 14,0
Мордовия 0,6 0,0 1,3 7,2 5,0 5,4 2,6 3,4 12,2 1,1 12,2
Кемеровская обл. 0,2 0,6 0,2 1,8 3,1 7,1 5,1 3,3 9,9 11,8 11,8
Краснодарский кр. 1,2 0,6 0,4 0,5 0,5 5,3 0,6 1,4 3,2 8,9 8,9
Ставропольский кр. 0,8 0,2 0,0 0,5 1,6 1,1 0,9 0,3 0,1 7,3 7,3
Чечня 1,7 7,2 0,1 0,6 0,0 0,0 0,0 0,8 7,2
Северная Осетия 0,2 0,8 0,3 2,1 1,7 5,2 0,4 0,9 6,5 1,3 6,5
Тюменская обл. 0,2 0,2 0,2 0,3 1,1 5,2 1,6 2,1 0,4 1,3 5,2
Ростовская обл. 0,0 0,0 0,1 0,1 3,6 3,1 0,8 0,6 4,4 2,2 4,4
Ямало-Ненецкий а/о 0,0 0,0 0,2 0,5 0,1 1,9 0,9 3,9 2,1 0,0 3,9
Саратовская обл. 1,6 0,4 0,3 2,7 2,5 1,7 0,7 3,8 1,3 3,4 3,8
Брянская обл. 1,5 0,4 0,2 0,0 0,2 0,1 0,9 0,3 2,3 3,2 3,2
Смоленская обл. 0,2 0,0 0,0 0,1 2,6 3,2 0,4 0,6 0,1 0,0 3,2
Московская обл. 0,1 1,2 0,5 1,9 0,4 0,9 0,1 1,2 2,9 1,0 2,9
Воронежская обл. 0,3 0,2 0,3 0,5 0,6 1,0 0,3 0,6 2,8 2,2 2,8
Москва 0,3 0,2 0,0 0,3 0,8 2,5 2,5 0,1 0,8 0,5 2,5
Приморский кр. 0,0 0,0 0,3 0,3 0,5 0,3 0,9 2,4 0,5 0,6 2,4
Томская обл. 0,2 1,1 0,1 0,3 0,5 0,0 0,5 0,2 2,3 0,1 2,3
Алтайский кр. 0,0 2,3 0,2 0,3 0,6 1,6 1,4 0,6 0,1 1,1 2,3
Ленинградская обл. 0,1 0,0 2,2 1,0 0,2 0,3 2,2 0,5 1,8 0,2 2,2
Забайкальский кр. 2,1 0,5 0,7 0,5 0,2 2,1
Сахалинская обл. 0,0 0,1 0,1 1,8 0,1 0,1 2,0 0,5 0,3 0,5 2,0
Калужская обл. 0,2 0,0 0,8 0,0 1,1 0,3 0,1 2,0 0,2 0,3 2,0

UPD: Понял, почему вторая таблица такая дохлая. Общая явка – результат деления количества избирателей, принявших участие в голосование, на их общее число. Таким образом, рассматриваемые характеристики не независимы. А раз фальсификаторы не имеют возможности варьировать их произвольно, то и не добиваются каких-то выдающих успехов в творении парных ноликов. Поэтому во второй таблице нет ни одних выборов с pα ≥ 4, которые бы уже не имели такой большой показатель для явки или участия, взятых порознь.

Comments

( 6 комментариев — Оставить комментарий )
afanasjev77
25 мар, 2019 07:21 (UTC)
Можно попробовать отсекать участки не на 100, а 500 или даже 700 принявших участие в выборах. Проблема в том, что на малых участках может быть невозможно получить нужный круглый процент. Для участков в районе 500 человек вероятность, что у фальсификатора не получится круглый результат примерно 50%, для 100 человек - 90%. Это не так важно для одиночных ноликов, но для пар, малые участки могут "разбавить" общий результат и существенно снизить значимость.
tov_y
25 мар, 2019 08:15 (UTC)
Нужный _круглый_ процент, может, и невозможно, а нужный _целый_ процент уже вполне получается. А смысл отсечения в другом – оно не позволяет возникать ложным сгусткам на дробях с малыми знаменателями.
А про "снизить значимость" я вообще не понял. Если не получается сделать нолик (или хватает мозгов его не делать), то значимость возрастает.

Edited at 2019-03-25 05:17 (UTC)
afanasjev77
25 мар, 2019 12:23 (UTC)
Откуда берутся нули в конце: фальсификатор намечает себе какой то желаемый результат, предположим 62%, у него есть количество проголосовавших, например 1234, взяв 62% от 1234 и округлив до целых он получает 765. Поделив 765 на 1234 и округлив до первого знака после запятой мы получим 62,0%. Но если число проголосовавших было бы 107, то 62% от 107 это 66, и при делении 66 на 107 получится 61,7%. При таком малом числе проголосовавших ноль в конце уже не получится.
Вот для примера небольшая табличка со случайно выбранными процентами для участков разного размера. В одних случаях ноль в конце получается, в других нет, и это зависит от размера участка. Если количество людей 1000 или больше, ноль получается всегда.

На небольших участка появление нолей мало зависит от желания фальсификатора, и отбросив эти участки можно повысить выявляемость фальсификаций.
tov_y
25 мар, 2019 13:25 (UTC)
Вероятность того, что фальсификатор попадёт в целый процент, если он именного этого хотел, зависит от знаменателя дроби сложным образом. Для совсем малых знаменателей эта вероятность может быть весьма большой за счёт сильно сократимых дробей. Потом она убывает, достигая минимума на уровне около 10% при знаменателе около 100, а далее примерно линейно возрастает, достигая 100% при знаменателе равном 1000.
Поэтому Вы правы в том, что при одной и той же интенсивности фальсификаций для малых участков круглые характеристики будут наблюдаться реже, чем для больших.
Однако само по себе это – ещё не повод отбрасывать малые участки.
Во-первых, цель отбрасывания совсем крошечных– не в оптимизации теста, а в обеспечении его корректности. Можно упустить какие-то фальсификации, но нельзя выдвигать ложных обвинений, т.к. любое из них поставит под сомнение все истинные.
Во-вторых, на малых участках, где реже встретишь наблюдателей, фальсифицируют чаще чем на больших. Это просто медицинский факт.
Ну, и наконец, в-третьих, повышение доли круглых результатов может не окупить уменьшения их количества. Вот модельная ситуация. Пусть было 25 круглых и 75 некруглых участков, а после исключения маленьких остаётся 20 круглых (сокращение на 20%) и 57 некруглых (сокращение на 24%). При хотя доля круглых выросла с 25% до почти 26%, pα уменьшилось с 4,88 до 4,29.
Впрочем, мысль проверить, не будет ли тест лучше работать при увеличении порога, – дельная. Я попробую. Спасибо!
afanasjev77
25 мар, 2019 14:03 (UTC)
Я для пробы взял выборы президента 2018 года в Башкортостане.
Участков где выдали от 100 до 499 бюллетеней 1619, из них на 36 явка и результат Путина заканчиваются на ноль, это 2,2%.
Участков от 500 до 999 - 777, из них парных 21, 2,7%.
Участков 1000 и больше - 862, парных 36, 4,2%.

Edited at 2019-03-25 11:03 (UTC)
tov_y
25 мар, 2019 15:41 (UTC)
Парные считать лень. А для одиночных всё выглядит вот так:
UPD:Добавил и парные нолики до кучи.

Если такая штука обнаружится и для других кейсов, надо будет поднять порог где-нибудь до 300÷400.

Edited at 2019-03-25 12:49 (UTC)
( 6 комментариев — Оставить комментарий )

Latest Month

Сентябрь 2019
Вс Пн Вт Ср Чт Пт Сб
1234567
891011121314
15161718192021
22232425262728
2930     
Разработано LiveJournal.com
Designed by Lilia Ahner