?

Log in

No account? Create an account

Previous Entry | Next Entry

Полиномиальные нолики

Получила неожиданное развитие тема обнаружения в результатах выборов избытка круглых чисел, которые (в силу своей психологической привлекательности и некоторых других причин) при фальсификациях массово возникают для количества принявших участие, а также для промилле общей явки и результата партии/кандидата власти.


Традиционный Disclaimer. При обработке результатов, чтобы гарантировать значительную ширину разброса рассматриваемых электоральных характеристик, учитываются только участки, где участие в выборах приняли не менее 100 человек. Это, кроме того, позволяет сделать пренебрежимо малой вероятность концентрации явки и результата на дробях с малыми знаменателями. Наконец, для явки исключаются из рассмотрения участки, где участие в выборах приняли все без исключения зарегистрированные избиратели, т.к. это может быть следствием отсутствия заранее составленных их списков, что делает явку фиктивной величиной.


К настоящему моменту устоявшийся инструментарий связан с проверкой статистических гипотез для испытаний Бернулли. Если вероятность успеха (круглое число) p = 10%, а вероятность неудачи (некруглое число) q = 90%, то при k успехах в n попытках вероятность того, что отношение k / n достигло своего (быть может, подозрительно высокого) значения в результате естественных причин α = Σi=knCnipiqni. Чтобы не работать со сверхмалыми числами, вместо значимости α, используется её десятичный показатель pα = –lgα, увеличение которого на 1 соответствует уменьшению вероятности отсутствия фальсификаций на порядок.


Для 865 результатов федеральных выборов в 1999–2008 гг. значения pα ≥ 5 можно считать невероятными, pα ≥ 4 – исключительными, pα ≥ 3 – подозрительным, pα ≥ 2 – отмеченными (они не вызывают подозрений в рамках массива из 10 выборов, но всё-таки подозрительны в рамках контренных выборов).


Оказалось, что эту схему можно существенно улучшить, если рассматривать векторные электоральные характеристики. Простейшими из них являются парные комбинации: Участие–Явка, Явка–Власть, Власть–Участие. При этом значимость гипотезы о естественном возникновении наблюдаемой доли круглых чисел даётся уже суммой не биноминальных, а триномиальных членов: α = Σi=knlΣj=lnin!/(ij!·(nij)!)·piqjrnij, где k – число случаев, когда круглыми оказываются обе характеристики, l – когда только одна, а вероятности p = 1%, q = 18% и r = 81%. Всё остальное сохраняется без изменений.


Чувствительность теста выросла радикально! Некоторые субъекты, которые при рассмотрении характеристик по одной не попадали даже в подозрительные, стали сразу невероятными, не говоря уже о менее радикальных уточнениях. Для 86 субъектов хотя бы по разу хотя бы для одной пары характеристик встретились отмеченные показатели, из для 67 – подозрительные, из них для 38 – исключительные, из них для 25 – невероятные.



Показатели pα для пары Власть+Участие
Субъект \ Год 1999 2000 2003 2004 2007 2008 2011 2012 2016 2018 Max
Дагестан 1,0 23,5 46,5 58,9 30,8 44,4 110,1 53,0 59,4 26,8 110,1
Татарстан 1,2 1,6 5,8 24,8 33,3 79,8 22,7 23,1 37,2 23,4 79,8
Башкортостан 1,8 3,4 1,5 57,8 29,3 45,5 11,9 11,5 20,4 13,9 57,8
Кабардино-Балкария 1,3 5,0 7,6 5,9 6,5 24,1 7,0 4,8 5,2 1,0 24,1
Кемеровская обл. 1,7 1,4 0,3 4,2 10,3 22,2 3,3 7,7 9,8 10,8 22,2
Чечня 15,1 19,7 3,7 0,7 0,1 4,0 0,0 1,4 19,7
Краснодарский кр. 3,0 1,4 1,5 1,2 1,6 19,1 4,0 4,7 4,1 11,2 19,1
Мордовия 1,1 1,1 3,2 9,0 14,5 10,7 12,5 2,5 9,0 1,6 14,5
Карачаево-Черкесия 0,7 1,1 1,8 3,2 13,6 12,8 2,0 1,8 0,7 5,4 13,6
Северная Осетия 1,3 2,1 0,7 5,5 2,4 6,2 1,6 3,8 13,4 6,8 13,4
Ростовская обл. 2,1 1,7 1,2 2,8 7,5 9,8 1,9 1,1 3,2 0,7 9,8
Липецкая обл. 0,9 2,7 1,1 0,7 0,8 9,5 1,1 1,4 3,0 2,9 9,5
Москва 1,4 1,4 1,3 1,8 2,2 4,0 8,8 1,6 1,6 0,7 8,8
Тюменская обл. 0,2 0,1 2,2 3,6 6,7 5,9 4,8 5,9 8,4 7,3 8,4
Ставропольский кр. 1,7 0,3 0,5 2,3 1,2 0,2 3,1 4,0 2,4 8,3 8,3
Саратовская обл. 1,9 3,8 3,7 6,2 0,5 4,6 4,0 7,3 3,8 4,9 7,3
Иркутская обл. 1,0 2,4 0,9 0,9 1,7 6,5 1,9 1,3 3,8 3,5 6,5
Ингушетия 0,6 1,2 0,3 0,8 6,3 0,8 1,0 0,2 2,4 0,9 6,3
Самарская обл. 0,5 2,2 0,6 3,8 0,7 5,8 0,5 1,0 1,0 1,0 5,8
Пензенская обл. 0,4 3,4 0,6 1,8 5,6 4,4 1,6 0,4 0,9 1,7 5,6
Тульская обл. 1,7 2,0 1,0 0,3 1,8 0,5 5,3 1,9 2,4 2,3 5,3
Усть-Ордынский Бур. авт.окр. 1,3 2,5 0,3 0,3 5,1 5,1
Тамбовская обл. 0,5 2,9 1,4 1,8 1,2 5,0 1,7 1,1 3,1 1,1 5,0
Тыва 0,4 1,3 0,7 0,2 2,0 4,4 1,8 1,5 1,5 4,9 4,9
Новосибирская обл. 0,8 4,7 3,0 2,2 1,1 2,6 0,5 1,6 2,3 1,7 4,7
Вологодская обл. 0,8 0,5 1,7 2,4 1,4 4,6 0,9 2,2 1,5 0,6 4,6
Красноярский кр. 1,2 1,8 4,4 1,2 4,5 2,1 1,7 4,2 1,9 0,9 4,5
Брянская обл. 4,5 2,9 2,0 0,8 1,4 3,4 1,9 1,7 3,9 2,1 4,5
Крым 1,0 4,4 4,4
Смоленская обл. 0,7 0,7 1,2 1,6 4,3 2,3 0,8 1,0 0,9 1,5 4,3
Пермская обл. 0,8 1,8 4,2 1,9 4,2
Алтайский кр. 1,4 1,7 0,7 2,2 0,7 2,8 1,5 2,5 3,6 4,2 4,2
Воронежская обл. 1,2 0,6 3,8 2,3 0,6 4,1 2,1 2,3 4,1 3,1 4,1
Нижегородская обл. 2,1 2,5 2,5 2,7 1,3 2,9 2,4 1,7 2,2 4,0 4,0
Марий Эл 0,8 0,3 0,4 0,8 1,1 3,9 2,2 0,9 0,4 2,7 3,9
Московская обл. 0,6 3,8 0,4 2,0 3,8 2,2 1,6 1,9 3,6 1,5 3,8
Ямало-Ненецкий авт.окр. 1,8 1,7 0,5 1,0 2,4 2,2 3,8 3,4 1,2 1,4 3,8
Архангельская обл. 2,1 1,7 0,9 0,5 1,0 0,7 1,7 2,7 1,5 3,7 3,7
Корякский авт.окр. 0,0 1,9 0,3 3,7 3,7
Сахалинская обл. 0,5 1,5 1,6 0,3 3,7 0,5 0,7 0,9 0,2 1,9 3,7
Приморский кр. 0,2 3,5 2,9 2,6 1,9 1,5 3,7 1,9 2,5 1,2 3,7
Оренбургская обл. 0,9 2,1 1,9 3,5 1,7 1,1 3,1 1,2 3,6 2,4 3,6
Псковская обл. 0,6 0,8 0,8 2,3 1,6 3,6 2,0 1,9 1,1 2,9 3,6
Курганская обл. 0,2 1,1 1,6 1,3 3,4 2,5 2,1 1,2 3,5 1,0 3,5
Челябинская обл. 1,7 0,5 0,8 1,7 2,1 3,5 3,0 2,5 3,0 1,1 3,5
Кировская обл. 0,4 0,8 0,8 1,9 1,0 3,2 2,8 0,5 0,5 3,5 3,5
Ханты-Мансийский авт.окр. 0,4 1,5 0,1 0,3 0,6 1,5 1,6 0,2 3,4 2,4 3,4
Костромская обл. 0,9 0,3 1,2 3,4 0,5 0,3 2,2 0,3 0,7 0,4 3,4
Тверская обл. 0,5 1,9 2,9 2,7 1,0 3,4 1,3 0,9 1,6 2,4 3,4
Хабаровский кр. 1,7 1,2 1,5 0,9 0,6 1,4 0,8 1,4 3,3 3,0 3,3
Пермский кр. 1,8 1,9 3,3 1,5 1,2 1,8 3,3
Удмуртия 0,8 3,3 0,8 1,9 0,7 0,8 0,6 0,7 2,0 1,1 3,3
Коми 2,2 3,3 1,5 1,4 1,6 1,0 0,6 0,7 1,1 1,1 3,3
Амурская обл. 0,2 0,4 0,6 2,3 3,2 1,0 2,1 1,3 1,9 1,1 3,2
Ненецкий авт.окр. 0,1 1,2 1,0 0,0 0,9 3,2 2,1 0,4 0,9 0,3 3,2
Рязанская обл. 3,2 1,1 2,6 0,8 2,9 0,8 1,9 0,8 1,7 2,4 3,2
Калининградская обл. 0,4 1,0 1,7 0,7 0,5 2,2 3,1 1,8 1,2 0,5 3,1
Чукотский авт.окр. 0,1 0,7 0,6 1,0 1,0 2,7 2,2 0,5 1,6 3,1 3,1

 


Показатели pα для пары Участие+Явка
Субъект \ Год 1999 2000 2003 2004 2007 2008 2011 2012 2016 2018 Max
Дагестан 3,0 12,4 24,0 40,5 20,8 37,0 70,0 33,2 40,2 34,6 70,0
Татарстан 1,5 1,1 0,4 2,1 5,0 24,4 10,4 14,9 34,8 26,7 34,8
Башкортостан 2,1 3,1 0,7 17,1 17,1 25,4 15,9 14,1 19,2 17,0 25,4
Краснодарский кр. 2,0 1,6 2,5 1,5 2,9 8,6 2,5 2,7 4,6 24,9 24,9
Кемеровская обл. 0,9 1,3 0,4 6,6 6,0 11,6 1,3 4,6 20,2 16,5 20,2
Кабардино-Балкария 1,1 4,2 9,9 5,4 4,4 19,9 1,3 11,2 5,1 0,9 19,9
Чечня 15,2 16,5 0,0 1,1 0,0 0,0 0,5 1,5 16,5
Карачаево-Черкесия 1,4 2,2 0,7 3,8 4,2 14,4 2,7 4,3 2,2 8,0 14,4
Северная Осетия 0,8 1,7 2,2 8,3 3,8 10,3 0,8 1,7 10,9 5,9 10,9
Ставропольский кр. 0,8 0,3 0,4 0,9 1,2 0,4 0,6 1,9 1,2 9,2 9,2
Саратовская обл. 0,8 1,3 2,1 0,8 1,2 1,6 2,2 1,8 7,5 7,8 7,8
Ямало-Ненецкий авт.окр. 0,8 0,4 0,2 1,1 2,1 1,6 1,0 7,6 2,3 0,5 7,6
Мордовия 0,8 0,5 1,3 1,9 7,2 4,1 2,9 3,0 6,2 1,1 7,2
Москва 1,1 1,1 0,9 4,0 1,7 5,2 4,7 1,9 1,9 0,8 5,2
Московская обл. 1,0 2,0 0,5 2,0 4,6 5,1 1,9 1,3 1,3 4,6 5,1
Ярославская обл. 0,9 0,6 1,1 0,7 4,7 2,6 0,5 0,1 0,6 0,5 4,7
Санкт-Петербург 0,2 1,6 2,2 0,7 1,2 4,7 1,0 1,6 1,1 1,0 4,7
Крым 0,6 4,7 4,7
Тюменская обл. 0,7 0,2 0,4 2,1 2,6 3,5 2,2 1,4 4,0 4,3 4,3
Самарская обл. 0,8 0,7 0,5 1,0 0,9 4,1 0,7 0,4 0,6 2,6 4,1
Смоленская обл. 0,4 1,2 0,7 0,8 4,0 1,2 1,7 0,3 1,2 0,2 4,0
Ростовская обл. 0,6 0,3 1,0 1,2 3,2 3,8 1,3 2,7 3,5 1,4 3,8
Курская обл. 0,5 0,9 0,5 0,1 1,4 0,6 3,7 0,8 1,0 1,9 3,7
Тамбовская обл. 0,4 0,9 0,7 2,3 0,2 3,5 0,7 0,3 1,4 2,6 3,5
Забайкальский кр. 3,3 1,7 1,1 0,7 0,7 3,3
Липецкая обл. 1,2 1,6 0,6 0,6 0,4 3,2 0,8 0,7 1,6 3,1 3,2
Ульяновская обл. 0,9 0,6 0,5 0,3 1,3 0,2 0,5 0,5 3,2 0,6 3,2
Удмуртия 0,4 3,1 0,4 0,3 0,5 0,9 0,2 0,5 0,5 0,2 3,1
Алтайский кр. 0,3 0,2 0,3 0,6 0,2 1,9 1,8 1,5 2,1 3,1 3,1
Брянская обл. 2,6 1,6 1,3 0,4 1,0 3,1 0,5 1,6 2,6 2,8 3,1
Хабаровский кр. 1,8 0,5 0,3 0,8 1,2 0,9 0,7 0,6 0,6 3,1 3,1
Ленинградская обл. 0,3 0,2 0,4 2,3 0,2 3,1 2,6 1,1 1,7 1,2 3,1
Нижегородская обл. 2,0 0,9 0,6 1,2 0,3 1,2 0,8 1,0 3,0 1,6 3,0

 


Показатели pα для пары Явка+Власть
Субъект \ Год 1999 2000 2003 2004 2007 2008 2011 2012 2016 2018 Max
Татарстан 1,3 0,7 1,9 4,3 8,6 48,4 43,3 45,5 108,5 54,6 108,5
Башкортостан 2,3 0,9 0,1 60,4 23,0 57,7 23,0 20,3 54,4 38,4 60,4
Дагестан 1,0 5,9 8,2 40,1 16,0 25,3 15,1 22,9 54,2 50,9 54,2
Кабардино-Балкария 1,4 4,2 9,3 9,8 9,9 45,9 4,3 9,9 4,7 0,5 45,9
Краснодарский кр. 2,0 0,6 0,9 1,0 1,0 14,9 4,5 5,0 4,1 28,2 28,2
Кемеровская обл. 0,7 1,0 0,4 4,1 6,1 20,5 5,7 9,4 17,7 23,0 23,0
Карачаево-Черкесия 0,7 0,7 0,8 0,8 5,2 19,3 3,5 1,6 0,8 6,6 19,3
Мордовия 0,8 0,2 2,5 9,4 8,9 9,9 6,8 4,1 19,2 3,3 19,2
Москва 0,6 0,4 0,3 2,2 1,1 5,7 15,7 0,9 2,4 0,8 15,7
Ставропольский кр. 1,0 0,4 0,3 0,9 2,2 1,1 1,7 1,2 2,2 11,4 11,4
Ростовская обл. 0,1 0,4 0,3 3,8 6,0 10,5 1,6 2,7 9,0 3,6 10,5
Северная Осетия 0,5 1,4 0,4 5,3 5,7 9,9 0,4 1,1 10,4 2,6 10,4
Чечня 6,8 9,7 0,1 1,5 0,0 0,4 0,0 1,3 9,7
Саратовская обл. 2,4 1,8 1,1 5,0 2,6 5,3 2,7 8,4 5,0 9,4 9,4
Ямало-Ненецкий авт.окр. 0,4 0,3 0,3 1,1 0,7 3,3 1,9 7,7 3,1 2,2 7,7
Ингушетия 0,1 0,1 1,2 0,9 6,5 0,6 1,0 3,6 1,1 0,5 6,5
Тюменская обл. 0,3 0,2 1,1 2,4 4,2 6,3 2,9 2,5 2,4 6,1 6,3
Московская обл. 0,6 2,4 0,9 2,4 5,2 3,6 0,8 1,6 3,3 1,8 5,2
Воронежская обл. 0,7 0,6 0,6 1,3 1,1 2,8 1,7 0,9 4,6 4,0 4,6
Смоленская обл. 0,2 0,5 0,9 0,2 4,4 4,2 1,0 1,3 0,5 1,2 4,4
Брянская обл. 2,2 0,9 0,6 0,3 0,9 1,1 1,3 1,5 3,8 4,2 4,2
Орловская обл. 0,1 1,7 0,6 0,7 0,6 3,5 0,3 0,6 1,2 0,9 3,5
Приморский кр. 0,1 1,3 1,2 1,1 1,4 1,1 1,8 3,2 0,9 0,7 3,2
Ленинградская обл. 0,3 0,1 2,4 1,5 0,2 1,8 3,2 0,9 2,0 1,0 3,2
Томская обл. 0,5 1,8 0,4 0,8 1,0 0,1 0,5 0,8 3,1 1,3 3,1
Астраханская обл. 0,4 1,6 0,4 3,1 0,0 0,7 1,2 0,3 1,5 0,9 3,1
Чукотский авт.окр. 0,5 0,6 0,5 0,0 0,2 3,1 0,6 0,8 0,1 1,3 3,1
Нижегородская обл. 0,5 0,9 0,3 0,9 0,2 0,6 1,0 0,6 3,1 2,0 3,1
Тамбовская обл. 0,3 2,0 0,2 2,5 0,5 3,1 2,0 1,0 2,8 1,4 3,1

 


Comments

( 31 комментарий — Оставить комментарий )
corbulon
17 мар, 2019 16:52 (UTC)
Красиво!
tov_y
17 мар, 2019 17:05 (UTC)
Сам обалдел! Я сначала пытался такую же штуку проделывать со сгустками (для них тоже можно применять схему Бернулли, только пока оно не публиковалось). Но оказалось, что там пары нифига не канают. А тут зачётно зашли…
(без темы) - corbulon - 17 мар, 2019 17:11 (UTC) - Развернуть
(без темы) - tov_y - 17 мар, 2019 17:14 (UTC) - Развернуть
(без темы) - corbulon - 17 мар, 2019 19:15 (UTC) - Развернуть
(без темы) - tov_y - 17 мар, 2019 21:33 (UTC) - Развернуть
corbulon
17 мар, 2019 19:20 (UTC)
О терминологии. Распределение хи-квадрат Пирсона есть результат рассмотрения именно полиномиального распределения, при котором рассматриваются все m-исходов.
У вас рассмотрена корреляция распределений, что здорово само по себе.
Но вообще надо спросить Александа Шеня, он профи в этом и есть в ЖЖ.
tov_y
17 мар, 2019 20:25 (UTC)
Критерий Пирсона предполагает нормальное распределение отклонений. Двух-трехзначые десятичные показатели значимости означают, что мы находимся на самом хвосте распределения, где статистика не являются гауссовой ни при каких разумных объёмах выборки. Поэтому я и перешёл от асимптотической статистики хи-квадрат к точной статистике схемы Бернулли.
tov_y
18 мар, 2019 00:15 (UTC)
Тут я вот о чём подумал… А правильно ли я считаю значимость для пар?
По каким исходам надо суммировать триномиальные члены?
Сейчас я суммировал только по тем вариантам, в которых и пар круглых чисел не меньше, чем наблюдается, и одиночных круглых – тоже.
Но можно суммировать и по-другому, учитывая все варианты, в которых некруглых чисел будет не больше, чем наблюдается.
Моя интуиция бунтует против второго вариант, но моделирование показывает, что, скорее всего, правилен именно он…
a_shen
24 мар, 2019 13:35 (UTC)
Всё-таки стоило бы написать подробнее, как именно происходит тестирование - что считается круглым и т.п., на таком уровне, чтобы желающие могли воспроизвести конкретные числа в результатах по исходным данным...
tov_y
24 мар, 2019 14:31 (UTC)
Поскольку этот пост продолжает уже поднимавшуюся тему, я не особо повторялся, ограничившись ссылкой и краткой напоминалочкой.
Давайте чуть поподробнее.
Для каждых федеральных выборов для каждого субъекта федерации рассматриваются три целых электоральных характеристики: количество избирателей, принявших участие в выборах, промилле общей явки и промилле результата партии/кандидата власти (промилле вычисляется просто домножением соответствующей дробной величины на 1000 и округлением до ближайшего целого).
Из рассмотрения исключаются участки, где участие в выборах приняли менее 100 человек, а при рассмотрении явки – и те участки, где она составила ровно 100%.
Предмет анализа – количество круглых чисел, регистрация которых в каждом испытании (на каждом участке) трактуется как успех. При рассмотрении характеристик по одной, как я это делал раньше, получается просто схема Бернулли. Если отношение числа успехов k к числу испытаний n превышает p=0.1 можно подозревать фальсификации, обусловленные психологической склонностью человека выдумывать круглые числа чаще некруглых и некоторыми иными причинами.
Принимая как нулевую гипотезу предположение о том, что данное значение k/n возникло в результате естественных причин, мы легко высчитываем для неё значимость α, просто суммируя вероятности всех исходов с k большим или равным наблюдаемому.
Преимущества подхода – абсолютная точность результата (не используется никаких асимптотических положений) и простая качественная интерпретация результата (при случайных исходных данных значимости равномерно распределяются между 0 и 1). Если в стране без малого 100 субъектов, то 1 раз на выборах может встретиться α≈1/100, а все меньшие значимости – палево.
То, чему был посвящён пост, это попытка распространить подход на парные комбинации электоральных характеристик (например, промилле явки и результата), рассматривая триномиальную схему испытаний, в которой регистрируются k парных успехов (обе рассматриваемые характеристики на участке – круглые), l одиночных успехов (круглая лишь какая-то одна характеристика) и m парных неудач (нет круглых), где k+l+m=n.
Фундаментальная проблем в том, что не удаётся корректно ввести порядок на плоскости (k,l). Если суммировать вероятности исходов лишь по значениям k и l, большим или равным наблюдаемым, как я это сделал в посте, то результат, увы, неинтерпретируем. Здесь значимости для случайных исходных данных уже не являются равномерно распределенными между 0 и 1. Необходим некоторый «курс обмена» парных успехов на одиночные и обратно, который бы определил границу той области, по которой надо суммировать вероятности исходов.
В асимптотических критериях это получается автоматически. Например, для критерия Пирсона можно посчитать статистику S=(kpn)2/pn+(lqn)2/qn+(mrn)2/rn, где p=0.01, q=0.18 и r=0.81 – вероятности 2, 1 и 0 удач соответственно. S подчиняется распределению χ2 с 2 степенями свободы. При этом значимости для случайных исходных данных распределены приблизительно равномерно между 0 и 1, что сохраняет всю систему интерпретаций, действовавших при рассмотрении характеристик по одной. И даже палятся примерно те же самые субъекты и выборы, кого я раскрасил в таблицах, и примерно так же.
Конечно, надо что-то делать с двусторонним характером критерия. Но тут можно либо удвоить получаемую α, либо, вычисляя статистику, складывать не квадраты отклонений, а сами отклонения с правильным знаком (вот только я пока никак не соображу, как их правильно нормировать) – по идее вместо χ2 должен обычный получиться Гаусс.
Беда в другом: результат перестаёт быть точным, т.к. нормальности отклонений нет. Причём её очень-очень нет. В одномерном случае, применяя асимптотические методы, я наблюдал, как для особо злобных фальсификаций α оказывалась занижена аж на 20 порядков. И думаю, что это – не предел.

Edited at 2019-03-24 11:32 (UTC)
(без темы) - a_shen - 24 мар, 2019 14:35 (UTC) - Развернуть
(без темы) - tov_y - 24 мар, 2019 14:52 (UTC) - Развернуть
(без темы) - a_shen - 24 мар, 2019 14:44 (UTC) - Развернуть
(без темы) - tov_y - 24 мар, 2019 15:05 (UTC) - Развернуть
(без темы) - a_shen - 24 мар, 2019 15:10 (UTC) - Развернуть
(без темы) - tov_y - 24 мар, 2019 16:09 (UTC) - Развернуть
(без темы) - a_shen - 24 мар, 2019 16:32 (UTC) - Развернуть
(без темы) - tov_y - 24 мар, 2019 16:41 (UTC) - Развернуть
(без темы) - a_shen - 24 мар, 2019 22:39 (UTC) - Развернуть
(без темы) - tov_y - 24 мар, 2019 23:03 (UTC) - Развернуть
thrasymedes
17 мар, 2019 19:47 (UTC)
"...парные комбинации: Участие–Явка, Явка–Власть, Власть–Участие..."
Пардон, Вы, наверное, это писали раньше: чем "участие" отличается от "явки" и что такое в данном случае "Власть" ?
tov_y
17 мар, 2019 20:06 (UTC)
Рассматриваются три электоральных характеристики:
— количество избирателей, принявших участие в выборах;
— явка избирателей – доля зарегистрированных избирателей, принявших участие в выборах (получивших бюллетень);
— результат власти – доля избирателей, поддержавших партию/кандидата власти, измеряемая от числа принявших участие в голосовании.
Две последних превращаются в целые числа умножением на 1000 и округлением до ближайшего целого.
thrasymedes
17 мар, 2019 21:42 (UTC)
Спасибо !
А почему не использовать для "явки" и "власти" не доли, а полное число избирателей ?
Вы предполагаете, что "рисуется" именно доля ?
(без темы) - tov_y - 17 мар, 2019 21:46 (UTC) - Развернуть
thrasymedes
17 мар, 2019 21:58 (UTC)
Правильно ли я понимаю, что если по отдельным параметрам вероятности подозрительные, то при использовании сразу двух параметров вполне может получиться исключительная или невероятная ?
tov_y
17 мар, 2019 22:20 (UTC)
Неправильный вопрос :)
Полуправильный вопрос был бы таков: всегда ли, если по разным характеристикам результат выглядит плохо, то он будет ещё хуже по их комбинации?
Ответ, разумеется, положительный.
А совсем правильный вопрос: как соотносится сумма pα, полученных порознь, с тем pα, которое получится для пары?
Понято, что если мухлевали на одних и тех же участках, скажем, и по явке, и по результату, то получится совсем ужас – результат для будет больше суммы отдельных. А вот если на разных… Тут я точноно ответа не знаю, но ситуацию, когда получается чуть меньше суммы, видел.
Lev Krylenkov
24 мар, 2019 15:04 (UTC)
круглые числа
Замечательный анализ!

Для долей, возможно, лучше смотреть не "круглые", а близость к целому проценту голосов. Зачастую подгонка идет именно к какому-то конкретному проценту. Для простоты можно расстояние до целого процента поделить на 10 зон и попадание в ближайшую зону (т.е. 0,95 до 1,05) считать круглым.

По процентам такой подход ловит больше случаев. Например, Санкт-Петербург 2012 должен был бы показать "невероятность".


Edited at 2019-03-24 12:14 (UTC)
tov_y
24 мар, 2019 15:17 (UTC)
Re: круглые числа
Э… Круглые промилле и целые проценты – это в точности одно и то же.

Подгонка к целевому проценту – называется не рисованием, а сгустками. Ну, так сложилось…
Сгустки тоже можно ловить через схему Бернулли. Днями наверно сделаю пост на эту тему. Но там принципиальные сложности в качественной интерпретацией показателей значимости, т.к. на входе имеется стохастическое размытие данные, а на выходе – вычисление экстремумов по всем положениям сгустка. И то и другое смещает значимость.
Для Санкт-Петербурга в 2012 г. по результату кандидата власти есть сгусток на 79,9%. Некруглый – oops… И слабенький – на уровне "подозрительно". Есть ещё на 70,0%. Таки круглый, но он ещё слабее.
Подскажите: где искать "невероятное"?
Lev Krylenkov
24 мар, 2019 15:43 (UTC)
Re: круглые числа
Спасибо за объяснения, интересно будет посмотреть исследование про сгустки. Невероятное искать в 27 ТИКе :) Я понимаю, что вы исследуете на уровне регионов, поэтому локальные невероятности могут размываться.
Re: круглые числа - tov_y - 24 мар, 2019 16:19 (UTC) - Развернуть
( 31 комментарий — Оставить комментарий )