?

Log in

Previous Entry | Next Entry

Хотя эта тема уже много раз обсуждалось, никто, как мне кажется, пока не делал двух вещей – не смотрели данные по округам вместо субъектов федерации и не пытались применить эту же методику для ловли сгустков.

Базовая гипотеза, лежащая в основе метода состоит в том, что у целых чисел, разброс значений которых измеряется многими десятками и даже сотнями единиц, последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Понять, насколько они могут быть велики, позволяет критерий согласия Пирсона. Как и любой метод проверки гипотез, он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие гипотезе равновероятности частоты цифр статистика имеет очень простой вид: S = d·n·Σi=0d–1(ni/n–1/d)2, где ni – сколько раз в конце числа стоит цифра i, d = 10 – количество используемых цифр, а n = Σi=0d–1ni – объём выборки.
Если все ni > 10, то можно полагать, что рассматривая статистика подчиняются распределению χ2 с d–1 степенями свободы (1 степень свободы расходуется на определение средней частоты) независимо от распределения отклонений частот ni от 1/d (если же оно нормально, то данное ограничение будет излишним).
Чем больше значение статистики, тем менее вероятным является возникновение отклонений в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, задаётся уровнем значимости α, который можно вычислить, либо по таблицам распределения χ2, либо с помощью стандартных функций в статистических пакетах. Например, в Excel: α = Хи2Расп(S;d–1).
Для теста оказались продуктивны следующие три величины: число избирателей, пришедших на участки, явка и относительный результат партии власти. Две последние величины, являющиеся дробями, превращались в целые числа путём умножения на 1000 и округлением до ближайшего целого (т.е. рассматривалось равномерность распределения десятых долей процента).
Из рассмотрения исключались участки, где зарегистрировано менее 100 избирателей, т.к. здесь нельзя гарантировать достаточно широко разброса анализируемых величин. Кроме того, для явки из рассмотрения исключались участки, где проголосовали все избиратели (весьма вероятно, что на этих участках списки не составлялись заранее, а заполнялись по факту прихода избирателей).
Поскольку для некоторых округов получаются невообразимо маленькие вероятности, далее вместо уровня значимости α используется величина pα = –lg α. Относиться к ней рекомендуется следующим образом. Если она принимает значения в районе 3, следует насторожиться, если в районе 4 – поинтересоваться, «где посадки», а если 5 и более – вызывать экзорциста, ибо юридические законы здесь уже бессильны.

Вот топ-25 округов–лидеров (напомню, что всего округов, если не считать зарубежные участки, 225, т.е. это – 1/9 часть) по величине pα (приведён максимум по трём рассматриваемым величинам): 29 Набережно-Челнинский (Татарстан) – 38,4, 27 Московский (Татарстан) – 20,9, 36 Чеченский (Чечня) – 17,8, 11 Центральный (Дагестан) – 17,0, 12 Южный (Дагестан) – 14,0, 30 Альметьевский (Татарстан) – 11,9, 6 Нефтекамский (Башкортостан) – 11,8, 8 Стерлитамакский (Башкортостан) – 11,8, 3 Уфимский (Башкортостан) – 11,3, 163 Саратовский (Саратовская область) – 10,4, 26 Приволжский (Татарстан) – 9,2, 10 Северный (Дагестан) – 8,8, 23 Мордовский (Мордовия) – 8,3, 25 Северо-Осетинский (Алания) – 7,9, 101 Кемеровский (Кемеровская область) – 7,6, 104 Новокузнецкий (Кемеровская область) – 5,4, 5 Белорецкий (Башкортостан) – 5,3, 186 Заводоуковский (Тюменская область) – 4,5, 165 Балашовский (Саратовская область) – 4,0, 102 Прокопьевский (Кемеровская область) – 3,5, 31 Центральный (Татарстан) – 3,5, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 3,5, 28 Нижнекамский (Татарстан) – 3,3, 49 Туапсинский (Краснодарский край) – 3,2, 13 Ингушский (Ингушетия) – 2,8.

Примечательны следующие два момента.
Во-первых, в республиках и областях, отличившихся в деле рисованию результатов, есть округа, благополучно прошедшие тест: 4 Благовещенский (Башкортостан) – 1,6, 7 Салаватский (Башкортостан) – 2,2, 103 Заводский (Кемеровская область) – 2,6, 166 Энгельсский (Саратовская область) – 1,6, 164 Балаковский (Саратовская область) – 0,5 и 185 Тюменский (Тюменская область) – 1,8.
Во-вторых, хотя в большинстве случаев наиболее распространённая последняя цифра – «0», есть несколько ОИК, для которых это не так: 36 Чеченский и 16 Карачаево-Черкесский – «5» для результата лидера, 163 Саратовский и 165 Балашовский– «2» для результата лидера и «3» для явки, 13 Ингушский – «3» для явки.

А теперь – к сгусткам.
Люди, рисующие результаты, рисуют их, естественно, в десятичной системе счисления. Поэтому если выбираются просто психологически притягательные значения, то для тех же величин в других системах счисления будет получаться равномерное распределение последней цифры. А вот если массово рисуется одно и то же целевое число, то и после смены системы счисления тест будет провален точно так же, как он был провален в десятичной системе. Я для каждой из величин рассмотрел основания d от 7 до 13 и брал максимум полученных pαd (значение d = 10, разумеетмся, не участвовало).
Для числа пришедших тест есть 3 округа–лидера: 125 Сергиево-Посадский (Московская область) – 4,0, 11 Центральный (Дагестан) – 3,1 и 73 Котласский (Архангельская область) – 3,0. Для явки их уже 8: 163 Саратовский (Саратовская область) – 10,9, 29 Набережно-Челнинский (Татарстан) – 5,7, 165 Балашовский (Саратовская область) – 5,3, 12 Южный (Дагестан) – 4,6, 28 Нижнекамский (Татарстан) – 4,3, 30 Альметьевский (Татарстан) – 3,9, 183 Тульский (Тульская область) – 3,8 и 101 Кемеровский (Кемеровская область) – 3,3. Наконец, для результата лидера их становится 12: 163 Саратовский (Саратовская область) – 18,0, 12 Южный (Дагестан) – 14,4, 36 Чеченский (Чечня) – 8,8, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 6,1, 13 Ингушский (Ингушетия) – 5,9, 11 Центральный (Дагестан) – 5,7, 8 Стерлитамакский (Башкортостан) – 5,5, 26 Приволжский (Татарстан) – 5,4, 185 Тюменский (Тюменская область) – 5,0, 165 Балашовский (Саратовская область) – 4,1, 91 Ивановский (Ивановская область) – 4,1, 198 Ленинградский (Город Москва) – 3,3.
Возможно, здесь критерии следует сделать помягче, т.к. рассматриваются 6 значений статистики для каждой величины. Но всё-таки Саратовская и Тюменская области, Татарстан, Дагестан, Чечня, Карачаево-Черкесия и Ингушетия спались вполне отчётливо – в них есть округа с pαd > 4.
Кроме того, в список ОИК с выявленными сгустками вошли все те, для которых любимая последняя цифра была не «0».

Метки:

Comments

( 56 комментариев — Оставить комментарий )
oude_rus
23 ноя, 2016 10:00 (UTC)
//Две последние величины, являющиеся дробями, превращались в целые числа путём умножения на 1000 и округлением до ближайшего целого (т.е. рассматривалось равномерность распределения десятых долей процента).//

Но зачем??? во всех таблицах присутствуют именно числа человеков; проценты вычисляются потом!
tov_y
23 ноя, 2016 10:14 (UTC)
Целевым показателем фальсификации могут быть именно проценты. В этом случае сначала выдумывают красивые проценты, а потом из них лепят человеков.

Кроме того, на начальном этапе я рассматривал много других показателей, в т.ч. число проголосовавших "за" и "против". Непродуктивно. Эти величины рисуются без огонька и энтузиазма. Так что я решил ограничиться тремя упомянутыми. Да и число пришедших выстрелило всего два раза: ОИК Северо-Осетинский (Алания) – pα=7,9 и ОИК 104 Новокузнецкий (Кемеровская область) – pα=5,4. А вот проценты стреляют длинными очередями, не щадя тов.Пирсона.
oude_rus
23 ноя, 2016 11:19 (UTC)
Я не понял аргумента.
Разумеется, один из показателей целевых фальсификаций -- это рисование целого процента. Но вы же не его рассматриваете, верно?

В скобках: именно так и получается -- сначала рисуют красивый процент, а потом под него подгоняют числа избирателей, которые в большинстве случаев оказываются совсем не круглыми. Мы все это в статье детально анализировали.
tov_y
23 ноя, 2016 11:48 (UTC)
> Разумеется, один из показателей целевых фальсификаций -- это рисование целого процента. Но вы же не его рассматриваете, верно?
Я рассматриваю целый промилле.

> Мы все это в статье детально анализировали.
Да, но если мне не изменяет память, то для субъектов федерации, а не для округов. Считайте, что я вас малость развил и углУбил.
oude_rus
23 ноя, 2016 12:03 (UTC)
А, вот теперь дошло.
умнО!
интересно, почему ме не сделали то же самое, а херачили Монте-Карло для проверки достоверности.
(без темы) - tov_y - 23 ноя, 2016 12:09 (UTC) - Развернуть
rusty_spur
23 ноя, 2016 13:12 (UTC)
Не знаю, я бы смотрел все таки последнюю цифру "числа человеков", в противном случае будет произвол, кто на 1000 умножит, кто на 100, а кто и на 50...
oude_rus
23 ноя, 2016 13:16 (UTC)
я просто сходу не понял, что именно делалось, поскольку ключ спрятан внутри текста в скобки:
//рассматривалось равномерность распределения десятых долей процента//
rusty_spur
23 ноя, 2016 13:19 (UTC)
А почему именно десятых, а не сотых?
oude_rus
23 ноя, 2016 13:29 (UTC)
потому что пики на целых процентах дадут аккурат ноль десятых.
(без темы) - rusty_spur - 23 ноя, 2016 14:07 (UTC) - Развернуть
(без темы) - oude_rus - 23 ноя, 2016 14:43 (UTC) - Развернуть
(без темы) - tov_y - 23 ноя, 2016 17:01 (UTC) - Развернуть
(без темы) - oude_rus - 23 ноя, 2016 21:53 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 05:41 (UTC) - Развернуть
(без темы) - rusty_spur - 24 ноя, 2016 09:56 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 11:41 (UTC) - Развернуть
corbulon
24 ноя, 2016 06:28 (UTC)
Здорово, что у вас с процентами получилось!
Когда-то, очень давно, кажется в 2008, я повозился с РПЦ в процентах, собственно с этого и начинал возню с РПЦ, но ничего интересного с ходу не нашел, а дальше заленился. Оказывается зря.
Немного не понял, что у вас получилось с другими модулями, не 10?
Там РПЦ всегда законное или все же кое-где есть криминал? А то фраза "после смены системы счисления тест будет провален" двусмысленная
tov_y
24 ноя, 2016 06:37 (UTC)
Мур-р-рси! Доброе слово и тигрёнку приятно :)

Одна и та же цифра в конце чисел может доминировать по двум причинам: либо рисуют красивые проценты (на практике просто целые, десятых - ноль), но разные, либо рисуют прям-таки один и тот же процент, но некрасивый (привет Саратову). В первом случае пирсоновский тест будет провален в десятичной системе, но пройден в системах по другим основаниям, во втором случае тест будет провален в любой системе счисления. Дописал в текст по этому поводу фразу "точно так же, как он был провален в десятичной системе" во избежание двусмысленностей.
corbulon
24 ноя, 2016 06:56 (UTC)
А вероятность (по процентам) у вас всегда <<1, или есть и близкие к 1 ?
Если процент одинаковый, то РПЦ ультраравномерно, w близко к единице. Но критерий двухстронний и
w=1-0.0001=0.9999
также криминально, как w=0.0001.

"Тест провален" тоже выражение не ах, пахнет субъективностью - для какого ожидания он провален.
Лучше определенное: "тест указал на неслучайность РПЦ" или "не указал... "
ЗЫ
А еще можно делать тест по двум последним цифрам, там кое-что новое выползает. Например в Пензе выяснилось, что голосуют на дому чаще всего по 50 человек, больше чем по 49 и 51 вместе взятых.

Edited at 2016-11-24 07:05 (UTC)
tov_y
24 ноя, 2016 07:06 (UTC)
Минимум статистики по трём величинам для 209 округов даёт α≥0.9, для 194 - α≥0.99, для 164 α≥0.999.
Критерий, возможно, и двусторонний (не припоминаю я про него этого и, честно говоря, слыхал об этом только от Вас), но проверка гипотезы - всегда дело одностороннее: мы имеем только вероятность совершить ошибку того или иного рода.

Спасибо. Как буду писать статью, воспользуюсь Вашими рекомендациями по строгим формулировкам. Тут и так сойдёт :) Тем более, что уровни значимости я привёл.

Я "на дому" вообще не смотрел. Был неправ. Может, там и одна цифра чего даст…
(без темы) - corbulon - 24 ноя, 2016 07:16 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 12:58 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:35 (UTC) - Развернуть
tov_y
24 ноя, 2016 15:32 (UTC)
"На дому" оказалось плохой величиной. Она часто очень маленькая, так что нельзя ожидать равномерности распределения.
(без темы) - corbulon - 24 ноя, 2016 16:40 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 16:42 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:48 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 16:49 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:57 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:52 (UTC) - Развернуть
corbulon
27 ноя, 2016 09:20 (UTC)
А всё-таки, встречались или нет случаи, когда при модуле не равном десяти были низкие вероятности по хи-квадрат?
Из текста это непонятно....

Нельзя ли построить график и посмотреть корреляцию между W по РПЦ и относительным вкладом фальшака в регионах или округах.?
tov_y
27 ноя, 2016 09:49 (UTC)
1) Встречались, хотя это и не должно быть понятно, т.к. меня оно ни разу не интересовало. Вот лидеры:
p(1–αmax-7)=4,7 (ОИК 69 Хабаровский, Хабаровский край, явка)
p(1–αmax-8)=3,5 (ОИК 28 Нижнекамский, Татарстан, результат)
p(1–αmax-9)=3,9 (ОИК 50 Сочинский, Краснодарский край, результат)
p(1–αmax-10)=3,0 (ОИК 170 Березовский, Свердловская область, результат)
p(1–αmax-11)=2,6 (ОИК 174 Серовский, Свердловская область, пришло)
p(1–αmax-12)=3,7 (ОИК 15 Калмыцкий, Калмыкия, результат)
p(1–αmax-13)=2,6 (ОИК 64 Арсеньевский, Приморский край, результат)

2) А зачем? Там, где статистика лежит в разумных пределах, она ничего не скажет про фальшак. А там, где рисовали, и без корреляций видно, что реконструкции эти регионы не поддаются или почти не поддаются. Правда, это не всегда видно на уровне округов, но на уровне территорий-то это видно.

Edited at 2016-11-27 09:51 (UTC)
corbulon
27 ноя, 2016 10:13 (UTC)
1. Для меня это необъяснимая сесация. Тоже посмотрю. (Березовский с модулем 10 это ошибка?)

2. Вам это видно, а остальным полезно наглядно показать, что там, где пусть и по грубым оценкам, но есть фальшак, там и РПЦ дает низкие W
tov_y
27 ноя, 2016 10:38 (UTC)
1. Нет, не ошибка (проверил руками). А почему смущает? p(1–α)=3 для 678 попыток - не очень страшно. Вот 4,7 - страшно! Правда там, что любопытно, если не исключать из рассмотрения 9 участков (из 418) со 100% явкой, то будет 1,7 вместо 4,7. А если прибавить к списочной численности случайную величину на [-1/2;1/2], то вообще упадём под единицу…

2. Если я говорю, какие регионы не реконструируются и рядом даю таблицу регионов, проваливавших хи-квадрат, то всё что я могу сверх, - лишний раз обратить внимание на совпадение. График здесь будет ненагляден.
(без темы) - corbulon - 27 ноя, 2016 10:48 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 10:58 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 11:30 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 11:43 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 11:51 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 12:06 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 12:17 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 12:20 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 12:30 (UTC) - Развернуть
corbulon
27 ноя, 2016 12:09 (UTC)
По п.2.
Мечтаю увидеть такой рисунок:
по оси Х номер региона (или хуже ОИК),
- по одной оси Y - процент фальшивой добавки к явке (по вашей методе, по Шпильскинской, или по НДБ - неважно; по России в целом это 12 млн к 52 млн),
- а по второй оси - lgW
Как-то так...
tov_y
27 ноя, 2016 12:19 (UTC)
Не для всех регионов возможно посчитать процент фальшка. Какие-то регионы просто выбрасываются как целое.
А зачем Вам именно lgW? Это же неудобная величина…
(без темы) - corbulon - 27 ноя, 2016 12:27 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 12:31 (UTC) - Развернуть
termometr
28 ноя, 2016 11:07 (UTC)
Вот топ-25 округов–лидеров (напомню, что всего округов, если не считать зарубежные участки, 225, т.е. это – 1/9 часть) по величине pα
***
А можно еще позанудничать?
Вот вы поделили подмножества на 2 выборки "пошедших" и "не прошедших" критериальный тест. Однако, величине pα ничего не говорит о величине и статистической значимости отличий итогов голосования в выборках друг от друга и от подмножества в целом. Проводили такое сравнение?

tov_y
28 ноя, 2016 11:11 (UTC)
Там, где тест провален, никаких "итогов голосования" попросту нет, а есть художественное творчество по рисованию красивых или одобренных цифр. Так что сравнивать не с чем.
termometr
28 ноя, 2016 11:20 (UTC)
почему не с чем? Более того, таким образом, сравнением итогов по выборкам, можно убедиться в обоснованности самого критерия тестирования и вывода о том, что: "есть художественное творчество по рисованию красивых или одобренных цифр".
tov_y
28 ноя, 2016 11:38 (UTC)
"Сам критерий" обоснован методами теории вероятности.
termometr
28 ноя, 2016 11:48 (UTC)
Ну, если вы не хотите выявить истинные цели подлых фальсификаторов (а их можно попытаться выявить классическим способом, описанным выше), то и не надо. Только тогда и в приемную экзорциста не звоните попусту, хоть у вас там гугол в квадрате пополам выскочит в значении pα...
(без темы) - tov_y - 28 ноя, 2016 12:08 (UTC) - Развернуть
(без темы) - termometr - 28 ноя, 2016 12:11 (UTC) - Развернуть
(без темы) - tov_y - 28 ноя, 2016 12:12 (UTC) - Развернуть
( 56 комментариев — Оставить комментарий )

Latest Month

Июнь 2017
Вс Пн Вт Ср Чт Пт Сб
    123
45678910
11121314151617
18192021222324
252627282930 
Разработано LiveJournal.com
Designed by Lilia Ahner