?

Log in

No account? Create an account

Previous Entry | Next Entry

Хотя эта тема уже много раз обсуждалось, никто, как мне кажется, пока не делал двух вещей – не смотрели данные по округам вместо субъектов федерации и не пытались применить эту же методику для ловли сгустков.

Базовая гипотеза, лежащая в основе метода состоит в том, что у целых чисел, разброс значений которых измеряется многими десятками и даже сотнями единиц, последняя цифра должна принимать все возможные значения с равной вероятностью. Однако равновероятность вовсе не означает равной частоты в конечной выборке, поскольку возможны и неизбежны случайные отклонения. Понять, насколько они могут быть велики, позволяет критерий согласия Пирсона. Как и любой метод проверки гипотез, он основывается на вычислении по выборке статистики – величины, для которой известно теоретическое распределение.
В случае проверки на соответствие гипотезе равновероятности частоты цифр статистика имеет очень простой вид: S = d·n·Σi=0d–1(ni/n–1/d)2, где ni – сколько раз в конце числа стоит цифра i, d = 10 – количество используемых цифр, а n = Σi=0d–1ni – объём выборки.
Если все ni > 10, то можно полагать, что рассматривая статистика подчиняются распределению χ2 с d–1 степенями свободы (1 степень свободы расходуется на определение средней частоты) независимо от распределения отклонений частот ni от 1/d (если же оно нормально, то данное ограничение будет излишним).
Чем больше значение статистики, тем менее вероятным является возникновение отклонений в результате действия случайностей. При этом вероятность совершить ошибку первого рода, т.е. отвергнуть верную (несмотря на наблюдаемые отклонения) гипотезу, задаётся уровнем значимости α, который можно вычислить, либо по таблицам распределения χ2, либо с помощью стандартных функций в статистических пакетах. Например, в Excel: α = Хи2Расп(S;d–1).
Для теста оказались продуктивны следующие три величины: число избирателей, пришедших на участки, явка и относительный результат партии власти. Две последние величины, являющиеся дробями, превращались в целые числа путём умножения на 1000 и округлением до ближайшего целого (т.е. рассматривалось равномерность распределения десятых долей процента).
Из рассмотрения исключались участки, где зарегистрировано менее 100 избирателей, т.к. здесь нельзя гарантировать достаточно широко разброса анализируемых величин. Кроме того, для явки из рассмотрения исключались участки, где проголосовали все избиратели (весьма вероятно, что на этих участках списки не составлялись заранее, а заполнялись по факту прихода избирателей).
Поскольку для некоторых округов получаются невообразимо маленькие вероятности, далее вместо уровня значимости α используется величина pα = –lg α. Относиться к ней рекомендуется следующим образом. Если она принимает значения в районе 3, следует насторожиться, если в районе 4 – поинтересоваться, «где посадки», а если 5 и более – вызывать экзорциста, ибо юридические законы здесь уже бессильны.

Вот топ-25 округов–лидеров (напомню, что всего округов, если не считать зарубежные участки, 225, т.е. это – 1/9 часть) по величине pα (приведён максимум по трём рассматриваемым величинам): 29 Набережно-Челнинский (Татарстан) – 38,4, 27 Московский (Татарстан) – 20,9, 36 Чеченский (Чечня) – 17,8, 11 Центральный (Дагестан) – 17,0, 12 Южный (Дагестан) – 14,0, 30 Альметьевский (Татарстан) – 11,9, 6 Нефтекамский (Башкортостан) – 11,8, 8 Стерлитамакский (Башкортостан) – 11,8, 3 Уфимский (Башкортостан) – 11,3, 163 Саратовский (Саратовская область) – 10,4, 26 Приволжский (Татарстан) – 9,2, 10 Северный (Дагестан) – 8,8, 23 Мордовский (Мордовия) – 8,3, 25 Северо-Осетинский (Алания) – 7,9, 101 Кемеровский (Кемеровская область) – 7,6, 104 Новокузнецкий (Кемеровская область) – 5,4, 5 Белорецкий (Башкортостан) – 5,3, 186 Заводоуковский (Тюменская область) – 4,5, 165 Балашовский (Саратовская область) – 4,0, 102 Прокопьевский (Кемеровская область) – 3,5, 31 Центральный (Татарстан) – 3,5, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 3,5, 28 Нижнекамский (Татарстан) – 3,3, 49 Туапсинский (Краснодарский край) – 3,2, 13 Ингушский (Ингушетия) – 2,8.

Примечательны следующие два момента.
Во-первых, в республиках и областях, отличившихся в деле рисованию результатов, есть округа, благополучно прошедшие тест: 4 Благовещенский (Башкортостан) – 1,6, 7 Салаватский (Башкортостан) – 2,2, 103 Заводский (Кемеровская область) – 2,6, 166 Энгельсский (Саратовская область) – 1,6, 164 Балаковский (Саратовская область) – 0,5 и 185 Тюменский (Тюменская область) – 1,8.
Во-вторых, хотя в большинстве случаев наиболее распространённая последняя цифра – «0», есть несколько ОИК, для которых это не так: 36 Чеченский и 16 Карачаево-Черкесский – «5» для результата лидера, 163 Саратовский и 165 Балашовский– «2» для результата лидера и «3» для явки, 13 Ингушский – «3» для явки.

А теперь – к сгусткам.
Люди, рисующие результаты, рисуют их, естественно, в десятичной системе счисления. Поэтому если выбираются просто психологически притягательные значения, то для тех же величин в других системах счисления будет получаться равномерное распределение последней цифры. А вот если массово рисуется одно и то же целевое число, то и после смены системы счисления тест будет провален точно так же, как он был провален в десятичной системе. Я для каждой из величин рассмотрел основания d от 7 до 13 и брал максимум полученных pαd (значение d = 10, разумеетмся, не участвовало).
Для числа пришедших тест есть 3 округа–лидера: 125 Сергиево-Посадский (Московская область) – 4,0, 11 Центральный (Дагестан) – 3,1 и 73 Котласский (Архангельская область) – 3,0. Для явки их уже 8: 163 Саратовский (Саратовская область) – 10,9, 29 Набережно-Челнинский (Татарстан) – 5,7, 165 Балашовский (Саратовская область) – 5,3, 12 Южный (Дагестан) – 4,6, 28 Нижнекамский (Татарстан) – 4,3, 30 Альметьевский (Татарстан) – 3,9, 183 Тульский (Тульская область) – 3,8 и 101 Кемеровский (Кемеровская область) – 3,3. Наконец, для результата лидера их становится 12: 163 Саратовский (Саратовская область) – 18,0, 12 Южный (Дагестан) – 14,4, 36 Чеченский (Чечня) – 8,8, 16 Карачаево-Черкесский (Карачаево-Черкесия) – 6,1, 13 Ингушский (Ингушетия) – 5,9, 11 Центральный (Дагестан) – 5,7, 8 Стерлитамакский (Башкортостан) – 5,5, 26 Приволжский (Татарстан) – 5,4, 185 Тюменский (Тюменская область) – 5,0, 165 Балашовский (Саратовская область) – 4,1, 91 Ивановский (Ивановская область) – 4,1, 198 Ленинградский (Город Москва) – 3,3.
Возможно, здесь критерии следует сделать помягче, т.к. рассматриваются 6 значений статистики для каждой величины. Но всё-таки Саратовская и Тюменская области, Татарстан, Дагестан, Чечня, Карачаево-Черкесия и Ингушетия спались вполне отчётливо – в них есть округа с pαd > 4.
Кроме того, в список ОИК с выявленными сгустками вошли все те, для которых любимая последняя цифра была не «0».

Метки:

Comments

( 56 комментариев — Оставить комментарий )
oude_rus
23 ноя, 2016 10:00 (UTC)
//Две последние величины, являющиеся дробями, превращались в целые числа путём умножения на 1000 и округлением до ближайшего целого (т.е. рассматривалось равномерность распределения десятых долей процента).//

Но зачем??? во всех таблицах присутствуют именно числа человеков; проценты вычисляются потом!
tov_y
23 ноя, 2016 10:14 (UTC)
Целевым показателем фальсификации могут быть именно проценты. В этом случае сначала выдумывают красивые проценты, а потом из них лепят человеков.

Кроме того, на начальном этапе я рассматривал много других показателей, в т.ч. число проголосовавших "за" и "против". Непродуктивно. Эти величины рисуются без огонька и энтузиазма. Так что я решил ограничиться тремя упомянутыми. Да и число пришедших выстрелило всего два раза: ОИК Северо-Осетинский (Алания) – pα=7,9 и ОИК 104 Новокузнецкий (Кемеровская область) – pα=5,4. А вот проценты стреляют длинными очередями, не щадя тов.Пирсона.
oude_rus
23 ноя, 2016 11:19 (UTC)
Я не понял аргумента.
Разумеется, один из показателей целевых фальсификаций -- это рисование целого процента. Но вы же не его рассматриваете, верно?

В скобках: именно так и получается -- сначала рисуют красивый процент, а потом под него подгоняют числа избирателей, которые в большинстве случаев оказываются совсем не круглыми. Мы все это в статье детально анализировали.
(без темы) - tov_y - 23 ноя, 2016 11:48 (UTC) - Развернуть
(без темы) - oude_rus - 23 ноя, 2016 12:03 (UTC) - Развернуть
(без темы) - tov_y - 23 ноя, 2016 12:09 (UTC) - Развернуть
rusty_spur
23 ноя, 2016 13:12 (UTC)
Не знаю, я бы смотрел все таки последнюю цифру "числа человеков", в противном случае будет произвол, кто на 1000 умножит, кто на 100, а кто и на 50...
oude_rus
23 ноя, 2016 13:16 (UTC)
я просто сходу не понял, что именно делалось, поскольку ключ спрятан внутри текста в скобки:
//рассматривалось равномерность распределения десятых долей процента//
(без темы) - rusty_spur - 23 ноя, 2016 13:19 (UTC) - Развернуть
(без темы) - oude_rus - 23 ноя, 2016 13:29 (UTC) - Развернуть
(без темы) - rusty_spur - 23 ноя, 2016 14:07 (UTC) - Развернуть
(без темы) - oude_rus - 23 ноя, 2016 14:43 (UTC) - Развернуть
(без темы) - tov_y - 23 ноя, 2016 17:01 (UTC) - Развернуть
(без темы) - oude_rus - 23 ноя, 2016 21:53 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 05:41 (UTC) - Развернуть
(без темы) - rusty_spur - 24 ноя, 2016 09:56 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 11:41 (UTC) - Развернуть
corbulon
24 ноя, 2016 06:28 (UTC)
Здорово, что у вас с процентами получилось!
Когда-то, очень давно, кажется в 2008, я повозился с РПЦ в процентах, собственно с этого и начинал возню с РПЦ, но ничего интересного с ходу не нашел, а дальше заленился. Оказывается зря.
Немного не понял, что у вас получилось с другими модулями, не 10?
Там РПЦ всегда законное или все же кое-где есть криминал? А то фраза "после смены системы счисления тест будет провален" двусмысленная
tov_y
24 ноя, 2016 06:37 (UTC)
Мур-р-рси! Доброе слово и тигрёнку приятно :)

Одна и та же цифра в конце чисел может доминировать по двум причинам: либо рисуют красивые проценты (на практике просто целые, десятых - ноль), но разные, либо рисуют прям-таки один и тот же процент, но некрасивый (привет Саратову). В первом случае пирсоновский тест будет провален в десятичной системе, но пройден в системах по другим основаниям, во втором случае тест будет провален в любой системе счисления. Дописал в текст по этому поводу фразу "точно так же, как он был провален в десятичной системе" во избежание двусмысленностей.
corbulon
24 ноя, 2016 06:56 (UTC)
А вероятность (по процентам) у вас всегда <<1, или есть и близкие к 1 ?
Если процент одинаковый, то РПЦ ультраравномерно, w близко к единице. Но критерий двухстронний и
w=1-0.0001=0.9999
также криминально, как w=0.0001.

"Тест провален" тоже выражение не ах, пахнет субъективностью - для какого ожидания он провален.
Лучше определенное: "тест указал на неслучайность РПЦ" или "не указал... "
ЗЫ
А еще можно делать тест по двум последним цифрам, там кое-что новое выползает. Например в Пензе выяснилось, что голосуют на дому чаще всего по 50 человек, больше чем по 49 и 51 вместе взятых.

Edited at 2016-11-24 07:05 (UTC)
(без темы) - tov_y - 24 ноя, 2016 07:06 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 07:16 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 12:58 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:35 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 15:32 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:40 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 16:42 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:48 (UTC) - Развернуть
(без темы) - tov_y - 24 ноя, 2016 16:49 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:57 (UTC) - Развернуть
(без темы) - corbulon - 24 ноя, 2016 16:52 (UTC) - Развернуть
corbulon
27 ноя, 2016 09:20 (UTC)
А всё-таки, встречались или нет случаи, когда при модуле не равном десяти были низкие вероятности по хи-квадрат?
Из текста это непонятно....

Нельзя ли построить график и посмотреть корреляцию между W по РПЦ и относительным вкладом фальшака в регионах или округах.?
tov_y
27 ноя, 2016 09:49 (UTC)
1) Встречались, хотя это и не должно быть понятно, т.к. меня оно ни разу не интересовало. Вот лидеры:
p(1–αmax-7)=4,7 (ОИК 69 Хабаровский, Хабаровский край, явка)
p(1–αmax-8)=3,5 (ОИК 28 Нижнекамский, Татарстан, результат)
p(1–αmax-9)=3,9 (ОИК 50 Сочинский, Краснодарский край, результат)
p(1–αmax-10)=3,0 (ОИК 170 Березовский, Свердловская область, результат)
p(1–αmax-11)=2,6 (ОИК 174 Серовский, Свердловская область, пришло)
p(1–αmax-12)=3,7 (ОИК 15 Калмыцкий, Калмыкия, результат)
p(1–αmax-13)=2,6 (ОИК 64 Арсеньевский, Приморский край, результат)

2) А зачем? Там, где статистика лежит в разумных пределах, она ничего не скажет про фальшак. А там, где рисовали, и без корреляций видно, что реконструкции эти регионы не поддаются или почти не поддаются. Правда, это не всегда видно на уровне округов, но на уровне территорий-то это видно.

Edited at 2016-11-27 09:51 (UTC)
corbulon
27 ноя, 2016 10:13 (UTC)
1. Для меня это необъяснимая сесация. Тоже посмотрю. (Березовский с модулем 10 это ошибка?)

2. Вам это видно, а остальным полезно наглядно показать, что там, где пусть и по грубым оценкам, но есть фальшак, там и РПЦ дает низкие W
(без темы) - tov_y - 27 ноя, 2016 10:38 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 10:48 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 10:58 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 11:30 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 11:43 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 11:51 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 12:06 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 12:17 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 12:20 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 12:30 (UTC) - Развернуть
corbulon
27 ноя, 2016 12:09 (UTC)
По п.2.
Мечтаю увидеть такой рисунок:
по оси Х номер региона (или хуже ОИК),
- по одной оси Y - процент фальшивой добавки к явке (по вашей методе, по Шпильскинской, или по НДБ - неважно; по России в целом это 12 млн к 52 млн),
- а по второй оси - lgW
Как-то так...
(без темы) - tov_y - 27 ноя, 2016 12:19 (UTC) - Развернуть
(без темы) - corbulon - 27 ноя, 2016 12:27 (UTC) - Развернуть
(без темы) - tov_y - 27 ноя, 2016 12:31 (UTC) - Развернуть
termometr
28 ноя, 2016 11:07 (UTC)
Вот топ-25 округов–лидеров (напомню, что всего округов, если не считать зарубежные участки, 225, т.е. это – 1/9 часть) по величине pα
***
А можно еще позанудничать?
Вот вы поделили подмножества на 2 выборки "пошедших" и "не прошедших" критериальный тест. Однако, величине pα ничего не говорит о величине и статистической значимости отличий итогов голосования в выборках друг от друга и от подмножества в целом. Проводили такое сравнение?

tov_y
28 ноя, 2016 11:11 (UTC)
Там, где тест провален, никаких "итогов голосования" попросту нет, а есть художественное творчество по рисованию красивых или одобренных цифр. Так что сравнивать не с чем.
termometr
28 ноя, 2016 11:20 (UTC)
почему не с чем? Более того, таким образом, сравнением итогов по выборкам, можно убедиться в обоснованности самого критерия тестирования и вывода о том, что: "есть художественное творчество по рисованию красивых или одобренных цифр".
(без темы) - tov_y - 28 ноя, 2016 11:38 (UTC) - Развернуть
(без темы) - termometr - 28 ноя, 2016 11:48 (UTC) - Развернуть
(без темы) - tov_y - 28 ноя, 2016 12:08 (UTC) - Развернуть
(без темы) - termometr - 28 ноя, 2016 12:11 (UTC) - Развернуть
(без темы) - tov_y - 28 ноя, 2016 12:12 (UTC) - Развернуть
( 56 комментариев — Оставить комментарий )

Latest Month

Март 2018
Вс Пн Вт Ср Чт Пт Сб
    123
45678910
11121314151617
18192021222324
25262728293031
Разработано LiveJournal.com
Designed by Lilia Ahner