emergency
19:34 23-11-2023 О статистике
Я делю статистику на четыре степени засранности

0) Когда у тебя УЖЕ заранее есть мнение по вопросу, и ты находишь статистику (собранную кем-то другим), это мнение подтверждающую
Нулевой уровень, потому что вообще никакого отношения к статистике не имеет то, что ты нашел. И к реальности оно не имеет отношения. Данные засраны настолько, что никаких данных нет, чистое говно, с тем же успехом вместо статы ты можешь писать "ящитаю".
Даже если ты пытаешься вести себя добросовестно и не отсеиваешь все, что не подходит - это не важно. По любому вопросу, где собирается достаточное количество статы - можно найти (намеренно или случайно) стату подтверждающую практически любое мнение.
Если статы, подтверждающей то или иное мнение ты не нашел - либо ты мало искал, либо вообще статы мало собиралось.

1) Когда ты хочешь составить мнение по вопросу, и для этого используешь собранную кем-то другим стату
В таком случае стата скажем так на 90% засрана, то есть некие условные намеки на правду ты таким образом получишь. Более того, если проводить последовательные наблюдения и срезы, если искать привязки изменений статистики к событиям, которые выглядят вроде на стату влияющим - ты скорее всего сформируешь в голове модель, как минимум исключающую самые невероятные идеи.
Но это не точно.

2) Сырая информация
Когда ты сам собираешь стату без конкретной цели.
Ну к примеру проводишь опрос, как люди относятся к мини-юбкам. При этом, так как ты сам собираешь стату, ты знаешь методику сбора, аудиторию, ты можешь модифицировать метод в попытке получить более достоверные результаты.
Но при этом - ты не ставишь целью получить тот или иной результат. К примеру у тебя не стоит цели понять, увеличивать ли ассортимент мини-юбок в конкретной сети магазинов. То есть ты просто собрал информацию, и вот делайте с ней что хотите, мое дело собрать.
Я оцениваю засранность такой статы примерно в 75%, ну то есть ее использование в целом ставит любого человека в положение из пункта 1), но при этом ты хотябы можешь уточнить и поправить метод сбора, найти ошибки в нем. Что страхует тебя хоть от некоторых ошибок и условно направляет в том, как можно интерпретировать результаты, а как вот точно нельзя. Как минимум дает тебе возможность попытаться проверить какие-то гипотезы.

3) Стата из направленного исследования
Метод, знакомый мне по геймдеву.
Когда у тебя есть конкретная фича, к примеру есть кнопка, и ты не знаешь, нужна она в игре синяя или красная. И поэтому ты выдаешь половине игроков синюю, а другой половине красную и собираешь информацию о поведении этих игроков, чтобы решить - какую кнопку оставить.
В таком случае ты во первых сам собираешь стату, во вторых контролируешь метод ее сбора, в третьих - делаешь все это с конкретной заранее заданной целью. В четвертых, что отдельно важно - над головой у тебя стоит еще один человек, который оспаривает полученные тобой результаты и предлагает как изменить метод сбора, чтобы он более соответствовал поставленной задаче. Причем у тебя есть возможность не только менять этот метод, ты можешь намеренно провоцировать людей, чтобы они активнее склонялись к тому или иному выбору, к примеру одно дело если синяя или красная кнопка просто открывает дверь, другое дело - если ты кладешь за дверь приз, и человек начинает активно думать, какая кнопка ему больше нравится.

И тут внимание, я сейчас пишу как человек, который регулярно таким сбором статы занимается.
Так вот - засранность такой статы полученной из направленного исследования, когда ты полностью все контролируешь, сам все собираешь для конкретной цели - я оцениваю в 65%.
Ну то есть примерно в двух третях случаев ты в результате приходишь к выводу "ну хуй знает, данные недостаточно очевидны".

Надеюсь этим я исчерпывающе охарактеризовал свое отношение к теме.