?

Log in

No account? Create an account

Предыдущий пост Поделиться Следующий пост
Корреляция: как незаметно выстрелить себе в ногу
lex_kravetski


Если вы где-то читаете фразу вида «оказалось, что у данных событий корреляция вот такая вот», то примерно в 99,99% случаев, если прямо не оговорено иного, речь идёт о коэффициенте корреляции Пирсона. «Дефолт-корреляция» — это он.

Причём пользуются им далеко не только безграмотные журналисты, но и в целом довольно грамотные учёные. Что, на мой взгляд, весьма странно, ибо область его осмысленного применения сильно уже, чем область его фактического использования.

По этой причине мне хотелось бы рассказать, какими способами при помощи «дефолт-корреляции» можно сделать множество совершенно неправильных, однако весьма наукообразных и кажущихся весьма правдоподобными выводов.

Но для начала о том…

Что такое «коэффициент корреляции Пирсона»?



Читать целиком


  • 1
Хм... такое ощущение, что в тексте не хватает картинок, или мой браузер не все грузит. В частности я вижу:

"Но никаких случайных совпадений — корреляция, правда, получится примерно вот такая.

Hold your fire №4".

В тексте не хватает инструкции, как же всё-таки корректно определять наличие или отсутствие причинно-следственной связи между явлениями.

В предпоследней главе написано.

На самом деле гравитоскептик и с одной стороны ноль бы получил, если бы не поленился померить для достаточно больших расстояний.

Если с одной стороны — нет, не получил бы. Разве что, если бы начал делать бесконечно много измерений там, где прибору уже чувствительности не хватает.

Бесконечно много не надо, достаточно, как это всегда и делается на практике, убедиться, что r монотонно убывает с ростом числа измерений, и сделать "естественный" вывод, что он ноль и есть. Чувствительность прибора тоже не помеха, от конкретных значений r ведь не зависит, только от количества измерений. Тут скорее "чувствительность" линейки уже лимитирующим фактором может выступить.

> Чувствительность прибора тоже не помеха, от конкретных значений r ведь не зависит, только от количества измерений.

Коэффициент корреляции крайне слабо связан с абсолютной величиной. Для него, что много значений по 100 000, что много значений по 0.00001 — всё одно. Поэтому если при измерении силы получаются маленькие, но разные значения, коэффициент корреляции всё равно может оказаться близки к единице.

> что много значений по 100 000, что много значений по 0.00001 — всё одно.

Так я о том и говорю.

> если при измерении силы получаются маленькие, но разные значения, коэффициент корреляции всё равно может оказаться близки к единице.

А вот тут нет, с ростом числа измерений он как ни крути убывает.

А как же обратная корреляция между количеством пиратов и количеством диагностированных раковых заболеваний? Ну и вишенка — корреляция между количеством открываемых банок консервов и беременностью.

>> Давно уже пора построить стройную теорию о том, почему количество выпущенных за год фильмов с Николасом Кейджем так тесно связано с количеством утонувших в этом году в бассейне. <<

Если мы посмотрим в бассейн, то увидим в воде своё отражение, однако, если мы будем смотреть телевизор, где идёт фильм с Николосом Кейджем, то мы не увидим своё отражение, мы увидим отражение Николаса Кейджа, поскольку фильм записала видеокамера, откуда снимок записался на плёнку. Отсюда следует, что бассейн и фильм оба показывают отражения, но поскольку плёнку к фильму можно скопировать, то отражений фильма можно получить больше количественно, нежели отражений себя в бассейне, а поскольку количественные изменения переходят в качественные, то отражения Николаса Кейджа на фотоплёнке обладают качественно другими свойствами, чем наше изображение в бассейне. Последнее легко проверить, например, в фотошопе, где с изображениями плёнок фильмов Николаса Кейджа, будет гораздо продуктивнее работать с нашими отражениями в бассейне. Тогда диалектически логично предположить, что бассейн является противоположностью телевизора, а изображение Николаса Кейджа отрицанием нашего отражения в бассейне. Следовательно, по закону отрицания отрицания каждый новый фильм с Николосом Кейджем, при его рассмотрении плавая в бассейне, является конгруэнтной попыткой стать Николосом Кейджем, только в новом качестве. Николас Кейдж - популярный актёр, значит, много людей хотят стать Николосом Кейджем в новом качестве, и чем больше фильмов выходит, тем больше становится желание смотреть фильмы с Николосом, плавая в бассейне, одновременно разглядывая своё отражение на поверхности оксидаводорода. Однако чем больше людей будет плавать в бассейнах при рассеянном внимании (чему способствует одновременно, как фильма, так и своего отражения) тем выше шанс утонуть, особенно если человек не умеет плавать. Отсюда следует, что чем больше будет выходит фильмов с Кейджем, тем больше людей будет приходить в бассейн и тонуть.

Ну как? Понимаю, это ещё сырой набросок, до полноценной научной теории надо бы ещё "подштриховать" некоторые формулировки, но за рабочий вариант же можно взять?

О! Прям, по-полочкам.

Хотя, если вдруг выяснится, что Кейдж - еврей, то это сразу всю связь объяснит!

Edited at 2018-12-17 14:36 (UTC)

Хорошая статья с хорошими примерами

Для усиления эффекта лично я бы добавил для пытливых читателей диаграммы рассеяния (scatter diagrams), например, как в www. bbc. com/bitesize/guides/zc7sb82/revision/5
(там примеры ограничены случаями, когда подход в целом работает для линейной связи; указано также, что присутствие корреляции не означает наличия причинно-следственной связи)

  • 1