Интересное исследование, подобное прогнозированию того, какова будет фамилия будущей жены холостяка Иванова. Из-за неназванного (пока) эффекта ее фамилия в большинстве случаев будет Иванова. При этом из-за ассиметрии пространства-времени подобный прогноз в отношении незамужней ныне Петровой не действует. Иллюзионизм от науки ))
Так понимаю, это один из "волшебных" методов статистического анализа, когда, если очень хочется, можно получить нужный результат независимо от исходных данных без какого-либо "мошенничества".
Прежде чем разбивать студентов на группы, экспериментаторы сравнивали расхождения между прогнозом и результатом индивидуально для каждого студента, затем высчитывали среднее расхождение. Если предполагать, что разница между прогнозом и результатом в нашей выборке обусловлена случайными причинами и распределена равномерно (кто-то из двоечников был в ударе, кто-то из отличников слишком расслабился etc), то усреднённый прогноз должен совпадать с усреднённым результатом в 50-м квантиле, что у Лекса и можно наглядно наблюдать. Однако у Даннинга с Крюгером усреднённый прогноз оказался систематически завышен по сравнению с усреднённым результатом на ~16 квантилей. И соответственно, в дальнейшем разбиении на группы по двоечникам-отличникам кривая распределения прогнозов также систематически сдвинута в плюс на эти самые 16 квантилей относительно ожидаемой методологически.
Более того, у Даннинга и Крюгера по трём тестам из четырёх кривая прогнозов вообще асимметрична относительно 50-го квантиля — то есть в выборке не только удельная доля завысивших свою оценку больше, чем удельная доля занизивших, но ещё и завышение/занижение прогноза нелинейно зависит от реальной оценки. Отсюда два варианта толкования:
а) либо расхождения обусловлены случайными причинами (см. выше). Следовательно, отличники в среднем должны быть более ленивыми, а двоечники в среднем более усидчивыми. Однако в гипотезе о расхождениях неявно предполагается, что оценка зависит от лени/усидчивости, следовательно, в этом случае систематически-ленивые отличники не были бы отличниками, а систематически-усидчивые двоечники не были бы двоечниками. Т.е. данный вариант самопротиворечив.
б) либо расхождения не объясняются одними лишь случайными причинами, и эффект Даннинга-Крюгера действительно существует.
Хотя в этом случае с учётом описанной Лексом методологической особенности получаются другие выводы. Исходно у Даннинга с Крюгером постулировано, что двоечники систематически завышают свои прогнозы, а отличники систематически занижают. Но если скорректировать на гипотезу о случайных расхождениях — получится, что завышают прогнозы все (как двоечники, так и отличники), хотя у двоечников завышение более выражено.
Насколько я понимаю в твоём примере есть некоторое хм... лукавство.
Псевдо-эффект (т.е. наблюдение эффекта Даннинга-Крюгера за счёт некорректной оценки результатов там, где его нет) будет проявляться только в крайних группах (*). У тебя при трёх группах две из них крайние. Если бы групп было десять -- на восьми из них ты бы псевдо-эффекта не обнаружил.
Резюмируя: Не смотря на то, что некорректность методики продемонстрирована весьма эффектно, к методам разоблачения большие вопросы.
*) При условии равномерного распределения средних оценок студентов в их группе и равномерного же распределения оценки за тест вокруг среднего в конкретном тестировании.
Upd. Эффект будет наблюдаться только в крайних группах.
Подумав понял, что это утверждение несколько заужено. Эффект (*) будет наблюдаться для групп, в которых несимметрично смешаны люди выступившие "лучше среднего" и "хуже среднего".
Для крайних групп это очевидно (при 10-бально системе в 10ю группу попадут "в среднем 9-бальники", но "в среднем 11-бальников" не существует)
Однако вопрос "будут ли в 8й группе симметрично или ассиметрично представлены выступившие хуже и лучше среднего" зависит от характера распределения оценок в эксперименте относительно среднего. А именно от того: может ли "в среднем 10-бальник" получить 8.
Так что: - есть распределения где псевдо-эффект можно наблюдать только на крайних группах - есть распределения где псевдо эффект можно наблюдать не только на крайних группах.
В любом случае брать только 3 группы (из которых заведомо 2 будут показывать псевдо-эффект) не очень хм... корректно.
*) условие равномерного распределения для простоты оставим. Вроде бы в исходном посте это подразумевалось.
Угук, а если учитывать явную нелинейность распределения двоечники — отличники, то кривую расхождения «предполагаемого» результата и «наблюдаемого» можно вообще любую получить.
> Псевдо-эффект (т.е. наблюдение эффекта Даннинга-Крюгера за счёт некорректной оценки результатов там, где его нет) будет проявляться только в крайних группах (*). У тебя при трёх группах две из них крайние. Если бы групп было десять -- на восьми из них ты бы псевдо-эффекта не обнаружил.
Не, он будет тем сильнее, чем группа ближе к краям, а не только в крайних. Я это на численных экспериментах проверил — ещё до того, как начал пытаться понять, почему такое вообще происходит. Весьма устойчивый эффект: воспроизводится практически в 99,9% случаев.
Однако в том графике, который обычно приводят, точек всего четыре (у меня три только для простоты рассуждений — на четырёх оно было бы не менее ярко выражено).
Есть предложение: провести несколько иной эксперимент (хотя бы мысленно). Берём некоторую группу студентов и задаём каждому из них простой вопрос: "На какое место в этой группе вы поставили бы себя (по знанию такого-то предмета)". Дальше отсортировать студентов в соответствии с тем, как они сами себя оценивают, и посмотреть на облако точек (номер студента, оценка). Понятно, что облако будет расположено примерно по диагонали, но интересны отклонения. Ну, например, сколько студентов посчитают, что они находятся в первой десятке? А в последней? А в первую половину сколько народу себя разместит? А точно посередине? Проведение теста в этом эксперименте не предполагается.
Второй вариант: даём студентам тест (что-то вроде ЕГЭ), знакомим каждого с его личными результатами (т.е. где правильные ответы, где неправильные) и спрашиваем, на какое место он бы себя поставил по результатам выполнения этого конкретного теста.
Или ещё вариант: даём группе студентов несколько задач различной сложности и спрашиваем у каждого про каждую задачу, сколько процентов людей, по его мнению, правильно решили эту задачу. Смотрим на среднюю оценку решивших правильно, среднюю оценку решивших неправильно и фактическое положение дел.
Есть три вида лжи, как известно. Но на самом деле всё просто - отличник не может предположить что он получит большую оценку, нет такой. Только меньшую. Аналогично с двоечником - он может предположить только что получит больше. У них обоих нормальное распределение вероятностей обрезано наполовину.
Спасибо.
Иллюзионизм от науки ))
Edited at 2017-10-26 14:09 (UTC)
Так понимаю, это один из "волшебных" методов статистического анализа, когда, если очень хочется, можно получить нужный результат независимо от исходных данных без какого-либо "мошенничества".
Прежде чем разбивать студентов на группы, экспериментаторы сравнивали расхождения между прогнозом и результатом индивидуально для каждого студента, затем высчитывали среднее расхождение. Если предполагать, что разница между прогнозом и результатом в нашей выборке обусловлена случайными причинами и распределена равномерно (кто-то из двоечников был в ударе, кто-то из отличников слишком расслабился etc), то усреднённый прогноз должен совпадать с усреднённым результатом в 50-м квантиле, что у Лекса и можно наглядно наблюдать. Однако у Даннинга с Крюгером усреднённый прогноз оказался систематически завышен по сравнению с усреднённым результатом на ~16 квантилей. И соответственно, в дальнейшем разбиении на группы по двоечникам-отличникам кривая распределения прогнозов также систематически сдвинута в плюс на эти самые 16 квантилей относительно ожидаемой методологически.
Более того, у Даннинга и Крюгера по трём тестам из четырёх кривая прогнозов вообще асимметрична относительно 50-го квантиля — то есть в выборке не только удельная доля завысивших свою оценку больше, чем удельная доля занизивших, но ещё и завышение/занижение прогноза нелинейно зависит от реальной оценки. Отсюда два варианта толкования:
а) либо расхождения обусловлены случайными причинами (см. выше). Следовательно, отличники в среднем должны быть более ленивыми, а двоечники в среднем более усидчивыми. Однако в гипотезе о расхождениях неявно предполагается, что оценка зависит от лени/усидчивости, следовательно, в этом случае систематически-ленивые отличники не были бы отличниками, а систематически-усидчивые двоечники не были бы двоечниками. Т.е. данный вариант самопротиворечив.
б) либо расхождения не объясняются одними лишь случайными причинами, и эффект Даннинга-Крюгера действительно существует.
Хотя в этом случае с учётом описанной Лексом методологической особенности получаются другие выводы. Исходно у Даннинга с Крюгером постулировано, что двоечники систематически завышают свои прогнозы, а отличники систематически занижают. Но если скорректировать на гипотезу о случайных расхождениях — получится, что завышают прогнозы все (как двоечники, так и отличники), хотя у двоечников завышение более выражено.
Edited at 2017-10-26 15:16 (UTC)
Эффект только в крайних группах
Псевдо-эффект (т.е. наблюдение эффекта Даннинга-Крюгера за счёт некорректной оценки результатов там, где его нет) будет проявляться только в крайних группах (*). У тебя при трёх группах две из них крайние.
Если бы групп было десять -- на восьми из них ты бы псевдо-эффекта не обнаружил.
Резюмируя:
Не смотря на то, что некорректность методики продемонстрирована весьма эффектно, к методам разоблачения большие вопросы.
*) При условии равномерного распределения средних оценок студентов в их группе и равномерного же распределения оценки за тест вокруг среднего в конкретном тестировании.
Edited at 2017-10-26 16:07 (UTC)
Re: Эффект только в крайних группах
Эффект будет наблюдаться только в крайних группах.Подумав понял, что это утверждение несколько заужено. Эффект (*) будет наблюдаться для групп, в которых несимметрично смешаны люди выступившие "лучше среднего" и "хуже среднего".
Для крайних групп это очевидно (при 10-бально системе в 10ю группу попадут "в среднем 9-бальники", но "в среднем 11-бальников" не существует)
Однако вопрос "будут ли в 8й группе симметрично или ассиметрично представлены выступившие хуже и лучше среднего" зависит от характера распределения оценок в эксперименте относительно среднего. А именно от того: может ли "в среднем 10-бальник" получить 8.
Так что:
- есть распределения где псевдо-эффект можно наблюдать только на крайних группах
- есть распределения где псевдо эффект можно наблюдать не только на крайних группах.
В любом случае брать только 3 группы (из которых заведомо 2 будут показывать псевдо-эффект) не очень хм... корректно.
*) условие равномерного распределения для простоты оставим. Вроде бы в исходном посте это подразумевалось.
Edited at 2017-10-26 16:27 (UTC)
Re: Эффект только в крайних группах
Если бы групп было десять -- на восьми из них ты бы псевдо-эффекта не обнаружил.
Не, он будет тем сильнее, чем группа ближе к краям, а не только в крайних. Я это на численных экспериментах проверил — ещё до того, как начал пытаться понять, почему такое вообще происходит. Весьма устойчивый эффект: воспроизводится практически в 99,9% случаев.
Однако в том графике, который обычно приводят, точек всего четыре (у меня три только для простоты рассуждений — на четырёх оно было бы не менее ярко выражено).
Edited at 2017-10-26 21:35 (UTC)
https://medium.com/@flavorchemist/dunning-kruger-regression-7d747eecb806
Второй вариант: даём студентам тест (что-то вроде ЕГЭ), знакомим каждого с его личными результатами (т.е. где правильные ответы, где неправильные) и спрашиваем, на какое место он бы себя поставил по результатам выполнения этого конкретного теста.
Или ещё вариант: даём группе студентов несколько задач различной сложности и спрашиваем у каждого про каждую задачу, сколько процентов людей, по его мнению, правильно решили эту задачу. Смотрим на среднюю оценку решивших правильно, среднюю оценку решивших неправильно и фактическое положение дел.
Но на самом деле всё просто - отличник не может предположить что он получит большую оценку, нет такой. Только меньшую.
Аналогично с двоечником - он может предположить только что получит больше.
У них обоих нормальное распределение вероятностей обрезано наполовину.
обратная оценка знаний
1 - офигенно
6 - совсем хреново
А эффект почти тот же.
Edited at 2017-10-29 09:45 (UTC)