Парадокс Симпсона: как статистика может одновременно лгать в двух направлениях 🔥 Pinme.ru

Парадокс Симпсона — это статистический феномен, при котором тенденция, присутствующая в нескольких отдельных группах данных, исчезает или полностью меняется на противоположную, когда эти группы объединяются в одну.

История возникновения парадокса

Парадокс носит имя британского статистика Эдварда Симпсона, который описал этот эффект в 1951 году в своей работе «The Interpretation of Interaction in Contingency Tables». Однако история этого феномена уходит значительно глубже. Первым, кто математически зафиксировал подобное противоречие, был шотландский статистик Удни Юл еще в 1903 году. Именно поэтому в академической среде парадокс иногда называют «парадоксом Юла-Симпсона» или «эффектом Юла-Симпсона».

Интересно, что еще раньше — в 1899 году — Карл Пирсон, один из основателей математической статистики, столкнулся с похожими аномалиями при анализе данных, но не выделил их в отдельный феномен. А полноценное философское и методологическое осмысление парадокса произошло лишь в 1970-х годах, когда с ним начали работать специалисты по каузальному выводу.

Год	Исследователь	Вклад
1899	Карл Пирсон	Обнаружил аномалии при объединении данных, но не описал их как отдельный феномен
1903	Удни Юл	Первое формальное описание эффекта реверсии тенденций при агрегировании данных
1951	Эдвард Симпсон	Систематическое описание парадокса и анализ условий его возникновения
1972	Колин Блайт	Ввел сам термин «парадокс Симпсона» в широкое употребление
1986–2000	Джуди Перл	Дал исчерпывающее объяснение через теорию каузальности и направленные ациклические графы

Контекст появления парадокса примечателен: середина XX века — это эпоха бурного роста статистических методов. Правительства, корпорации и ученые начали массово использовать данные для принятия решений. Парадокс Симпсона стал своего рода тревожным звонком: цифры, которые выглядят абсолютно надежными, могут рассказывать диаметрально противоположные истории в зависимости от того, как вы их группируете.

В чем именно заключается противоречие

Представьте: две больницы лечат пациентов с одним и тем же заболеванием. Вы хотите выбрать лучшую. Смотрите на статистику и видите, что Больница А показывает лучшие результаты среди пациентов с легкой формой болезни. Проверяете тяжелые случаи — и снова Больница А лидирует. Логично выбрать Больницу А? Казалось бы, да. Но когда вы объединяете все данные, внезапно оказывается, что у Больницы Б общий процент выздоровлений выше.

Вот конкретный числовой пример:

Категория	Больница А	Больница Б
Легкие случаи	Вылечено 81 из 87 (93%)	Вылечено 234 из 270 (87%)
Тяжелые случаи	Вылечено 192 из 263 (73%)	Вылечено 55 из 80 (69%)
Итого	Вылечено 273 из 350 (78%)	Вылечено 289 из 350 (83%)

Больница А лучше и в легких случаях (93% против 87%), и в тяжелых (73% против 69%). Но в сумме проигрывает Больнице Б (78% против 83%). Это не ошибка вычислений — это парадокс Симпсона в действии.

Ключ к разгадке — в распределении пациентов. Больница А принимала непропорционально много тяжелых пациентов (263 из 350), которые по определению выздоравливают реже. Больница Б, напротив, работала преимущественно с легкими случаями (270 из 350). Когда данные объединяются, «тяжелый груз» сложных случаев тащит общий показатель Больницы А вниз, несмотря на то что внутри каждой категории она работает лучше.

Скрытая переменная — в данном случае тяжесть заболевания — называется конфаундером (от англ. confounding variable). Именно конфаундер создает иллюзию, что объединенные данные говорят правду, тогда как на самом деле они говорят нечто принципиально искаженное.

Мысленный эксперимент: вы заболели и смотрите на общую статистику двух клиник. Общие цифры говорят: идите в Больницу Б. Но если вы разобьете данные по своей конкретной категории — легкий или тяжелый случай — вам всегда лучше в Больнице А. В какую клинику вы пойдете? И самое главное: какая из этих двух «правд» настоящая?

Попытки решения парадокса

Парадокс Симпсона — не логическое противоречие в строгом смысле. Математически все корректно. Проблема лежит в области интерпретации. Поэтому «решения» парадокса — это скорее методологические рамки, которые помогают понять, каким данным верить: агрегированным или разделенным на группы.

Подход каузального вывода Джуди Перла

Наиболее глубокое решение предложил израильско-американский ученый Джуди Перл, лауреат премии Тьюринга 2011 года. Перл утверждал, что парадокс невозможно разрешить, оставаясь исключительно в рамках статистики. Нужно привлекать каузальные (причинно-следственные) рассуждения.

Его подход опирается на направленные ациклические графы (DAG) — диаграммы, которые показывают причинно-следственные связи между переменными. Согласно теории Перла, решение зависит от структуры каузальных связей:

Если скрытая переменная (конфаундер) влияет и на «лечение», и на «результат», данные нужно разбивать по группам и анализировать раздельно.
Если скрытая переменная является медиатором (промежуточным звеном между лечением и результатом), объединенные данные корректнее.
Одни и те же числа при разной каузальной структуре требуют диаметрально противоположных выводов — и чистая статистика не способна подсказать, какой вывод верный.

Стратификация и взвешивание

Классический статистический ответ на проблему конфаундеров — стратификация. Данные разбиваются по всем известным скрытым переменным, и анализ проводится внутри каждого слоя. Метод Мантеля-Хензеля (1959) и стандартизация по Кохрену позволяют после этого корректно «собрать» общий результат.

Рандомизированные контролируемые испытания (РКИ)

Главная защита медицины от парадокса Симпсона — случайное распределение участников по группам. Если пациенты случайно назначаются в Больницу А или Б, распределение тяжелых и легких случаев будет примерно одинаковым, и конфаундер устраняется.

Подход	Автор / школа	Суть метода	Ограничения
Каузальный вывод	Джуди Перл, 1990-е — 2000-е	Построение причинно-следственного графа и определение, нужна ли стратификация	Требует экспертных знаний о предметной области; граф может быть неверно построен
Стратификация	Мантель, Хензель, 1959	Разделение данных по подгруппам и анализ внутри каждой	Невозможно учесть неизвестные конфаундеры; при большом числе слоев выборки становятся малы
Рандомизация (РКИ)	Рональд Фишер, 1920-е	Случайное распределение устраняет систематические различия между группами	Не всегда этически допустимо или практически возможно
Пропенсити-скоринг	Розенбаум и Рубин, 1983	Оценка вероятности попадания в группу и балансировка по ней	Работает только с наблюдаемыми переменными
Инструментальные переменные	Экономическая школа, Ангрист и Имбенс, 1990-е	Использование внешних «инструментов» для изоляции причинного эффекта	Сложно найти валидный инструмент

Где парадокс встречается в реальной жизни, науке и математике

Парадокс Симпсона — не абстрактная головоломка для учебников. Он неоднократно влиял на реальные решения, затрагивающие миллионы людей.

Дело о дискриминации при поступлении в Калифорнийский университет в Беркли (1973)

Это, пожалуй, самый знаменитый реальный случай парадокса Симпсона. В 1973 году руководство Калифорнийского университета в Беркли обнаружило тревожную цифру: из подавших заявки мужчин были приняты 44%, а из женщин — лишь 35%. Налицо гендерная дискриминация? Казалось, да, и университету грозили судебные иски.

Однако статистики Питер Бикел, Юджин Хэммел и Уильям О’Коннелл проанализировали данные по каждому факультету отдельно. Выяснилось поразительное: в большинстве отдельных факультетов женщин принимали с немного более высоким процентом, чем мужчин, или с одинаковым. Общая разница возникала потому, что женщины непропорционально часто подавали документы на самые конкурентные факультеты с низким процентом приема (гуманитарные, лингвистические), тогда как мужчины чаще выбирали факультеты с высоким процентом приема (инженерные, технические). Конфаундером оказался выбор факультета.

Медицина и клинические испытания

Парадокс регулярно всплывает в медицинских исследованиях:

Лечение камней в почках (1986): исследование Чалфина и Колетта показало, что открытая хирургия эффективнее чрескожной нефролитотомии и в случае малых камней, и в случае крупных. Но в объединенных данных чрескожная процедура выглядела лучше, потому что ее чаще назначали при малых камнях (легких случаях).
COVID-19: во время пандемии парадокс Симпсона появлялся при сравнении смертности между странами. Страна с более старым населением могла иметь более высокую общую смертность, но при этом внутри каждой возрастной группы ее показатели были лучше, чем у страны-«лидера» с молодым населением.
Оценка эффективности вакцин: данные по вакцинации от COVID-19 в Израиле и Великобритании в 2021 году демонстрировали эффект Симпсона: среди вакцинированных доля госпитализаций в некоторых отчетах выглядела выше, чем среди невакцинированных, пока не учитывался возраст (вакцинировали в первую очередь пожилых, имеющих высокий базовый риск).

Бейсбольная статистика

Классический пример из мира спорта: в 1995-1996 годах Дерек Джитер имел более высокий средний показатель отбивания (batting average), чем Дэвид Джастис, в каждом из двух сезонов по отдельности. Но если объединить данные за оба года, Джастис оказывался впереди. Причина: Джитер провел значительно больше игр в «плохой» для него сезон, что утянуло его общий показатель вниз.

Область	Конкретный случай	Конфаундер
Образование	Прием в UC Berkeley, 1973	Выбор факультета
Медицина	Лечение камней в почках, 1986	Размер камней (тяжесть случая)
Эпидемиология	Сравнение смертности COVID-19 между странами	Возрастная структура населения
Спорт	Джитер vs Джастис, 1995-1996	Количество игр в каждом сезоне
Юриспруденция	Дело о смертной казни во Флориде (исследование Радлета, 1981)	Раса жертвы влияла на тяжесть обвинения
Экономика	Парадокс заработной платы: медианная зарплата растет в каждой группе, но падает в целом	Изменение пропорций групп (рост доли низкооплачиваемых секторов)

Математическая природа

С чисто математической точки зрения парадокс Симпсона связан с тем, что неравенства не обязаны сохраняться при взвешенном сложении. Если a/b > c/d и e/f > g/h, из этого не следует, что (a+e)/(b+f) > (c+g)/(d+h). Это элементарное свойство дробей, но его неинтуитивность продолжает ловить в ловушку даже опытных аналитиков.

Задумайтесь: каждый раз, когда вы видите в новостях заголовок вроде «исследование показало, что люди, принимающие витамин X, болеют чаще» — не скрывается ли за этим парадокс Симпсона? Может быть, витамин X чаще принимают пожилые люди или хронически больные, и именно это создает ложную корреляцию? Сколько решений в вашей жизни основаны на агрегированных данных, которые вы ни разу не разбивали на подгруппы?

Интересные факты и связанные парадоксы

Парадокс Симпсона — это лишь один представитель целого семейства статистических ловушек. Некоторые из них родственны ему настолько тесно, что граница между ними размыта.

Парадокс Симпсона может возникнуть на любом количестве уровней. Данные могут показывать одну тенденцию в трех подгруппах, противоположную — при объединении в две, и снова первоначальную — при полном объединении. Реальность многослойна, и на каждом слое «правда» может переворачиваться.
Эдвард Симпсон жив. Родившийся в 1922 году, Эдвард Хью Симпсон на момент широкой популяризации парадокса его имени был еще жив и дожил до глубокой старости. Примечательно, что статистика была лишь частью его карьеры — во время Второй мировой войны он работал криптоаналитиком в Блетчли-парке вместе с Аланом Тьюрингом.
Парадокс невозможно «увидеть» в данных без дополнительных знаний. Никакой алгоритм машинного обучения, работающий исключительно с данными, не способен определить, является ли агрегированный результат верным или обманчивым — для этого требуется понимание каузальной структуры мира, которая в данных не содержится. Это одна из фундаментальных причин, почему «big data» без человеческого суждения может быть опасна.
Парадокс может работать в обе стороны одновременно. Существуют наборы данных, где лечение А лучше лечения Б в каждой подгруппе, но Б лучше А в целом, и при этом правильным ответом является выбор Б — если подгруппа является медиатором, а не конфаундером.

Связанные парадоксы и эффекты

Парадокс / эффект	Суть	Связь с парадоксом Симпсона
Экологическая ошибка	Выводы о группе ошибочно переносятся на индивидов	Парадокс Симпсона — частный случай экологической ошибки при агрегировании
Парадокс Берксона	Ложная корреляция между переменными из-за отбора по общему следствию	Оба парадокса возникают из-за некорректного объединения или разделения данных
Ошибка выжившего	Учитываются только «выжившие» объекты, искажая выводы	Оба связаны с невидимой переменной, искажающей общую картину
Парадокс Лорда	Два статистически корректных анализа одних данных дают противоположные выводы	Прямой родственник: противоречие возникает из-за разных подходов к контролю переменных
Парадокс Уилла Роджерса	Перемещение элемента из одной группы в другую может повысить средние обеих групп	Оба иллюстрируют контринтуитивное поведение средних при перегруппировке данных

Парадокс Уилла Роджерса заслуживает отдельного упоминания. Он назван в честь американского комика, который шутил: «Когда оки уехали из Оклахомы и переехали в Калифорнию, средний уровень интеллекта вырос в обоих штатах». Механизм тот же: перераспределение элементов между группами меняет средние так, что интуиция отказывает.

В последние годы парадокс Симпсона стал особенно актуален в области алгоритмической справедливости (algorithmic fairness). Системы искусственного интеллекта, обученные на агрегированных данных, могут принимать решения, которые выглядят справедливыми в целом, но оказываются дискриминационными внутри каждой подгруппы — или наоборот. Это создает этическую дилемму, у которой нет чисто технического решения: какой уровень агрегирования считать «правильным» — вопрос не математики, а ценностей.

Фундаментальный урок парадокса Симпсона можно выразить одной фразой, которую часто повторяют статистики: «Данные не говорят сами за себя». За каждой таблицей стоит модель мира — явная или неявная. И если вы не контролируете эту модель, модель контролирует вас.