Парадокс заключённого: почему разумный выбор часто приводит к худшему результату 🔥 Pinme.ru

Два рациональных игрока, действуя строго в своих интересах и выбирая оптимальную для себя стратегию, неизбежно приходят к результату, который хуже для обоих, чем если бы они сотрудничали — хотя сотрудничество для каждого из них выглядит нелогичным.

История возникновения парадокса

В 1950 году в стенах корпорации RAND — мозгового центра, работавшего на военное ведомство США, — два математика, Меррилл Флад и Мелвин Дрешер, поставили серию экспериментов по принятию стратегических решений. Они не собирались создавать знаменитый парадокс. Они пытались проверить, насколько предсказуемо ведут себя реальные люди в ситуациях, описанных зарождавшейся теорией игр Джона фон Неймана и Оскара Моргенштерна.

Результаты экспериментов Флада и Дрешера оказались неожиданными: участники сотрудничали друг с другом гораздо чаще, чем предсказывала теория. Но по-настоящему знаменитым этот мысленный эксперимент стал благодаря Альберту Такеру — математику из Принстонского университета. Именно Такер в том же 1950 году облёк абстрактную математическую модель в драматичную историю о двух заключённых и допросе в полицейском участке. Название прижилось мгновенно.

Дата	Событие	Ключевые фигуры
1944	Публикация «Теории игр и экономического поведения» — фундамент всей дисциплины	Джон фон Нейман, Оскар Моргенштерн
1950, январь	Первые эксперименты в RAND Corporation с матрицей выигрышей	Меррилл Флад, Мелвин Дрешер
1950, май	Формулировка в виде истории о заключённых; лекция в Стэнфорде	Альберт Такер
1950	Концепция равновесия Нэша, объясняющая исход парадокса	Джон Нэш
1984	Книга «Эволюция кооперации» — компьютерные турниры повторяющейся дилеммы	Роберт Аксельрод

Контекст появления парадокса неотделим от холодной войны. RAND Corporation искала математические модели для ядерного противостояния между США и СССР. Вопрос звучал буквально так: если обе стороны рациональны, приведёт ли это к миру или к взаимному уничтожению? Парадокс заключённого давал пугающий ответ — рациональность сама по себе ведёт к катастрофе.

В чём именно заключается противоречие

Представьте: полиция задержала двух подозреваемых в совершении преступления. Их развели по разным комнатам для допроса. У следствия недостаточно улик для серьёзного обвинения, поэтому каждому предлагается сделка.

Правила просты:

Если оба молчат (сотрудничают друг с другом) — каждый получает 1 год тюрьмы по незначительному обвинению.
Если один предаёт (даёт показания), а другой молчит — предатель выходит на свободу, а молчавший получает 10 лет.
Если оба предают друг друга — каждый получает 5 лет.

	Заключённый Б: молчит	Заключённый Б: предаёт
Заключённый А: молчит	А: 1 год / Б: 1 год	А: 10 лет / Б: свобода
Заключённый А: предаёт	А: свобода / Б: 10 лет	А: 5 лет / Б: 5 лет

Теперь проследим за логикой заключённого А. Он рассуждает так:

«Допустим, Б молчит. Тогда, если я тоже молчу, получу 1 год. Но если предам — выйду на свободу. Предать выгоднее.»
«Допустим, Б предаёт. Тогда, если я молчу, получу 10 лет. Если предам — 5 лет. Предать опять выгоднее.»
«Значит, независимо от того, что делает Б, мне рационально предать.»

Заключённый Б проводит точно такие же рассуждения. Оба приходят к одному выводу: предать. Результат — каждый получает 5 лет тюрьмы.

Вот в чём парадокс: оба действовали абсолютно рационально на каждом шаге логики, и оба получили результат, который хуже для каждого из них, чем если бы оба «нерационально» промолчали и отсидели всего по году.

Предательство в теории игр называется «доминирующей стратегией» — она лучше при любом выборе оппонента. Но когда оба выбирают доминирующую стратегию, они попадают в так называемое равновесие Нэша — состояние, из которого ни одному невыгодно отклоняться в одиночку. Проблема в том, что это равновесие не является оптимальным по Парето: существует другой исход (оба молчат), где обоим было бы лучше.

Представьте, что вы — один из заключённых. Вы точно знаете, что ваш напарник прочитал эту статью и знает всю теорию. Вы оба понимаете, что молчание выгодно обоим. Изменит ли это ваш выбор? Подумайте честно: вы ведь понимаете, что он тоже знает, что вы знаете… и всё равно предательство остаётся рациональным. Почему?

Попытки решения

С 1950 года десятки блестящих умов пытались найти выход из этого логического тупика. Ни одно решение не считается окончательным, но каждое открывает новый угол зрения на природу сотрудничества.

Повторяющаяся дилемма и турниры Аксельрода

Политолог Роберт Аксельрод из Мичиганского университета в 1980 году организовал компьютерный турнир: учёные со всего мира присылали программы-стратегии для многократно повторяющейся дилеммы заключённого. Каждая стратегия играла против каждой по 200 раундов.

Победила стратегия «Око за око» (Tit for Tat), присланная математиком Анатолием Рапопортом. Она невероятно проста: начни с сотрудничества, а потом повторяй последний ход оппонента. Предал тебя — предай в ответ. Сотрудничал — сотрудничай.

Стратегия	Суть	Результат в турнирах
Tit for Tat (Око за око)	Начни с кооперации, затем копируй последний ход оппонента	Победитель обоих турниров Аксельрода (1980, 1984)
Always Defect (Всегда предавай)	Предавать в каждом раунде	Эффективна против «наивных», но проигрывает в среднем
Always Cooperate (Всегда сотрудничай)	Молчать в каждом раунде	Легко эксплуатируется, плохой общий результат
Generous Tit for Tat	Как «Око за око», но иногда прощает предательство	Ещё эффективнее в «шумных» средах
Pavlov (Win-Stay, Lose-Shift)	Повторяй ход, если результат был хороший; смени, если плохой	Отлично работает в эволюционных моделях
Grim Trigger	Сотрудничай, пока оппонент не предаст; после первого предательства — предавай вечно	Хороша как угроза, но не прощает ошибок

Аксельрод выделил четыре свойства успешных стратегий:

Доброта — никогда не предавай первым.
Мстительность — немедленно наказывай предательство.
Прощение — возвращайся к сотрудничеству, если оппонент исправился.
Ясность — будь предсказуемым, чтобы оппонент мог адаптироваться.

Эволюционный подход

Биолог Джон Мейнард Смит и математик Джордж Прайс ещё в 1973 году применили теорию игр к эволюции. Если рассматривать популяцию организмов, где каждый играет в дилемму заключённого с соседями, то «кооператоры» вымирают, а «предатели» захватывают популяцию — но затем гибнут сами, потому что им больше некого эксплуатировать. Эволюционно стабильной оказывается смешанная стратегия, близкая к «Око за око».

Именно парадокс заключённого стал главным математическим инструментом для объяснения одной из величайших загадок биологии: почему вообще существует альтруизм в мире, управляемом естественным отбором.

Суперрациональность Хофштадтера

Дуглас Хофштадтер, автор знаменитой книги «Гёдель, Эшер, Бах», в 1983 году предложил концепцию «суперрациональности». Его аргумент: если оба игрока действительно рациональны и знают, что второй тоже рационален, они должны прийти к одному и тому же решению (ведь рациональное мышление детерминировано). Поскольку обоюдное сотрудничество лучше обоюдного предательства, суперрациональный агент выбирает сотрудничество. Эта идея элегантна, но большинство теоретиков игр её не принимают: она нарушает принцип, что выбор одного игрока не может причинно влиять на выбор другого.

Квантовая версия

В 1999 году физики Юнсун Эйзерт, Мартин Вильбенс и Маркус Леванштейн показали, что если игрокам разрешить «квантовые» стратегии (запутанные квантовые состояния), парадокс исчезает. Появляется новое равновесие Нэша, совпадающее с оптимумом Парето. Звучит как магия, но это скорее демонстрация того, что парадокс укоренён в структуре классической логики выбора.

Контрактный подход

Философы-контрактуалисты, идущие от Томаса Гоббса, видят в парадоксе обоснование необходимости государства. Если два рациональных агента неизбежно предают друг друга, то нужна внешняя сила — закон, суд, полиция — которая изменит матрицу выигрышей, сделав предательство невыгодным. Дэвид Готье в книге «Мораль по соглашению» (1986) пытался доказать, что рациональные агенты способны договориться о сотрудничестве и без внешнего принуждения, но его аргументы остаются дискуссионными.

Где этот парадокс встречается в реальной жизни, науке и математике

Парадокс заключённого — не абстрактная головоломка для математиков. Он описывает реальные ситуации, в которых мы оказываемся ежедневно, часто даже не осознавая этого.

Гонка вооружений

Самый масштабный пример — ядерное противостояние. И США, и СССР были бы в лучшем положении, если бы оба сократили арсеналы (взаимное сотрудничество). Но каждая сторона боялась, что противник продолжит вооружаться, и поэтому наращивала свой потенциал. Результат — триллионы долларов, потраченные обеими сторонами на оружие, которое они надеялись никогда не использовать. Договоры о контроле вооружений (ОСВ-1, СНВ) — это, по сути, внешний механизм, превращающий одноразовую дилемму в повторяющуюся с возможностью контроля.

Экономика и бизнес

Ситуация	Сотрудничество	Предательство	Результат взаимного предательства
Ценовые войны между конкурентами	Обе компании держат высокие цены, обе зарабатывают	Одна снижает цену, переманивая клиентов	Обе снижают цены до минимума, обе теряют прибыль
Рекламные бюджеты	Обе компании тратят мало на рекламу, доли рынка сохраняются	Одна увеличивает расходы, захватывает долю	Обе тратят огромные суммы, доли рынка не меняются
Картели ОПЕК	Все ограничивают добычу, цена нефти высокая	Одна страна наращивает добычу тайком	Все наращивают добычу, цена падает
Допинг в спорте	Все спортсмены чисты, конкуренция честная	Один принимает допинг, получает преимущество	Все принимают допинг, здоровье подорвано, преимущества нет

Экология и «трагедия общин»

Парадокс заключённого лежит в основе так называемой «трагедии общин», описанной биологом Гарретом Хардином в 1968 году. Представьте общее пастбище: каждому фермеру выгодно выпасти ещё одну корову (предательство), но если все так поступят, пастбище будет уничтожено (взаимное предательство). Изменение климата — это дилемма заключённого в масштабе планеты: каждой стране невыгодно в одиночку сокращать выбросы, если остальные продолжают загрязнять.

Повседневная жизнь

Пробки на дорогах. Каждому водителю быстрее ехать на машине, чем ждать автобус. Но когда все выбирают машину, все стоят в пробке, и каждому было бы быстрее на автобусе.
Антибиотики. Каждому пациенту выгодно принять антибиотик при любом подозрении на инфекцию. Но массовое применение создаёт устойчивые бактерии, и в итоге антибиотики перестают работать для всех.
Налоги. Каждому выгодно уклоняться от налогов, пользуясь инфраструктурой за чужой счёт. Но если все уклоняются, инфраструктура разрушается.
Шум в ресторане. Каждый столик говорит чуть громче, чтобы перекричать соседей. Результат — все кричат, никто не слышит.

Биология

Взаимный альтруизм у животных — это повторяющаяся дилемма заключённого в действии. Летучие мыши-вампиры делятся кровью с голодными сородичами, но запоминают, кто делился с ними, а кто нет, и отказывают «предателям» в будущем — стратегия, удивительно похожая на «Око за око». Рыбы-чистильщики могут откусить кусок слизи хозяина вместо того, чтобы честно удалять паразитов, но хозяева запоминают обманщиков и больше к ним не приплывают.

Вот мысленный эксперимент. Вы участвуете в анонимной онлайн-игре с незнакомцем. Один раунд, без повторений, без последствий. Вам обоим предлагают: нажмите «сотрудничать» — и каждый получит по 100 долларов. Нажмите «предать» — и если второй сотрудничает, вы получите 300, а он ничего. Если оба предадут — каждый получит по 10 долларов. Что вы нажмёте — и что, по-вашему, нажмёт незнакомец?

Математическая структура

Для тех, кто хочет понять парадокс точнее, важно зафиксировать формальные условия, при которых дилемма заключённого возникает. Пусть T — выигрыш предателя при молчании партнёра (temptation), R — выигрыш при взаимном сотрудничестве (reward), P — выигрыш при взаимном предательстве (punishment), S — выигрыш молчащего при предательстве партнёра (sucker’s payoff).

Дилемма заключённого существует тогда и только тогда, когда выполняются два неравенства:

T > R > P > S (предательство при кооперации оппонента выгоднее взаимной кооперации, которая выгоднее взаимного предательства, которое выгоднее роли «простака»).
2R > T + S (взаимное сотрудничество в среднем выгоднее, чем чередование ролей «предатель/жертва»; это условие особенно важно для повторяющейся игры).

Если хотя бы одно из неравенств нарушено, структура игры меняется — и это уже не дилемма заключённого, а одна из других канонических игр: «Охота на оленя», «Цыплёнок» (Chicken) или «Битва полов».

Интересные факты и связанные парадоксы

Парадокс заключённого — не одинокий остров в океане теории игр. Он связан с целым архипелагом других парадоксов и контринтуитивных результатов.

Связанный парадокс/концепция	Суть	Связь с дилеммой заключённого
Трагедия общин	Общий ресурс истощается, когда каждый использует его рационально	Многопользовательская версия дилеммы заключённого
Парадокс Ньюкома	Должны ли вы брать одну коробку или две, если предсказатель почти всегда угадывает ваш выбор?	Связан через суперрациональность Хофштадтера: в обоих случаях доминирующая стратегия конфликтует с «правильным» ответом
Дилемма путешественника	Два пассажира заявляют стоимость потерянного багажа; правила поощряют занижение	Равновесие Нэша предсказывает минимальную заявку, но реальные люди заявляют почти максимум
Игра «Цыплёнок» (Chicken)	Два водителя едут навстречу друг другу; свернувший — «цыплёнок»	Отличается от дилеммы заключённого тем, что взаимное предательство — худший исход для обоих, а не просто плохой
Охота на оленя	Два охотника могут поймать оленя вместе или зайца поодиночке	В отличие от дилеммы, здесь взаимное сотрудничество тоже является равновесием Нэша
Парадокс обратной индукции	В конечной повторяющейся дилемме рациональные игроки должны предавать с первого хода	Прямое следствие: если оба знают, что игра длится 100 раундов, логика разворачивается с последнего хода, уничтожая сотрудничество

Факты, о которых мало кто знает

Экспериментальная аномалия. В первом эксперименте Флада и Дрешера (1950) участники сотрудничали в 60% случаев при 100 повторениях — вопреки теоретическому предсказанию о полном предательстве. Один из участников потом написал: «Я пытался показать ему, что нам обоим выгодно сотрудничать, но он всё время предавал». Второй участник записал: «Он всё время молчит — это глупо, надо этим пользоваться». Два типа рациональности столкнулись лоб в лоб.
Дилемма в телешоу. Британское шоу «Golden Balls» с 2007 по 2009 год использовало дилемму заключённого как финальный раунд: два участника выбирали «Split» (сотрудничество) или «Steal» (предательство). Записи этих эпизодов стали бесценным материалом для экономистов — ведь ставки были реальными, иногда более 100 000 фунтов. В одном знаменитом эпизоде участник по имени Ник объявил, что обязательно выберет «Steal», но потом разделит деньги поровну за кулисами. Его оппонент Абрахам в панике выбрал «Split». Ник тоже выбрал «Split». Он блефовал, чтобы заставить оппонента поверить, что предательство бессмысленно, — и это был один из самых блистательных ходов в истории теории игр на практике.
Эволюционные симуляции. В 2012 году команда из Мичиганского университета обнаружила, что в компьютерной эволюции стратегий с мутациями и шумом наиболее устойчивой оказывается не «Око за око», а «Великодушная Око за око» — стратегия, которая с небольшой вероятностью прощает предательство. Абсолютная справедливость оказалась менее жизнеспособной, чем справедливость с примесью милосердия.
Нейробиология. Исследования с помощью фМРТ показали, что взаимное сотрудничество в дилемме заключённого активирует те же зоны мозга, что и получение денежного вознаграждения (вентральный стриатум, орбитофронтальная кора). Мозг буквально «награждает» нас за кооперацию — что объясняет, почему люди сотрудничают чаще, чем предсказывает теория.
Искусственный интеллект. В 2017 году исследователи DeepMind показали, что алгоритмы глубокого обучения, играющие в многоагентные игры с элементами дилеммы заключённого, спонтанно «изобретают» стратегии наказания и сотрудничества, никогда не будучи обученными этим концепциям. ИИ переоткрыл «Око за око» самостоятельно.
Длина тени будущего. Роберт Аксельрод ввёл термин «тень будущего» (shadow of the future): чем более вероятна будущая встреча, тем сильнее стимул к сотрудничеству. Это объясняет, почему в маленьких городах люди честнее, чем в мегаполисах: вероятность повторной встречи с тем же человеком выше.

Парадокс внутри парадокса

Есть ещё один уровень, который редко обсуждают. В конечной повторяющейся дилемме (скажем, ровно 100 раундов, и оба знают это) работает обратная индукция. Рассуждение такое: в последнем, 100-м раунде нет будущего — значит, оба предадут. Но если в 100-м оба предадут, то 99-й становится «последним значимым» — и в нём тоже оба предадут. Эта логика разворачивается до первого раунда, и теория предсказывает предательство с самого начала. На практике этого почти никогда не происходит: люди сотрудничают примерно до 90-го раунда, а потом начинают предавать. Теория говорит одно, реальность — другое. Что из этого «иррационально»?

Этот разрыв между теорией и практикой породил целое направление — поведенческую теорию игр, в которой работают, среди прочих, нобелевские лауреаты Даниэль Канеман и Ричард Талер. Их вывод: модель «homo economicus» — полностью рационального агента — не описывает реального человека. И, возможно, это не баг, а фича: наша «иррациональность» — склонность доверять, прощать, сотрудничать даже когда это невыгодно — является эволюционным преимуществом, которое позволило виду Homo sapiens создать цивилизацию.