Два рациональных игрока, действуя строго в своих интересах и выбирая оптимальную для себя стратегию, неизбежно приходят к результату, который хуже для обоих, чем если бы они сотрудничали — хотя сотрудничество для каждого из них выглядит нелогичным.
История возникновения парадокса
В 1950 году в стенах корпорации RAND — мозгового центра, работавшего на военное ведомство США, — два математика, Меррилл Флад и Мелвин Дрешер, поставили серию экспериментов по принятию стратегических решений. Они не собирались создавать знаменитый парадокс. Они пытались проверить, насколько предсказуемо ведут себя реальные люди в ситуациях, описанных зарождавшейся теорией игр Джона фон Неймана и Оскара Моргенштерна.
Результаты экспериментов Флада и Дрешера оказались неожиданными: участники сотрудничали друг с другом гораздо чаще, чем предсказывала теория. Но по-настоящему знаменитым этот мысленный эксперимент стал благодаря Альберту Такеру — математику из Принстонского университета. Именно Такер в том же 1950 году облёк абстрактную математическую модель в драматичную историю о двух заключённых и допросе в полицейском участке. Название прижилось мгновенно.
| Дата | Событие | Ключевые фигуры |
|---|---|---|
| 1944 | Публикация «Теории игр и экономического поведения» — фундамент всей дисциплины | Джон фон Нейман, Оскар Моргенштерн |
| 1950, январь | Первые эксперименты в RAND Corporation с матрицей выигрышей | Меррилл Флад, Мелвин Дрешер |
| 1950, май | Формулировка в виде истории о заключённых; лекция в Стэнфорде | Альберт Такер |
| 1950 | Концепция равновесия Нэша, объясняющая исход парадокса | Джон Нэш |
| 1984 | Книга «Эволюция кооперации» — компьютерные турниры повторяющейся дилеммы | Роберт Аксельрод |
Контекст появления парадокса неотделим от холодной войны. RAND Corporation искала математические модели для ядерного противостояния между США и СССР. Вопрос звучал буквально так: если обе стороны рациональны, приведёт ли это к миру или к взаимному уничтожению? Парадокс заключённого давал пугающий ответ — рациональность сама по себе ведёт к катастрофе.
В чём именно заключается противоречие
Представьте: полиция задержала двух подозреваемых в совершении преступления. Их развели по разным комнатам для допроса. У следствия недостаточно улик для серьёзного обвинения, поэтому каждому предлагается сделка.
Правила просты:
- Если оба молчат (сотрудничают друг с другом) — каждый получает 1 год тюрьмы по незначительному обвинению.
- Если один предаёт (даёт показания), а другой молчит — предатель выходит на свободу, а молчавший получает 10 лет.
- Если оба предают друг друга — каждый получает 5 лет.
| Заключённый Б: молчит | Заключённый Б: предаёт | |
|---|---|---|
| Заключённый А: молчит | А: 1 год / Б: 1 год | А: 10 лет / Б: свобода |
| Заключённый А: предаёт | А: свобода / Б: 10 лет | А: 5 лет / Б: 5 лет |
Теперь проследим за логикой заключённого А. Он рассуждает так:
- «Допустим, Б молчит. Тогда, если я тоже молчу, получу 1 год. Но если предам — выйду на свободу. Предать выгоднее.»
- «Допустим, Б предаёт. Тогда, если я молчу, получу 10 лет. Если предам — 5 лет. Предать опять выгоднее.»
- «Значит, независимо от того, что делает Б, мне рационально предать.»
Заключённый Б проводит точно такие же рассуждения. Оба приходят к одному выводу: предать. Результат — каждый получает 5 лет тюрьмы.
Вот в чём парадокс: оба действовали абсолютно рационально на каждом шаге логики, и оба получили результат, который хуже для каждого из них, чем если бы оба «нерационально» промолчали и отсидели всего по году.
Предательство в теории игр называется «доминирующей стратегией» — она лучше при любом выборе оппонента. Но когда оба выбирают доминирующую стратегию, они попадают в так называемое равновесие Нэша — состояние, из которого ни одному невыгодно отклоняться в одиночку. Проблема в том, что это равновесие не является оптимальным по Парето: существует другой исход (оба молчат), где обоим было бы лучше.
Представьте, что вы — один из заключённых. Вы точно знаете, что ваш напарник прочитал эту статью и знает всю теорию. Вы оба понимаете, что молчание выгодно обоим. Изменит ли это ваш выбор? Подумайте честно: вы ведь понимаете, что он тоже знает, что вы знаете… и всё равно предательство остаётся рациональным. Почему?
Попытки решения
С 1950 года десятки блестящих умов пытались найти выход из этого логического тупика. Ни одно решение не считается окончательным, но каждое открывает новый угол зрения на природу сотрудничества.
Повторяющаяся дилемма и турниры Аксельрода
Политолог Роберт Аксельрод из Мичиганского университета в 1980 году организовал компьютерный турнир: учёные со всего мира присылали программы-стратегии для многократно повторяющейся дилеммы заключённого. Каждая стратегия играла против каждой по 200 раундов.
Победила стратегия «Око за око» (Tit for Tat), присланная математиком Анатолием Рапопортом. Она невероятно проста: начни с сотрудничества, а потом повторяй последний ход оппонента. Предал тебя — предай в ответ. Сотрудничал — сотрудничай.
| Стратегия | Суть | Результат в турнирах |
|---|---|---|
| Tit for Tat (Око за око) | Начни с кооперации, затем копируй последний ход оппонента | Победитель обоих турниров Аксельрода (1980, 1984) |
| Always Defect (Всегда предавай) | Предавать в каждом раунде | Эффективна против «наивных», но проигрывает в среднем |
| Always Cooperate (Всегда сотрудничай) | Молчать в каждом раунде | Легко эксплуатируется, плохой общий результат |
| Generous Tit for Tat | Как «Око за око», но иногда прощает предательство | Ещё эффективнее в «шумных» средах |
| Pavlov (Win-Stay, Lose-Shift) | Повторяй ход, если результат был хороший; смени, если плохой | Отлично работает в эволюционных моделях |
| Grim Trigger | Сотрудничай, пока оппонент не предаст; после первого предательства — предавай вечно | Хороша как угроза, но не прощает ошибок |
Аксельрод выделил четыре свойства успешных стратегий:
- Доброта — никогда не предавай первым.
- Мстительность — немедленно наказывай предательство.
- Прощение — возвращайся к сотрудничеству, если оппонент исправился.
- Ясность — будь предсказуемым, чтобы оппонент мог адаптироваться.
Эволюционный подход
Биолог Джон Мейнард Смит и математик Джордж Прайс ещё в 1973 году применили теорию игр к эволюции. Если рассматривать популяцию организмов, где каждый играет в дилемму заключённого с соседями, то «кооператоры» вымирают, а «предатели» захватывают популяцию — но затем гибнут сами, потому что им больше некого эксплуатировать. Эволюционно стабильной оказывается смешанная стратегия, близкая к «Око за око».
Именно парадокс заключённого стал главным математическим инструментом для объяснения одной из величайших загадок биологии: почему вообще существует альтруизм в мире, управляемом естественным отбором.
Суперрациональность Хофштадтера
Дуглас Хофштадтер, автор знаменитой книги «Гёдель, Эшер, Бах», в 1983 году предложил концепцию «суперрациональности». Его аргумент: если оба игрока действительно рациональны и знают, что второй тоже рационален, они должны прийти к одному и тому же решению (ведь рациональное мышление детерминировано). Поскольку обоюдное сотрудничество лучше обоюдного предательства, суперрациональный агент выбирает сотрудничество. Эта идея элегантна, но большинство теоретиков игр её не принимают: она нарушает принцип, что выбор одного игрока не может причинно влиять на выбор другого.
Квантовая версия
В 1999 году физики Юнсун Эйзерт, Мартин Вильбенс и Маркус Леванштейн показали, что если игрокам разрешить «квантовые» стратегии (запутанные квантовые состояния), парадокс исчезает. Появляется новое равновесие Нэша, совпадающее с оптимумом Парето. Звучит как магия, но это скорее демонстрация того, что парадокс укоренён в структуре классической логики выбора.
Контрактный подход
Философы-контрактуалисты, идущие от Томаса Гоббса, видят в парадоксе обоснование необходимости государства. Если два рациональных агента неизбежно предают друг друга, то нужна внешняя сила — закон, суд, полиция — которая изменит матрицу выигрышей, сделав предательство невыгодным. Дэвид Готье в книге «Мораль по соглашению» (1986) пытался доказать, что рациональные агенты способны договориться о сотрудничестве и без внешнего принуждения, но его аргументы остаются дискуссионными.
Где этот парадокс встречается в реальной жизни, науке и математике
Парадокс заключённого — не абстрактная головоломка для математиков. Он описывает реальные ситуации, в которых мы оказываемся ежедневно, часто даже не осознавая этого.
Гонка вооружений
Самый масштабный пример — ядерное противостояние. И США, и СССР были бы в лучшем положении, если бы оба сократили арсеналы (взаимное сотрудничество). Но каждая сторона боялась, что противник продолжит вооружаться, и поэтому наращивала свой потенциал. Результат — триллионы долларов, потраченные обеими сторонами на оружие, которое они надеялись никогда не использовать. Договоры о контроле вооружений (ОСВ-1, СНВ) — это, по сути, внешний механизм, превращающий одноразовую дилемму в повторяющуюся с возможностью контроля.
Экономика и бизнес
| Ситуация | Сотрудничество | Предательство | Результат взаимного предательства |
|---|---|---|---|
| Ценовые войны между конкурентами | Обе компании держат высокие цены, обе зарабатывают | Одна снижает цену, переманивая клиентов | Обе снижают цены до минимума, обе теряют прибыль |
| Рекламные бюджеты | Обе компании тратят мало на рекламу, доли рынка сохраняются | Одна увеличивает расходы, захватывает долю | Обе тратят огромные суммы, доли рынка не меняются |
| Картели ОПЕК | Все ограничивают добычу, цена нефти высокая | Одна страна наращивает добычу тайком | Все наращивают добычу, цена падает |
| Допинг в спорте | Все спортсмены чисты, конкуренция честная | Один принимает допинг, получает преимущество | Все принимают допинг, здоровье подорвано, преимущества нет |
Экология и «трагедия общин»
Парадокс заключённого лежит в основе так называемой «трагедии общин», описанной биологом Гарретом Хардином в 1968 году. Представьте общее пастбище: каждому фермеру выгодно выпасти ещё одну корову (предательство), но если все так поступят, пастбище будет уничтожено (взаимное предательство). Изменение климата — это дилемма заключённого в масштабе планеты: каждой стране невыгодно в одиночку сокращать выбросы, если остальные продолжают загрязнять.
Повседневная жизнь
- Пробки на дорогах. Каждому водителю быстрее ехать на машине, чем ждать автобус. Но когда все выбирают машину, все стоят в пробке, и каждому было бы быстрее на автобусе.
- Антибиотики. Каждому пациенту выгодно принять антибиотик при любом подозрении на инфекцию. Но массовое применение создаёт устойчивые бактерии, и в итоге антибиотики перестают работать для всех.
- Налоги. Каждому выгодно уклоняться от налогов, пользуясь инфраструктурой за чужой счёт. Но если все уклоняются, инфраструктура разрушается.
- Шум в ресторане. Каждый столик говорит чуть громче, чтобы перекричать соседей. Результат — все кричат, никто не слышит.
Биология
Взаимный альтруизм у животных — это повторяющаяся дилемма заключённого в действии. Летучие мыши-вампиры делятся кровью с голодными сородичами, но запоминают, кто делился с ними, а кто нет, и отказывают «предателям» в будущем — стратегия, удивительно похожая на «Око за око». Рыбы-чистильщики могут откусить кусок слизи хозяина вместо того, чтобы честно удалять паразитов, но хозяева запоминают обманщиков и больше к ним не приплывают.
Вот мысленный эксперимент. Вы участвуете в анонимной онлайн-игре с незнакомцем. Один раунд, без повторений, без последствий. Вам обоим предлагают: нажмите «сотрудничать» — и каждый получит по 100 долларов. Нажмите «предать» — и если второй сотрудничает, вы получите 300, а он ничего. Если оба предадут — каждый получит по 10 долларов. Что вы нажмёте — и что, по-вашему, нажмёт незнакомец?
Математическая структура
Для тех, кто хочет понять парадокс точнее, важно зафиксировать формальные условия, при которых дилемма заключённого возникает. Пусть T — выигрыш предателя при молчании партнёра (temptation), R — выигрыш при взаимном сотрудничестве (reward), P — выигрыш при взаимном предательстве (punishment), S — выигрыш молчащего при предательстве партнёра (sucker’s payoff).
Дилемма заключённого существует тогда и только тогда, когда выполняются два неравенства:
- T > R > P > S (предательство при кооперации оппонента выгоднее взаимной кооперации, которая выгоднее взаимного предательства, которое выгоднее роли «простака»).
- 2R > T + S (взаимное сотрудничество в среднем выгоднее, чем чередование ролей «предатель/жертва»; это условие особенно важно для повторяющейся игры).
Если хотя бы одно из неравенств нарушено, структура игры меняется — и это уже не дилемма заключённого, а одна из других канонических игр: «Охота на оленя», «Цыплёнок» (Chicken) или «Битва полов».
Интересные факты и связанные парадоксы
Парадокс заключённого — не одинокий остров в океане теории игр. Он связан с целым архипелагом других парадоксов и контринтуитивных результатов.
| Связанный парадокс/концепция | Суть | Связь с дилеммой заключённого |
|---|---|---|
| Трагедия общин | Общий ресурс истощается, когда каждый использует его рационально | Многопользовательская версия дилеммы заключённого |
| Парадокс Ньюкома | Должны ли вы брать одну коробку или две, если предсказатель почти всегда угадывает ваш выбор? | Связан через суперрациональность Хофштадтера: в обоих случаях доминирующая стратегия конфликтует с «правильным» ответом |
| Дилемма путешественника | Два пассажира заявляют стоимость потерянного багажа; правила поощряют занижение | Равновесие Нэша предсказывает минимальную заявку, но реальные люди заявляют почти максимум |
| Игра «Цыплёнок» (Chicken) | Два водителя едут навстречу друг другу; свернувший — «цыплёнок» | Отличается от дилеммы заключённого тем, что взаимное предательство — худший исход для обоих, а не просто плохой |
| Охота на оленя | Два охотника могут поймать оленя вместе или зайца поодиночке | В отличие от дилеммы, здесь взаимное сотрудничество тоже является равновесием Нэша |
| Парадокс обратной индукции | В конечной повторяющейся дилемме рациональные игроки должны предавать с первого хода | Прямое следствие: если оба знают, что игра длится 100 раундов, логика разворачивается с последнего хода, уничтожая сотрудничество |
Факты, о которых мало кто знает
- Экспериментальная аномалия. В первом эксперименте Флада и Дрешера (1950) участники сотрудничали в 60% случаев при 100 повторениях — вопреки теоретическому предсказанию о полном предательстве. Один из участников потом написал: «Я пытался показать ему, что нам обоим выгодно сотрудничать, но он всё время предавал». Второй участник записал: «Он всё время молчит — это глупо, надо этим пользоваться». Два типа рациональности столкнулись лоб в лоб.
- Дилемма в телешоу. Британское шоу «Golden Balls» с 2007 по 2009 год использовало дилемму заключённого как финальный раунд: два участника выбирали «Split» (сотрудничество) или «Steal» (предательство). Записи этих эпизодов стали бесценным материалом для экономистов — ведь ставки были реальными, иногда более 100 000 фунтов. В одном знаменитом эпизоде участник по имени Ник объявил, что обязательно выберет «Steal», но потом разделит деньги поровну за кулисами. Его оппонент Абрахам в панике выбрал «Split». Ник тоже выбрал «Split». Он блефовал, чтобы заставить оппонента поверить, что предательство бессмысленно, — и это был один из самых блистательных ходов в истории теории игр на практике.
- Эволюционные симуляции. В 2012 году команда из Мичиганского университета обнаружила, что в компьютерной эволюции стратегий с мутациями и шумом наиболее устойчивой оказывается не «Око за око», а «Великодушная Око за око» — стратегия, которая с небольшой вероятностью прощает предательство. Абсолютная справедливость оказалась менее жизнеспособной, чем справедливость с примесью милосердия.
- Нейробиология. Исследования с помощью фМРТ показали, что взаимное сотрудничество в дилемме заключённого активирует те же зоны мозга, что и получение денежного вознаграждения (вентральный стриатум, орбитофронтальная кора). Мозг буквально «награждает» нас за кооперацию — что объясняет, почему люди сотрудничают чаще, чем предсказывает теория.
- Искусственный интеллект. В 2017 году исследователи DeepMind показали, что алгоритмы глубокого обучения, играющие в многоагентные игры с элементами дилеммы заключённого, спонтанно «изобретают» стратегии наказания и сотрудничества, никогда не будучи обученными этим концепциям. ИИ переоткрыл «Око за око» самостоятельно.
- Длина тени будущего. Роберт Аксельрод ввёл термин «тень будущего» (shadow of the future): чем более вероятна будущая встреча, тем сильнее стимул к сотрудничеству. Это объясняет, почему в маленьких городах люди честнее, чем в мегаполисах: вероятность повторной встречи с тем же человеком выше.
Парадокс внутри парадокса
Есть ещё один уровень, который редко обсуждают. В конечной повторяющейся дилемме (скажем, ровно 100 раундов, и оба знают это) работает обратная индукция. Рассуждение такое: в последнем, 100-м раунде нет будущего — значит, оба предадут. Но если в 100-м оба предадут, то 99-й становится «последним значимым» — и в нём тоже оба предадут. Эта логика разворачивается до первого раунда, и теория предсказывает предательство с самого начала. На практике этого почти никогда не происходит: люди сотрудничают примерно до 90-го раунда, а потом начинают предавать. Теория говорит одно, реальность — другое. Что из этого «иррационально»?
Этот разрыв между теорией и практикой породил целое направление — поведенческую теорию игр, в которой работают, среди прочих, нобелевские лауреаты Даниэль Канеман и Ричард Талер. Их вывод: модель «homo economicus» — полностью рационального агента — не описывает реального человека. И, возможно, это не баг, а фича: наша «иррациональность» — склонность доверять, прощать, сотрудничать даже когда это невыгодно — является эволюционным преимуществом, которое позволило виду Homo sapiens создать цивилизацию.
