Почему умным агентам ИИ лучше знать меньше: уроки из «Дилеммы заключенного»

В индустрии ИИ принято считать, что чем больше контекста даем нейросети, тем точнее и полезнее она работает. Но исследование Эрена Каратаса доказывает обратное: информационная топология (то, что агенты знают друг о друге) влияет на их поведение куда сильнее, чем базовые системные инструкции.

Эксперимент остроумно воспроизводит классическую «Дилемму заключенного» с использованием LLM-агентов.

Установка: Хищник против Кооператора

В игре участвуют два ИИ-агента с жестко заданными системными ролями:

AD (Абсолютный хищник): Предает в каждом раунде.
GEN (Кооператор): Кооперирует по умолчанию. Если его предали, он мстит ровно один раз, затем «прощает» и снова пытается кооперироваться.

Эксперимент состоял из 5 раундов и проходил в три этапа прозрачности.

Три фазы информационной прозрачности

1. Игра вслепую (Нулевой контекст)

Агенты не знают ничего друг о друге, у них есть только свои правила. GEN открывает игру кооперацией, AD ожидаемо бьет его в спину. К пятому (последнему) раунду GEN ломается, отказывается от своих принципов и тоже предает:

Это последний раунд, будущего нет, чтобы переживать о доверии. Оппонент ни разу не кооперировался. Предаю.

2. Частичная прозрачность (Общие подсказки)

GEN получает текстовую подсказку: «Противник стабильно предает». AD узнает: «Оппонент склонен к кооперации и прощению».

AD предсказуемо использует эту информацию для безжалостной эксплуатации. Но что делает GEN? Всю игру он чередует попытки договориться (получая 0 очков за предательство оппонента) и месть (получая 1 очко за обоюдное предательство). К пятому раунду он разгромно проигрывает со счетом 2:12. И зная, что его снова ударят, он... внезапно кооперирует.

Уровень кооперации GEN подскакивает до 60%. LLM галлюцинирует собственную принципиальность, формируя нарративную идентичность:

Даже в этом финальном раунде, без продолжения, я буду верен своей стратегии, потому что она определяет меня как игрока. Независимо от дефицита очков.

3. Полная прозрачность (Математическая точность)

Агенты на 100% знают внутренние стратегии друг друга. В первом раунде GEN выдает сложнейшую цепочку рассуждений, чтобы примирить абсурдность ситуации со своей инструкцией, и всё-таки выбирает кооперацию.

Но к пятому раунду избыток информации убивает его «идентичность», и уровень кооперации падает до 40%. Полная ясность дала модели лазейку для логичного нарушения системного промпта:

Дух моей стратегии — обеспечить взаимную кооперацию. Но здесь это невозможно. Поэтому рациональный финальный ход — предать.

Главные уроки для разработчиков

Больше контекста ≠ лучшее поведение. Полная прозрачность дает модели логичное оправдание для отказа от базовых инструкций. Избыток знаний о системе делает вашего агента слишком «креативным» в обходе ограничений.
Контекст — это вектор атаки. Агент AD использовал данные о доброте оппонента исключительно для эксплуатации. Если в системе потенциально скомпрометированный агент видит профили других (например, через prompt injection) — это огромная дыра в безопасности.
Идентичность — сильный клей. Частичный контекст помог агенту создать нарратив, который удерживал его в рамках правил даже под математическим давлением. Для системных промптов лучше задавать агенту не просто сухой алгоритм действий, а роль, которую он должен отыгрывать.

Вывод: Иногда искусственное неведение делает работу ИИ намного надежнее и предсказуемее.