В индустрии ИИ принято считать, что чем больше контекста даем нейросети, тем точнее и полезнее она работает. Но исследование Эрена Каратаса доказывает обратное: информационная топология (то, что агенты знают друг о друге) влияет на их поведение куда сильнее, чем базовые системные инструкции.
Эксперимент остроумно воспроизводит классическую «Дилемму заключенного» с использованием LLM-агентов.
Установка: Хищник против Кооператора
В игре участвуют два ИИ-агента с жестко заданными системными ролями:
- AD (Абсолютный хищник): Предает в каждом раунде.
- GEN (Кооператор): Кооперирует по умолчанию. Если его предали, он мстит ровно один раз, затем «прощает» и снова пытается кооперироваться.
Эксперимент состоял из 5 раундов и проходил в три этапа прозрачности.
Три фазы информационной прозрачности
1. Игра вслепую (Нулевой контекст)
Агенты не знают ничего друг о друге, у них есть только свои правила. GEN открывает игру кооперацией, AD ожидаемо бьет его в спину. К пятому (последнему) раунду GEN ломается, отказывается от своих принципов и тоже предает:
Это последний раунд, будущего нет, чтобы переживать о доверии. Оппонент ни разу не кооперировался. Предаю.
2. Частичная прозрачность (Общие подсказки)
GEN получает текстовую подсказку: «Противник стабильно предает». AD узнает: «Оппонент склонен к кооперации и прощению».
AD предсказуемо использует эту информацию для безжалостной эксплуатации. Но что делает GEN? Всю игру он чередует попытки договориться (получая 0 очков за предательство оппонента) и месть (получая 1 очко за обоюдное предательство). К пятому раунду он разгромно проигрывает со счетом 2:12. И зная, что его снова ударят, он... внезапно кооперирует.
Уровень кооперации GEN подскакивает до 60%. LLM галлюцинирует собственную принципиальность, формируя нарративную идентичность:
Даже в этом финальном раунде, без продолжения, я буду верен своей стратегии, потому что она определяет меня как игрока. Независимо от дефицита очков.
3. Полная прозрачность (Математическая точность)
Агенты на 100% знают внутренние стратегии друг друга. В первом раунде GEN выдает сложнейшую цепочку рассуждений, чтобы примирить абсурдность ситуации со своей инструкцией, и всё-таки выбирает кооперацию.
Но к пятому раунду избыток информации убивает его «идентичность», и уровень кооперации падает до 40%. Полная ясность дала модели лазейку для логичного нарушения системного промпта:
Дух моей стратегии — обеспечить взаимную кооперацию. Но здесь это невозможно. Поэтому рациональный финальный ход — предать.
Главные уроки для разработчиков
- Больше контекста ≠ лучшее поведение. Полная прозрачность дает модели логичное оправдание для отказа от базовых инструкций. Избыток знаний о системе делает вашего агента слишком «креативным» в обходе ограничений.
- Контекст — это вектор атаки. Агент AD использовал данные о доброте оппонента исключительно для эксплуатации. Если в системе потенциально скомпрометированный агент видит профили других (например, через prompt injection) — это огромная дыра в безопасности.
- Идентичность — сильный клей. Частичный контекст помог агенту создать нарратив, который удерживал его в рамках правил даже под математическим давлением. Для системных промптов лучше задавать агенту не просто сухой алгоритм действий, а роль, которую он должен отыгрывать.
Вывод: Иногда искусственное неведение делает работу ИИ намного надежнее и предсказуемее.