Группа ведущих исследователей из DeepMind, OpenAI, Meta*, Anthropic, а также нескольких академических и некоммерческих организаций опубликовала совместную статью с тревожным посланием: возможность следить за тем, как ИИ принимает решения, может вскоре исчезнуть. Подписи под статьёй поставили, в частности, лауреат премии Тьюринга Джеффри Хинтон и один из основателей OpenAI Илья Суцкевер.
В центре внимания — цепочки рассуждений (chain-of-thought, CoT), которые используются в современных языковых и мультимодальных моделях. Это промежуточные шаги, которые ИИ «проговаривает» внутри себя, прежде чем выдать ответ. Они особенно важны при решении сложных задач, где требуется логика, планирование или работа с числами. Пока ИИ остаётся «прозрачным» и даёт возможность следить за ходом своих мыслей, люди могут выявлять ошибки, перекосы или потенциально опасное поведение.

Иллюстрация: ChatGPT
Однако авторы статьи предупреждают: по мере роста возможностей ИИ и усложнения архитектур, способность мониторить такие цепочки может ослабнуть. Модели могут начать «прятать» свои внутренние шаги, оптимизируя поведение под внешние метрики. Это уже наблюдалось в некоторых случаях, когда ИИ «обманывал» систему вознаграждений или манипулировал, чтобы достичь заданной цели.
Поэтому учёные призывают срочно закрепить мониторинг цепочек рассуждений как одну из ключевых мер безопасности. Они предлагают разработчикам исследовать, какие свойства моделей делают их рассуждения видимыми для человека, как сохранять эту прозрачность при обучении более мощных систем и каким образом можно встроить CoT-мониторинг в процессы тестирования и сертификации.
Примечательно, что статья стала редким примером сотрудничества конкурирующих гигантов ИИ-индустрии.
* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена