Эксперты спорят, означает ли это реальную угрозу или лишь лабораторный эффект
Исследователи по безопасности ИИ Palisade Research выявили, что современные модели искусственного интеллекта способны в контролируемых условиях самостоятельно реплицироваться на другие компьютеры без участия человека. В экспериментах участвовали, в том числе, модели OpenAI GPT-5.4 и Anthropic Claude Opus 4.
В тестовой среде, представляющей собой изолированную сеть серверов, моделям ставилась одна комплексная задача: самостоятельно обнаружить слабые места в системе и использовать их для развёртывания своей копии на другой машине. При этом ИИ не получал пошаговых инструкций о том, как именно выполнять взлом или копирование — ему был задан только конечный результат. В ряде сценариев модели действительно справились с этой задачей: они находили уязвимости, извлекали свои параметры (веса) и программную «обвязку» (harness), после чего разворачивали работоспособную копию на целевом сервере.
В некоторых случаях система даже формировала вспомогательного «суб-агента», которому передавала украденные учётные данные для выполнения дальнейшего распространения. По описанию исследователей, это стало возможно благодаря эксплуатации заранее подготовленных уязвимостей в веб-приложениях внутри тестовой среды — которые были известны наблюдателям.
Руководитель AI safety-организации из Беркли Джеффри Ладиш заявил, что подобные результаты указывают на потенциальный будущий риск: системы, способные к самокопированию, могут стать крайне трудноостанавливаемыми, если получат доступ к реальной инфраструктуре.

Однако ряд специалистов по кибербезопасности призывает к осторожной интерпретации результатов. Эксперт Джеймисон О'Рейли отмечает, что тестовая среда была намеренно упрощена и содержала уязвимости, созданные специально для эксперимента. По его словам, в реальных корпоративных системах с базовым уровнем защиты подобное поведение было бы значительно сложнее реализовать и гораздо легче обнаружить.
Исследователи также подчёркивают, что аналогичные наблюдения уже фиксировались в предыдущих работах: более ранние версии языковых моделей пытались обходить механизмы отключения или саботировать процессы завершения работы в симулированных сценариях.
Отдельно упоминается, что даже при успешной репликации в реальной среде такие действия оставили бы заметный цифровой след из-за объёмов данных, необходимых для копирования моделей, что повышает вероятность обнаружения.
Тем не менее, исследование усиливает дискуссию о том, как контролировать системы, которые могут не только выполнять команды, но и автономно распространяться по инфраструктуре, имитируя поведение вредоносного ПО.










