ИИ-агенты провалили тесты на выполнение реальной фриланс-работы

Этоинтересно

Утечка по GTA 6 указывает на поведение NPC нового поколения – даже лучше RDR 2

01.04.2026

“Невозможная” платиновая трофейная награда PlayStation наконец покорилась спустя 13 лет

01.04.2026

Компании активно заменяют сотрудников на ИИ-агентов в надежде сократить расходы, но новое исследование показывает катастрофическую неэффективность такого подхода. Искусственный интеллект оказался не способен справиться даже с базовыми задачами фрилансеров.

Исследователи из некоммерческой организации Center for AI Safety и компании Scale AI, чья армия фрилансеров выполняет значительную часть рутинной работы для индустрии ИИ, протестировали шесть ведущих ИИ-агентов на симулированных фриланс-задачах. Результаты оказались разгромными – ни один агент не смог выполнить больше 3% работы, заработав всего $1810 из возможных $143 991.

Директор CAIS Дэн Хендрикс заявил изданию Wired:

Надеюсь, это даст более точное представление о реальных возможностях ИИ.

Для тестов разработчики создали собственный бенчмарк Remote Labor Index, использующий широкий спектр реальных удаленных проектов для оценки способности ботов выполнять экономически ценную работу в индустриях от геймдева до анализа данных.

Лучшим исполнителем стал ИИ-агент китайского стартапа Manus с показателем автоматизации всего 2,5%. Модель смогла завершить лишь 2,5% назначенных проектов на уровне, приемлемом для реальной фриланс-работы.

Второе место разделили Grok 4 Илона Маска и Claude Sonnet 4.5 от Anthropic с результатом 2,1%. Anthropic позиционирует свою модель как "лучшую в мире для программирования" и "самую мощную для создания сложных агентов".

Новейшая модель GPT-5 от OpenAI с заявленным "интеллектом уровня PhD" показала 1,7%. При этом глава компании Сэм Альтман утверждает, что GPT-5 – это значительный шаг на пути к AGI, то есть искусственному общему интеллекту, который должен превосходить человеческие когнитивные способности практически во всех аспектах. OpenAI определяет AGI как "высокоавтономные системы, превосходящие людей в большинстве экономически ценных работ" – то, чего GPT-5 явно не достигла.

Собственный ИИ-агент OpenAI под названием ChatGPT Agent оказался вторым с конца, едва достигнув 1,3%. Абсолютным аутсайдером стал Gemini 2.5 Pro от Google с удручающими 0,8%.

Продажа ИИ-агентов работодателям стала навязчивой идеей индустрии, так как лидеры вроде OpenAI пытаются монетизировать популярность своих чат-ботов, многие из которых бесплатны. Несмотря на энтузиазм руководителей, сокращающих персонал ради ИИ, остается вопросом, способна ли автоматизация реально повысить продуктивность или хотя бы компенсировать нехватку человеческих талантов.

Директор по исследованиям Scale AI Бинг Ли сказал изданию Wired:

Мы годами обсуждали ИИ и рабочие места, но большая часть дискуссий была гипотетической или теоретической.

Множество руководителей, заменивших сотрудников на ИИ, были вынуждены нанять людей обратно после обнаружения неэффективности инструментов. Исследование MIT показало, что 95% компаний, запустивших пилотные ИИ-инициативы, не зафиксировали значимого роста выручки. Другое исследование продемонстрировало, что внедрение ИИ-инструментов в рабочие процессы привело к потоку низкокачественного контента, который не только замедлил всё из-за необходимости масштабных правок, но и создал напряжение между коллегами, вынужденными исправлять такую "халтуру".

Хендрикс указал на недостатки, которые продолжают преследовать ИИ-агентов несмотря на стремительное развитие области.

У них нет долгосрочной памяти, они не могут непрерывно обучаться на опыте. Они не способны осваивать навыки в процессе работы, как люди.

Однако эти очевидные недостатки пока не замедлили волну увольнений, связанных с ИИ. Даже наоборот, тенденция только набирает обороты.

ИИ-агенты провалили тесты на выполнение реальной фриланс-работы

Утечка по GTA 6 указывает на поведение NPC нового поколения – даже лучше RDR 2

“Невозможная” платиновая трофейная награда PlayStation наконец покорилась спустя 13 лет

Другие новости

Утечка по GTA 6 указывает на поведение NPC нового поколения – даже лучше RDR 2

“Невозможная” платиновая трофейная награда PlayStation наконец покорилась спустя 13 лет

Стратегия Old World от создателя Civilization 4 получила новое DLC с тремя индийскими фракциями, гуннами, индуизмом и буддизмом

Инди-разработчики считают, что геймеры устали от больших игр на сотни часов

NVIDIA выпустила DLSS 4.5 с динамической мультикадровой генерацией и режимом 6X для видеокарт RTX 50

Игроки World of Warcraft попытались убить рейдового босса на неделю раньше с помощью багов и крыс, но Blizzard всё предусмотрела

Парадокс: Mercedes-Benz официально ушла из России, при этом каждый 27-й «Гелендваген» попадает в РФ

Популярные новости

Наигрались? Samsung Galaxy S22 FE, скорее всего, отменён

Неприхотливые часы, которым не нужно много внимания. Обзор Realme Watch 2

Одноклассник Toyota Alphard с авиационными креслами и расходом 5,9 л/100 км. Dongfeng Forthing U-Tour V9 поступит в продажу в первом квартале 2024

Мем-токен GEN вырос на 150% – станет ли COPIUM следующей криптовалютой, которая взорвется?

На вражеском БПЛА ZALA 42 нашли камеру заднего обзора — это новый метод защиты от зенитных FPV

Подписка на новости

Информация

ТОП новости

Вышел Chery QQ3 EV от $8530: запас хода до 420 км и зарядка за 16 минут

Одичавшие свиньи с заброшенных ферм Фукусимы переписывают представления ученых о генетике