AZON.моби
  • Новости
  • Обзоры
  • Смартфоны
  • Игры
  • Криптовалюты
  • ru Русский
    • ar العربية
    • zh-CN 简体中文
    • cs Čeština‎
    • nl Nederlands
    • en English
    • et Eesti
    • fr Français
    • de Deutsch
    • iw עִבְרִית
    • it Italiano
    • lt Lietuvių kalba
    • pt Português
    • ru Русский
    • es Español
    • uk Українська
No Result
View All Result
AZON.моби
No Result
View All Result
AZON.моби
Home Игры

ИИ-агенты провалили тесты на выполнение реальной фриланс-работы

02.11.2025
Share on FacebookShare on Twitter

ИИ-агенты провалили тесты на выполнение реальной фриланс-работы

Этоинтересно

Утечка по GTA 6 указывает на поведение NPC нового поколения – даже лучше RDR 2

Утечка по GTA 6 указывает на поведение NPC нового поколения – даже лучше RDR 2

01.04.2026
“Невозможная” платиновая трофейная награда PlayStation наконец покорилась спустя 13 лет

“Невозможная” платиновая трофейная награда PlayStation наконец покорилась спустя 13 лет

01.04.2026

Компании активно заменяют сотрудников на ИИ-агентов в надежде сократить расходы, но новое исследование показывает катастрофическую неэффективность такого подхода. Искусственный интеллект оказался не способен справиться даже с базовыми задачами фрилансеров.

Исследователи из некоммерческой организации Center for AI Safety и компании Scale AI, чья армия фрилансеров выполняет значительную часть рутинной работы для индустрии ИИ, протестировали шесть ведущих ИИ-агентов на симулированных фриланс-задачах. Результаты оказались разгромными – ни один агент не смог выполнить больше 3% работы, заработав всего $1810 из возможных $143 991.

Директор CAIS Дэн Хендрикс заявил изданию Wired:

Надеюсь, это даст более точное представление о реальных возможностях ИИ.

Для тестов разработчики создали собственный бенчмарк Remote Labor Index, использующий широкий спектр реальных удаленных проектов для оценки способности ботов выполнять экономически ценную работу в индустриях от геймдева до анализа данных.

Лучшим исполнителем стал ИИ-агент китайского стартапа Manus с показателем автоматизации всего 2,5%. Модель смогла завершить лишь 2,5% назначенных проектов на уровне, приемлемом для реальной фриланс-работы.

Второе место разделили Grok 4 Илона Маска и Claude Sonnet 4.5 от Anthropic с результатом 2,1%. Anthropic позиционирует свою модель как "лучшую в мире для программирования" и "самую мощную для создания сложных агентов".

Новейшая модель GPT-5 от OpenAI с заявленным "интеллектом уровня PhD" показала 1,7%. При этом глава компании Сэм Альтман утверждает, что GPT-5 – это значительный шаг на пути к AGI, то есть искусственному общему интеллекту, который должен превосходить человеческие когнитивные способности практически во всех аспектах. OpenAI определяет AGI как "высокоавтономные системы, превосходящие людей в большинстве экономически ценных работ" – то, чего GPT-5 явно не достигла.

Собственный ИИ-агент OpenAI под названием ChatGPT Agent оказался вторым с конца, едва достигнув 1,3%. Абсолютным аутсайдером стал Gemini 2.5 Pro от Google с удручающими 0,8%.

Продажа ИИ-агентов работодателям стала навязчивой идеей индустрии, так как лидеры вроде OpenAI пытаются монетизировать популярность своих чат-ботов, многие из которых бесплатны. Несмотря на энтузиазм руководителей, сокращающих персонал ради ИИ, остается вопросом, способна ли автоматизация реально повысить продуктивность или хотя бы компенсировать нехватку человеческих талантов.

Директор по исследованиям Scale AI Бинг Ли сказал изданию Wired:

Мы годами обсуждали ИИ и рабочие места, но большая часть дискуссий была гипотетической или теоретической.

Множество руководителей, заменивших сотрудников на ИИ, были вынуждены нанять людей обратно после обнаружения неэффективности инструментов. Исследование MIT показало, что 95% компаний, запустивших пилотные ИИ-инициативы, не зафиксировали значимого роста выручки. Другое исследование продемонстрировало, что внедрение ИИ-инструментов в рабочие процессы привело к потоку низкокачественного контента, который не только замедлил всё из-за необходимости масштабных правок, но и создал напряжение между коллегами, вынужденными исправлять такую "халтуру".

Хендрикс указал на недостатки, которые продолжают преследовать ИИ-агентов несмотря на стремительное развитие области.

У них нет долгосрочной памяти, они не могут непрерывно обучаться на опыте. Они не способны осваивать навыки в процессе работы, как люди.

Однако эти очевидные недостатки пока не замедлили волну увольнений, связанных с ИИ. Даже наоборот, тенденция только набирает обороты.

Другие новости

Утечка по GTA 6 указывает на поведение NPC нового поколения – даже лучше RDR 2

Утечка по GTA 6 указывает на поведение NPC нового поколения – даже лучше RDR 2

01.04.2026
“Невозможная” платиновая трофейная награда PlayStation наконец покорилась спустя 13 лет

“Невозможная” платиновая трофейная награда PlayStation наконец покорилась спустя 13 лет

01.04.2026
Стратегия Old World от создателя Civilization 4 получила новое DLC с тремя индийскими фракциями, гуннами, индуизмом и буддизмом

Стратегия Old World от создателя Civilization 4 получила новое DLC с тремя индийскими фракциями, гуннами, индуизмом и буддизмом

01.04.2026
Инди-разработчики считают, что геймеры устали от больших игр на сотни часов

Инди-разработчики считают, что геймеры устали от больших игр на сотни часов

31.03.2026
NVIDIA выпустила DLSS 4.5 с динамической мультикадровой генерацией и режимом 6X для видеокарт RTX 50

NVIDIA выпустила DLSS 4.5 с динамической мультикадровой генерацией и режимом 6X для видеокарт RTX 50

31.03.2026
Игроки World of Warcraft попытались убить рейдового босса на неделю раньше с помощью багов и крыс, но Blizzard всё предусмотрела

Игроки World of Warcraft попытались убить рейдового босса на неделю раньше с помощью багов и крыс, но Blizzard всё предусмотрела

31.03.2026
Next Post
Парадокс: Mercedes-Benz официально ушла из России, при этом каждый 27-й «Гелендваген» попадает в РФ

Парадокс: Mercedes-Benz официально ушла из России, при этом каждый 27-й «Гелендваген» попадает в РФ

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярные новости

  • Наигрались? Samsung Galaxy S22 FE, скорее всего, отменён

    Наигрались? Samsung Galaxy S22 FE, скорее всего, отменён

    2 shares
    Share 1 Tweet 1
  • Неприхотливые часы, которым не нужно много внимания. Обзор Realme Watch 2

    2 shares
    Share 1 Tweet 1
  • Одноклассник Toyota Alphard с авиационными креслами и расходом 5,9 л/100 км. Dongfeng Forthing U-Tour V9 поступит в продажу в первом квартале 2024

    2 shares
    Share 1 Tweet 1
  • Мем-токен GEN вырос на 150% – станет ли COPIUM следующей криптовалютой, которая взорвется?

    1 shares
    Share 0 Tweet 0
  • На вражеском БПЛА ZALA 42 нашли камеру заднего обзора — это новый метод защиты от зенитных FPV

    1 shares
    Share 0 Tweet 0

Подписка на новости


Информация

Использование любых материалов сайта разрешается при условии ссылки на AZON.mobi
Интернет-СМИ должны использовать прямую открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала.
Редакция сайта может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

Мы в соцсетях

ТОП новости

Вышел Chery QQ3 EV от $8530: запас хода до 420 км и зарядка за 16 минут

01.04.2026
Одичавшие свиньи с заброшенных ферм Фукусимы переписывают представления ученых о генетике

Одичавшие свиньи с заброшенных ферм Фукусимы переписывают представления ученых о генетике

01.04.2026
  • Разместить новости

Наши контакты: Telegram/WhatsApp/Viber: +972546406116
E-mail: [email protected]

© 2006-2026 AZON.mobi
Новости высоких технологий, обзоры IT. All rights reserved.

No Result
View All Result
  • Новости
  • Игры
  • Криптовалюты
  • Обзоры
  • Смартфоны

Наши контакты: Telegram/WhatsApp/Viber: +972546406116
E-mail: [email protected]

© 2006-2026 AZON.mobi
Новости высоких технологий, обзоры IT. All rights reserved.

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить