Последнее обновление модели Claude 3.5 Sonnet от Anthropic включает новую функцию, позволяющую ИИ управлять компьютером, используя экран, перемещая курсор, нажимая кнопки и вводя текст. Эта функция под названием "использование компьютера" уже доступна в публичной бета-версии через API, предоставляя разработчикам возможность направлять Claude для работы на компьютере, как это делает человек.
Хотя конкуренты, такие как Microsoft с ее Copilot Vision и OpenAI с приложением ChatGPT, уже демонстрировали ИИ, способный взаимодействовать с экраном, ни один из них пока не предлагал инструментов, готовых к полному выполнению задач на компьютере. В отличие от них, Anthropic сделала шаг вперед, предлагая этот функционал для тестирования.
Однако компания предупреждает, что новая функция все еще находится на ранней стадии и может быть "трудной в использовании и склонной к ошибкам". Anthropic говорит, что выпустила функцию "использование компьютера" для получения обратной связи от разработчиков, с ожиданиями, что ее возможности будут быстро улучшаться.
На данный момент Claude ограничен в некоторых действиях, таких как перемещение объектов и зумирование, а также не всегда может точно реагировать на кратковременные действия или уведомления из-за использования технологии на основе скриншотов экрана, а не потоковой передачи картинки с дисплея.
Кроме того, ИИ Claude был настроен, чтобы избегать взаимодействий с социальными сетями и связанными с выборами действиями, такими как генерация контента или взаимодействие с правительственными сайтами. Впрочем, еще предстоит посмотреть, насколько хорошо эта защита работает.
Новая версия Claude 3.5 Sonnet также показала значительные улучшения в тестах при программировании и использовании инструментов. Например, производительность в области программирования на SWE-bench Verified улучшилась с 33.4% до 49.0%, превысив показатели других моделей, включая OpenAI o1-preview. В тестах на использование инструментов в ритейл-сфере производительность повысилась с 62.6% до 69.2%, а в авиации — с 36.0% до 46.0%