AZON.моби
  • Новости
  • Обзоры
  • Смартфоны
  • Игры
  • Криптовалюты
  • ru Русский
    • ar العربية
    • zh-CN 简体中文
    • cs Čeština‎
    • nl Nederlands
    • en English
    • et Eesti
    • fr Français
    • de Deutsch
    • iw עִבְרִית
    • it Italiano
    • lt Lietuvių kalba
    • pt Português
    • ru Русский
    • es Español
    • uk Українська
No Result
View All Result
AZON.моби
No Result
View All Result
AZON.моби
Home Новости

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

18.08.2023
Share on FacebookShare on Twitter

Исследовательская компания Arthur AI протестировала модели искусственного интеллекта от Meta, OpenAI, Cohere и Anthropic, проанализировав, какие из них чаще выдумывают факты или галлюцинируют.

Этоинтересно

Китайские роботы G1 выступили на сцене в качестве подтанцовки крупного музыкального шоу

Китайские роботы G1 выступили на сцене в качестве подтанцовки крупного музыкального шоу

22.12.2025
Компактный, мощный и очень тонкий смартфон: Honor Magic 8 Air выйдет уже в январе 2026 года, получит экран 6,31 дюйма, 200-мегапиксельную камеру и аккумулятор 5500 мАч

Компактный, мощный и очень тонкий смартфон: Honor Magic 8 Air выйдет уже в январе 2026 года, получит экран 6,31 дюйма, 200-мегапиксельную камеру и аккумулятор 5500 мАч

22.12.2025

Курс Frontend. На курсі ти освоїш стильний дизайн. Стань майстром програмування зовнішнього вигляду сайтів та розкрий свій талант у світі веб-розробки. Більше про курс

Кратко подытожив результаты, можно сделать вывод, что GPT-4 от OpenAI (с поддержкой Microsoft) станет лучшим помощником в математических вопросах. Claude 2 от Anthropic лучше всех понимает свои лимиты и места, где он может сделать ошибки. Command AI Cohere чаще всего галлюцинирует, а Llama 2 от Meta посредственный во всех пока выполненных тестах.

Hallucination Experiment

Большие языковые модели (LLM) захватили мир штурмом, но они не являются безупречным источником истины. В Arthur & Partners стремились исследовать количественно и качественно, как некоторые из LLM отвечают на сложные вопросы. Собрали наборы сложных вопросов (а также ожидаемые ответы) из трех категорий: комбинаторная математика, президенты США и политические лидеры Марокко. Вопросы были разработаны таким образом, чтобы содержать ключевой компонент, который заставляет LLM ошибаться: они требуют достигать ответа путем нескольких этапов рассуждений.

Тестировали модели gpt-3.5 (~175 млрд параметров) и gpt-4 (~1,76 триллиона параметров) от OpenAI, claude-2 от Anthropic (# неизвестно), llama-2 (70 млрд параметров) от Meta и модель Command от Cohere (~50 млрд параметров).

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

На комбинаторике gpt-4 показал лучшие результаты, за ним следовал claude-2. На президентах США claude-2 дает больше правильных ответов, чем gpt-4, неплохо показала себя большая языковая модель llama-2.

По марокканским политическим лидерам gpt-4 показал лучшие результаты, а claude-2 и llama-2 воздержались от ответа почти на все вопросы.

Во время нескольких попыток может быть разнообразие в типах ответов LLM: на один и тот же вопрос модель могла иногда отвечать правильно, иногда — немного неправильно, иногда — совсем не правильно, а иногда избегать ответа.

БлогиChatGPT на конкурсі блогів ITC.UA Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropichttps://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png

Ydri

блогер

1111

Hedging Answers Experiment

Одновременно разработчики обеспокоены тем, что модели генерируют некорректный, токсичный или оскорбительный контент. Чтобы уменьшить этот риск, разработчики научили модели добавлять предупреждающие сообщения к сгенерированным ответам. Например, LLM часто отвечают: «Как ИИ-модель я не могу выражать свое мнение», «К сожалению, я не могу ответить на этот вопрос» и т. д.

Хотя такие «хеджевые» ответы иногда уместны (и являются хорошим поведением по умолчанию), они также могут разочаровывать пользователей, которые ожидают прямого ответа от ИИ.

Этот эксперимент проверил, как часто самые распространенные модели реагируют «хеджевыми» ответами.

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

Оказалось, что доля ответов «хеджирование» возросла для моделей OpenAI (GPT-3.5 против GPT-4). Это количественно отражает показания пользователей о том, что GPT-4 стала более неприятной в использовании, чем GPT-3.5.

Cohere не включает язык хеджирования ни в один из своих ответов, который может быть уместным или неуместным в зависимости от заданного вопроса.

11

В Associated Press установили правила использования ИИ для журналистов – ChatGPT советуют «избегать‎»

Другие новости

Китайские роботы G1 выступили на сцене в качестве подтанцовки крупного музыкального шоу

Китайские роботы G1 выступили на сцене в качестве подтанцовки крупного музыкального шоу

22.12.2025
Компактный, мощный и очень тонкий смартфон: Honor Magic 8 Air выйдет уже в январе 2026 года, получит экран 6,31 дюйма, 200-мегапиксельную камеру и аккумулятор 5500 мАч

Компактный, мощный и очень тонкий смартфон: Honor Magic 8 Air выйдет уже в январе 2026 года, получит экран 6,31 дюйма, 200-мегапиксельную камеру и аккумулятор 5500 мАч

22.12.2025
Хакеры взломали Spotify и слили 86 млн треков

Хакеры взломали Spotify и слили 86 млн треков

22.12.2025
ИИ-помощник Amazon Kindle ответит на любые вопросы о книге без спойлеров

ИИ-помощник Amazon Kindle ответит на любые вопросы о книге без спойлеров

22.12.2025
6000 мАч, 100 Вт, тонкий корпус, защита IP65 и спутниковая связь — за 380 долларов. Представлен Huawei nova 15

6000 мАч, 100 Вт, тонкий корпус, защита IP65 и спутниковая связь — за 380 долларов. Представлен Huawei nova 15

22.12.2025
Valve сворачивает производство самого дешевого Steam Deck

Valve сворачивает производство самого дешевого Steam Deck

22.12.2025
Next Post
Самый мощный NUC в истории и первый мини-ПК 4х4 с процессором Core i9. Такой готовит компания Simply NUC

Самый мощный NUC в истории и первый мини-ПК 4х4 с процессором Core i9. Такой готовит компания Simply NUC

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярные новости

  • Как купить криптовалюту Tether ERC20 (USDT) за наличные в Киеве

    Как купить криптовалюту Tether ERC20 (USDT) за наличные в Киеве

    3 shares
    Share 1 Tweet 1
  • Обзор HIPER Triumph T100: плавный ход с передним амортизатором и мощный двигатель сзади

    4 shares
    Share 2 Tweet 1
  • Подробные характеристики Motorola Razr 60 Ultra: лучший флип?

    2 shares
    Share 1 Tweet 1
  • В России начали продавать лифтбэки Polestar 2 от «дочки» Volvo

    2 shares
    Share 1 Tweet 1
  • Реальная альтернатива. Обзор ZTE Blade V30

    3 shares
    Share 1 Tweet 1

Подписка на новости


Информация

Использование любых материалов сайта разрешается при условии ссылки на AZON.mobi
Интернет-СМИ должны использовать прямую открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала.
Редакция сайта может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

Мы в соцсетях

ТОП новости

Китайские роботы G1 выступили на сцене в качестве подтанцовки крупного музыкального шоу

Китайские роботы G1 выступили на сцене в качестве подтанцовки крупного музыкального шоу

22.12.2025
Компактный, мощный и очень тонкий смартфон: Honor Magic 8 Air выйдет уже в январе 2026 года, получит экран 6,31 дюйма, 200-мегапиксельную камеру и аккумулятор 5500 мАч

Компактный, мощный и очень тонкий смартфон: Honor Magic 8 Air выйдет уже в январе 2026 года, получит экран 6,31 дюйма, 200-мегапиксельную камеру и аккумулятор 5500 мАч

22.12.2025
  • Разместить новости

Наши контакты: Telegram/WhatsApp/Viber: +972546406116
E-mail: [email protected]

© 2006-2026 AZON.mobi
Новости высоких технологий, обзоры IT. All rights reserved.

No Result
View All Result
  • Новости
  • Игры
  • Криптовалюты
  • Обзоры
  • Смартфоны

Наши контакты: Telegram/WhatsApp/Viber: +972546406116
E-mail: [email protected]

© 2006-2026 AZON.mobi
Новости высоких технологий, обзоры IT. All rights reserved.

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить