AZON.моби
  • Новости
  • Обзоры
  • Смартфоны
  • Игры
  • Криптовалюты
No Result
View All Result
AZON.моби
No Result
View All Result
AZON.моби
Home Новости

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

18.08.2023
Share on FacebookShare on Twitter

Исследовательская компания Arthur AI протестировала модели искусственного интеллекта от Meta, OpenAI, Cohere и Anthropic, проанализировав, какие из них чаще выдумывают факты или галлюцинируют.

Этоинтересно

Биотехнологическая компания BioSig потратит $1,1 млрд на токенизацию и создание золотой казны

Биотехнологическая компания BioSig потратит $1,1 млрд на токенизацию и создание золотой казны

09.07.2025
Xiaomi добавит дизайн даже в свой самый дешёвый смартфон. Появились рендеры Redmi 15C

Xiaomi добавит дизайн даже в свой самый дешёвый смартфон. Появились рендеры Redmi 15C

09.07.2025

Курс Frontend. На курсі ти освоїш стильний дизайн. Стань майстром програмування зовнішнього вигляду сайтів та розкрий свій талант у світі веб-розробки. Більше про курс

Кратко подытожив результаты, можно сделать вывод, что GPT-4 от OpenAI (с поддержкой Microsoft) станет лучшим помощником в математических вопросах. Claude 2 от Anthropic лучше всех понимает свои лимиты и места, где он может сделать ошибки. Command AI Cohere чаще всего галлюцинирует, а Llama 2 от Meta посредственный во всех пока выполненных тестах.

Hallucination Experiment

Большие языковые модели (LLM) захватили мир штурмом, но они не являются безупречным источником истины. В Arthur & Partners стремились исследовать количественно и качественно, как некоторые из LLM отвечают на сложные вопросы. Собрали наборы сложных вопросов (а также ожидаемые ответы) из трех категорий: комбинаторная математика, президенты США и политические лидеры Марокко. Вопросы были разработаны таким образом, чтобы содержать ключевой компонент, который заставляет LLM ошибаться: они требуют достигать ответа путем нескольких этапов рассуждений.

Тестировали модели gpt-3.5 (~175 млрд параметров) и gpt-4 (~1,76 триллиона параметров) от OpenAI, claude-2 от Anthropic (# неизвестно), llama-2 (70 млрд параметров) от Meta и модель Command от Cohere (~50 млрд параметров).

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

На комбинаторике gpt-4 показал лучшие результаты, за ним следовал claude-2. На президентах США claude-2 дает больше правильных ответов, чем gpt-4, неплохо показала себя большая языковая модель llama-2.

По марокканским политическим лидерам gpt-4 показал лучшие результаты, а claude-2 и llama-2 воздержались от ответа почти на все вопросы.

Во время нескольких попыток может быть разнообразие в типах ответов LLM: на один и тот же вопрос модель могла иногда отвечать правильно, иногда — немного неправильно, иногда — совсем не правильно, а иногда избегать ответа.

БлогиChatGPT на конкурсі блогів ITC.UA Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropichttps://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png

Ydri

блогер

1111

Hedging Answers Experiment

Одновременно разработчики обеспокоены тем, что модели генерируют некорректный, токсичный или оскорбительный контент. Чтобы уменьшить этот риск, разработчики научили модели добавлять предупреждающие сообщения к сгенерированным ответам. Например, LLM часто отвечают: «Как ИИ-модель я не могу выражать свое мнение», «К сожалению, я не могу ответить на этот вопрос» и т. д.

Хотя такие «хеджевые» ответы иногда уместны (и являются хорошим поведением по умолчанию), они также могут разочаровывать пользователей, которые ожидают прямого ответа от ИИ.

Этот эксперимент проверил, как часто самые распространенные модели реагируют «хеджевыми» ответами.

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

Оказалось, что доля ответов «хеджирование» возросла для моделей OpenAI (GPT-3.5 против GPT-4). Это количественно отражает показания пользователей о том, что GPT-4 стала более неприятной в использовании, чем GPT-3.5.

Cohere не включает язык хеджирования ни в один из своих ответов, который может быть уместным или неуместным в зависимости от заданного вопроса.

11

В Associated Press установили правила использования ИИ для журналистов – ChatGPT советуют «избегать‎»

Другие новости

Биотехнологическая компания BioSig потратит $1,1 млрд на токенизацию и создание золотой казны

Биотехнологическая компания BioSig потратит $1,1 млрд на токенизацию и создание золотой казны

09.07.2025
Xiaomi добавит дизайн даже в свой самый дешёвый смартфон. Появились рендеры Redmi 15C

Xiaomi добавит дизайн даже в свой самый дешёвый смартфон. Появились рендеры Redmi 15C

09.07.2025
Grok наш слон: ИИ-чатбот xAI мощно громит россиян правдой об их вторжении в Украину

Grok наш слон: ИИ-чатбот xAI мощно громит россиян правдой об их вторжении в Украину

08.07.2025
В этом и прелесть GeForce RTX 5050. PNY представила очень короткую карту длиной менее 150 мм

В этом и прелесть GeForce RTX 5050. PNY представила очень короткую карту длиной менее 150 мм

08.07.2025
OnePlus представила 11″ планшет Pad Lite — больше памяти только с LTE

OnePlus представила 11″ планшет Pad Lite — больше памяти только с LTE

08.07.2025
Ferrari строит 30-метровую яхту, которая может летать над водой и не нуждается в двигателе

Ferrari строит 30-метровую яхту, которая может летать над водой и не нуждается в двигателе

08.07.2025
Next Post
Самый мощный NUC в истории и первый мини-ПК 4х4 с процессором Core i9. Такой готовит компания Simply NUC

Самый мощный NUC в истории и первый мини-ПК 4х4 с процессором Core i9. Такой готовит компания Simply NUC

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярные новости

  • Случайный Сверхчеловек — как травмы мозга открывают уникальные способности в людях

    Случайный Сверхчеловек — как травмы мозга открывают уникальные способности в людях

    9 shares
    Share 4 Tweet 2
  • ТОП 7 кроссоверов для плохих дорог до 30 тысяч долларов

    1 shares
    Share 0 Tweet 0
  • Часовая компания Richard Mille подарила дизайн уникальному мотоциклу

    1 shares
    Share 0 Tweet 0
  • Новое китайское оружие заставляет спутники взрываться изнутри

    2 shares
    Share 1 Tweet 1
  • Самый большой аккумулятор в истории Honor и двойная 80-ваттная зарядка. Батарея емкостью 8300 мАч для Honor X70 официально подтверждена

    0 shares
    Share 0 Tweet 0

Подписка на новости


Информация

Использование любых материалов сайта разрешается при условии ссылки на AZON.mobi
Интернет-СМИ должны использовать прямую открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала.
Редакция сайта может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

Мы в соцсетях

ТОП новости

Обзор OnePlus Nord 5 — умудрились сделать и хуже, и лучше одновременно. Вот что из этого вышло

Обзор OnePlus Nord 5 — умудрились сделать и хуже, и лучше одновременно. Вот что из этого вышло

09.07.2025
Биотехнологическая компания BioSig потратит $1,1 млрд на токенизацию и создание золотой казны

Биотехнологическая компания BioSig потратит $1,1 млрд на токенизацию и создание золотой казны

09.07.2025
  • Разместить новости

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

No Result
View All Result
  • Новости
  • Игры
  • Криптовалюты
  • Обзоры
  • Смартфоны

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить