AZON.моби
  • Новости
  • Обзоры
  • Смартфоны
  • Игры
  • Криптовалюты
No Result
View All Result
AZON.моби
No Result
View All Result
AZON.моби
Home Новости

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

18.08.2023
Share on FacebookShare on Twitter

Исследовательская компания Arthur AI протестировала модели искусственного интеллекта от Meta, OpenAI, Cohere и Anthropic, проанализировав, какие из них чаще выдумывают факты или галлюцинируют.

Этоинтересно

Акции eToro подскочили на 29% в первый же день торгов на Nasdaq

Акции eToro подскочили на 29% в первый же день торгов на Nasdaq

16.05.2025
Так выглядит рассвет на Марсе. Марсоход NASA Perseverance сделал уникальный снимок Деймоса в предрассветном небе

Так выглядит рассвет на Марсе. Марсоход NASA Perseverance сделал уникальный снимок Деймоса в предрассветном небе

16.05.2025

Курс Frontend. На курсі ти освоїш стильний дизайн. Стань майстром програмування зовнішнього вигляду сайтів та розкрий свій талант у світі веб-розробки. Більше про курс

Кратко подытожив результаты, можно сделать вывод, что GPT-4 от OpenAI (с поддержкой Microsoft) станет лучшим помощником в математических вопросах. Claude 2 от Anthropic лучше всех понимает свои лимиты и места, где он может сделать ошибки. Command AI Cohere чаще всего галлюцинирует, а Llama 2 от Meta посредственный во всех пока выполненных тестах.

Hallucination Experiment

Большие языковые модели (LLM) захватили мир штурмом, но они не являются безупречным источником истины. В Arthur & Partners стремились исследовать количественно и качественно, как некоторые из LLM отвечают на сложные вопросы. Собрали наборы сложных вопросов (а также ожидаемые ответы) из трех категорий: комбинаторная математика, президенты США и политические лидеры Марокко. Вопросы были разработаны таким образом, чтобы содержать ключевой компонент, который заставляет LLM ошибаться: они требуют достигать ответа путем нескольких этапов рассуждений.

Тестировали модели gpt-3.5 (~175 млрд параметров) и gpt-4 (~1,76 триллиона параметров) от OpenAI, claude-2 от Anthropic (# неизвестно), llama-2 (70 млрд параметров) от Meta и модель Command от Cohere (~50 млрд параметров).

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

На комбинаторике gpt-4 показал лучшие результаты, за ним следовал claude-2. На президентах США claude-2 дает больше правильных ответов, чем gpt-4, неплохо показала себя большая языковая модель llama-2.

По марокканским политическим лидерам gpt-4 показал лучшие результаты, а claude-2 и llama-2 воздержались от ответа почти на все вопросы.

Во время нескольких попыток может быть разнообразие в типах ответов LLM: на один и тот же вопрос модель могла иногда отвечать правильно, иногда — немного неправильно, иногда — совсем не правильно, а иногда избегать ответа.

БлогиChatGPT на конкурсі блогів ITC.UA Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropichttps://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png

Ydri

блогер

1111

Hedging Answers Experiment

Одновременно разработчики обеспокоены тем, что модели генерируют некорректный, токсичный или оскорбительный контент. Чтобы уменьшить этот риск, разработчики научили модели добавлять предупреждающие сообщения к сгенерированным ответам. Например, LLM часто отвечают: «Как ИИ-модель я не могу выражать свое мнение», «К сожалению, я не могу ответить на этот вопрос» и т. д.

Хотя такие «хеджевые» ответы иногда уместны (и являются хорошим поведением по умолчанию), они также могут разочаровывать пользователей, которые ожидают прямого ответа от ИИ.

Этот эксперимент проверил, как часто самые распространенные модели реагируют «хеджевыми» ответами.

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

Оказалось, что доля ответов «хеджирование» возросла для моделей OpenAI (GPT-3.5 против GPT-4). Это количественно отражает показания пользователей о том, что GPT-4 стала более неприятной в использовании, чем GPT-3.5.

Cohere не включает язык хеджирования ни в один из своих ответов, который может быть уместным или неуместным в зависимости от заданного вопроса.

11

В Associated Press установили правила использования ИИ для журналистов – ChatGPT советуют «избегать‎»

Другие новости

Акции eToro подскочили на 29% в первый же день торгов на Nasdaq

Акции eToro подскочили на 29% в первый же день торгов на Nasdaq

16.05.2025
Так выглядит рассвет на Марсе. Марсоход NASA Perseverance сделал уникальный снимок Деймоса в предрассветном небе

Так выглядит рассвет на Марсе. Марсоход NASA Perseverance сделал уникальный снимок Деймоса в предрассветном небе

16.05.2025
Telegram закрыл два крупнейших черных онлайн-рынка

Telegram закрыл два крупнейших черных онлайн-рынка

16.05.2025
Nintendo Switch 2 действительно имеет очень слабый GPU. Раскрыты все характеристики чипа приставки

Nintendo Switch 2 действительно имеет очень слабый GPU. Раскрыты все характеристики чипа приставки

15.05.2025
«Одиссея» станет первым в истории фильмом, который сняли полностью на камеры IMAX

«Одиссея» станет первым в истории фильмом, который сняли полностью на камеры IMAX

15.05.2025
AMD будет на шаг впереди Intel. Компания уже в следующем году выпустит Arm-процессоры в рамках линейки Sound Wave

AMD будет на шаг впереди Intel. Компания уже в следующем году выпустит Arm-процессоры в рамках линейки Sound Wave

15.05.2025
Next Post
Самый мощный NUC в истории и первый мини-ПК 4х4 с процессором Core i9. Такой готовит компания Simply NUC

Самый мощный NUC в истории и первый мини-ПК 4х4 с процессором Core i9. Такой готовит компания Simply NUC

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярные новости

  • Платформа QVAC от Tether позволит ИИ-агентам работать локально и обеспечит автономные транзакции BTC и USDT

    Платформа QVAC от Tether позволит ИИ-агентам работать локально и обеспечит автономные транзакции BTC и USDT

    1 shares
    Share 0 Tweet 0
  • Обзор ноутбука Acer Nitro 14 (AN14-41-R6): NVIDIA RTX 4060 против компромисов

    1 shares
    Share 0 Tweet 0
  • YouTube будет вставлять рекламу в самые эмоциональные моменты видео — их будет определять ИИ

    1 shares
    Share 0 Tweet 0
  • Nintendo Switch 2 действительно имеет очень слабый GPU. Раскрыты все характеристики чипа приставки

    1 shares
    Share 0 Tweet 0
  • 20 000 километров над Землей вместо нынешних 2000 км: Роскосмос значительно улучшит спутники «Луч-5»

    0 shares
    Share 0 Tweet 0

Подписка на новости


Информация

Использование любых материалов сайта разрешается при условии ссылки на AZON.mobi
Интернет-СМИ должны использовать прямую открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала.
Редакция сайта может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

Мы в соцсетях

ТОП новости

Акции eToro подскочили на 29% в первый же день торгов на Nasdaq

Акции eToro подскочили на 29% в первый же день торгов на Nasdaq

16.05.2025
Анонс Qualcomm Snapdragon 7 Gen 4: апгрейд для Honor и Vivo

Анонс Qualcomm Snapdragon 7 Gen 4: апгрейд для Honor и Vivo

16.05.2025
  • Разместить новости

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

No Result
View All Result
  • Новости
  • Игры
  • Криптовалюты
  • Обзоры
  • Смартфоны

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить