AZON.моби
  • Новости
  • Обзоры
  • Смартфоны
  • Игры
  • Криптовалюты
No Result
View All Result
AZON.моби
No Result
View All Result
AZON.моби
Home Новости

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

18.08.2023
Share on FacebookShare on Twitter

Исследовательская компания Arthur AI протестировала модели искусственного интеллекта от Meta, OpenAI, Cohere и Anthropic, проанализировав, какие из них чаще выдумывают факты или галлюцинируют.

Этоинтересно

Microsoft закрывает API поиска Bing — разработчики потеряли важный инструмент

Microsoft закрывает API поиска Bing — разработчики потеряли важный инструмент

15.05.2025
Qualcomm ответила MediaTek. Представлена SoC Snapdragon 7 Gen 4: мощная платформа для смартфонов среднего уровня с ИИ и поддержкой 200-мегапиксельных камер

Qualcomm ответила MediaTek. Представлена SoC Snapdragon 7 Gen 4: мощная платформа для смартфонов среднего уровня с ИИ и поддержкой 200-мегапиксельных камер

15.05.2025

Курс Frontend. На курсі ти освоїш стильний дизайн. Стань майстром програмування зовнішнього вигляду сайтів та розкрий свій талант у світі веб-розробки. Більше про курс

Кратко подытожив результаты, можно сделать вывод, что GPT-4 от OpenAI (с поддержкой Microsoft) станет лучшим помощником в математических вопросах. Claude 2 от Anthropic лучше всех понимает свои лимиты и места, где он может сделать ошибки. Command AI Cohere чаще всего галлюцинирует, а Llama 2 от Meta посредственный во всех пока выполненных тестах.

Hallucination Experiment

Большие языковые модели (LLM) захватили мир штурмом, но они не являются безупречным источником истины. В Arthur & Partners стремились исследовать количественно и качественно, как некоторые из LLM отвечают на сложные вопросы. Собрали наборы сложных вопросов (а также ожидаемые ответы) из трех категорий: комбинаторная математика, президенты США и политические лидеры Марокко. Вопросы были разработаны таким образом, чтобы содержать ключевой компонент, который заставляет LLM ошибаться: они требуют достигать ответа путем нескольких этапов рассуждений.

Тестировали модели gpt-3.5 (~175 млрд параметров) и gpt-4 (~1,76 триллиона параметров) от OpenAI, claude-2 от Anthropic (# неизвестно), llama-2 (70 млрд параметров) от Meta и модель Command от Cohere (~50 млрд параметров).

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

На комбинаторике gpt-4 показал лучшие результаты, за ним следовал claude-2. На президентах США claude-2 дает больше правильных ответов, чем gpt-4, неплохо показала себя большая языковая модель llama-2.

По марокканским политическим лидерам gpt-4 показал лучшие результаты, а claude-2 и llama-2 воздержались от ответа почти на все вопросы.

Во время нескольких попыток может быть разнообразие в типах ответов LLM: на один и тот же вопрос модель могла иногда отвечать правильно, иногда — немного неправильно, иногда — совсем не правильно, а иногда избегать ответа.

БлогиChatGPT на конкурсі блогів ITC.UA Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropichttps://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png *** https://itc.ua/wp-content/uploads/2023/08/Bezymyannyj-150×150.png

Ydri

блогер

1111

Hedging Answers Experiment

Одновременно разработчики обеспокоены тем, что модели генерируют некорректный, токсичный или оскорбительный контент. Чтобы уменьшить этот риск, разработчики научили модели добавлять предупреждающие сообщения к сгенерированным ответам. Например, LLM часто отвечают: «Как ИИ-модель я не могу выражать свое мнение», «К сожалению, я не могу ответить на этот вопрос» и т. д.

Хотя такие «хеджевые» ответы иногда уместны (и являются хорошим поведением по умолчанию), они также могут разочаровывать пользователей, которые ожидают прямого ответа от ИИ.

Этот эксперимент проверил, как часто самые распространенные модели реагируют «хеджевыми» ответами.

Все галлюцинируют, но GPT-4 лучше в математике — сравнительное тестирование моделей Meta, OpenAI, Cohere и Anthropic

Оказалось, что доля ответов «хеджирование» возросла для моделей OpenAI (GPT-3.5 против GPT-4). Это количественно отражает показания пользователей о том, что GPT-4 стала более неприятной в использовании, чем GPT-3.5.

Cohere не включает язык хеджирования ни в один из своих ответов, который может быть уместным или неуместным в зависимости от заданного вопроса.

11

В Associated Press установили правила использования ИИ для журналистов – ChatGPT советуют «избегать‎»

Другие новости

Microsoft закрывает API поиска Bing — разработчики потеряли важный инструмент

Microsoft закрывает API поиска Bing — разработчики потеряли важный инструмент

15.05.2025
Qualcomm ответила MediaTek. Представлена SoC Snapdragon 7 Gen 4: мощная платформа для смартфонов среднего уровня с ИИ и поддержкой 200-мегапиксельных камер

Qualcomm ответила MediaTek. Представлена SoC Snapdragon 7 Gen 4: мощная платформа для смартфонов среднего уровня с ИИ и поддержкой 200-мегапиксельных камер

15.05.2025
Lenovo Legion Pro 7 уже в Украине ─ что предлагает игровой ноутбук за 166 тыс. грн

Lenovo Legion Pro 7 уже в Украине ─ что предлагает игровой ноутбук за 166 тыс. грн

15.05.2025
20 000 километров над Землей вместо нынешних 2000 км: Роскосмос значительно улучшит спутники «Луч-5»

20 000 километров над Землей вместо нынешних 2000 км: Роскосмос значительно улучшит спутники «Луч-5»

15.05.2025
Бычий рынок для Ethereum: почему обновление Pectra не снизило риск коррекции

Бычий рынок для Ethereum: почему обновление Pectra не снизило риск коррекции

15.05.2025
Складной мульти-монитор Aura Displays подарит ноутбуку три дополнительных экрана

Складной мульти-монитор Aura Displays подарит ноутбуку три дополнительных экрана

15.05.2025
Next Post
Самый мощный NUC в истории и первый мини-ПК 4х4 с процессором Core i9. Такой готовит компания Simply NUC

Самый мощный NUC в истории и первый мини-ПК 4х4 с процессором Core i9. Такой готовит компания Simply NUC

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярные новости

  • Платформа QVAC от Tether позволит ИИ-агентам работать локально и обеспечит автономные транзакции BTC и USDT

    Платформа QVAC от Tether позволит ИИ-агентам работать локально и обеспечит автономные транзакции BTC и USDT

    1 shares
    Share 0 Tweet 0
  • Обзор ноутбука Acer Nitro 14 (AN14-41-R6): NVIDIA RTX 4060 против компромисов

    1 shares
    Share 0 Tweet 0
  • YouTube будет вставлять рекламу в самые эмоциональные моменты видео — их будет определять ИИ

    1 shares
    Share 0 Tweet 0
  • Биткоин на пути к $150 000: прогноз Артура Хэйеса и перспективы рынка

    0 shares
    Share 0 Tweet 0
  • Вышел новый трейлер «Супермена» — без Генри Кавилла, но с «суперкамео»

    0 shares
    Share 0 Tweet 0

Подписка на новости


Информация

Использование любых материалов сайта разрешается при условии ссылки на AZON.mobi
Интернет-СМИ должны использовать прямую открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала.
Редакция сайта может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

Мы в соцсетях

ТОП новости

Microsoft закрывает API поиска Bing — разработчики потеряли важный инструмент

Microsoft закрывает API поиска Bing — разработчики потеряли важный инструмент

15.05.2025
Qualcomm ответила MediaTek. Представлена SoC Snapdragon 7 Gen 4: мощная платформа для смартфонов среднего уровня с ИИ и поддержкой 200-мегапиксельных камер

Qualcomm ответила MediaTek. Представлена SoC Snapdragon 7 Gen 4: мощная платформа для смартфонов среднего уровня с ИИ и поддержкой 200-мегапиксельных камер

15.05.2025
  • Разместить новости

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

No Result
View All Result
  • Новости
  • Игры
  • Криптовалюты
  • Обзоры
  • Смартфоны

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить