AZON.моби
  • Новости
  • Обзоры
  • Смартфоны
  • Игры
  • Криптовалюты
No Result
View All Result
AZON.моби
No Result
View All Result
AZON.моби
Home Новости

Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев

04.11.2024
Share on FacebookShare on Twitter

Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).

Этоинтересно

Intel представила измеритель качества масштабирования и генераторов кадров в играх

Intel представила измеритель качества масштабирования и генераторов кадров в играх

17.07.2025
Бюджетный флагман Samsung Galaxy S25 FE показали в новом цвете за три месяца до выпуска

Бюджетный флагман Samsung Galaxy S25 FE показали в новом цвете за три месяца до выпуска

17.07.2025

Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности – 42,7% и 28,9% соответственно.

Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев
Источник: Michael Dwyer / AP

Проблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.

По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.

Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.

Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.

3 ноября 2024 в 23:03

Автор: Darth Sahara

| Источник: futurism.com, Изображение

Другие новости

Intel представила измеритель качества масштабирования и генераторов кадров в играх

Intel представила измеритель качества масштабирования и генераторов кадров в играх

17.07.2025
Бюджетный флагман Samsung Galaxy S25 FE показали в новом цвете за три месяца до выпуска

Бюджетный флагман Samsung Galaxy S25 FE показали в новом цвете за три месяца до выпуска

17.07.2025
CD Projekt RED представила патч 2.3 для Cyberpunk 2077 — детали и дата релиза

CD Projekt RED представила патч 2.3 для Cyberpunk 2077 — детали и дата релиза

16.07.2025
«Мини-Герань» запущена в массовое производство

«Мини-Герань» запущена в массовое производство

16.07.2025
OnePlus выпустила кабель, который зарядит смартфон, а по дороге ещё и умные часы

OnePlus выпустила кабель, который зарядит смартфон, а по дороге ещё и умные часы

16.07.2025
Range Rover готовит первый электровнедорожник — Bentley-комфорт, 542 л.с. и 118 кВт-ч

Range Rover готовит первый электровнедорожник — Bentley-комфорт, 542 л.с. и 118 кВт-ч

16.07.2025
Next Post
BioWare обвиняют в дискриминации мужчин и найме только приверженцев идеологии руководства

BioWare обвиняют в дискриминации мужчин и найме только приверженцев идеологии руководства

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярные новости

  • Зачем подключать iPhone 15 к кабелю Ethernet? Для максимальной скорости

    Зачем подключать iPhone 15 к кабелю Ethernet? Для максимальной скорости

    2 shares
    Share 1 Tweet 1
  • Ролевая тактика Frosthaven по мотивам одноименной настолки выйдет в Steam в конце июля

    0 shares
    Share 0 Tweet 0
  • Глава NVIDIA Дженсен Хуанг говорит, что ИИ делает его умнее, и спорит с исследованием MIT

    0 shares
    Share 0 Tweet 0
  • Всё больше христиан считают искусственный интеллект “демоническим”

    0 shares
    Share 0 Tweet 0
  • Firefly – всем и каждому. Adobe открыла коммерческий доступ к генеративному искусственному интеллекту

    2 shares
    Share 1 Tweet 1

Подписка на новости


Информация

Использование любых материалов сайта разрешается при условии ссылки на AZON.mobi
Интернет-СМИ должны использовать прямую открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала.
Редакция сайта может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

Мы в соцсетях

ТОП новости

Intel представила измеритель качества масштабирования и генераторов кадров в играх

Intel представила измеритель качества масштабирования и генераторов кадров в играх

17.07.2025
Бюджетный флагман Samsung Galaxy S25 FE показали в новом цвете за три месяца до выпуска

Бюджетный флагман Samsung Galaxy S25 FE показали в новом цвете за три месяца до выпуска

17.07.2025
  • Разместить новости

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

No Result
View All Result
  • Новости
  • Игры
  • Криптовалюты
  • Обзоры
  • Смартфоны

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить