AZON.моби
  • Новости
  • Обзоры
  • Смартфоны
  • Игры
  • Криптовалюты
No Result
View All Result
AZON.моби
No Result
View All Result
AZON.моби
Home Новости

Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев

04.11.2024
Share on FacebookShare on Twitter

Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).

Этоинтересно

Новые электрические Audi Q6 и SQ6 Sportback e-tron предлагают до 509 л.с. и более 500 км запас хода за $69600 и выше

Новые электрические Audi Q6 и SQ6 Sportback e-tron предлагают до 509 л.с. и более 500 км запас хода за $69600 и выше

14.07.2025
Китайские ученые научились превращать обычных пчел в кибернетических разведчиков

Китайские ученые научились превращать обычных пчел в кибернетических разведчиков

14.07.2025

Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности – 42,7% и 28,9% соответственно.

Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев
Источник: Michael Dwyer / AP

Проблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.

По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.

Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.

Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.

3 ноября 2024 в 23:03

Автор: Darth Sahara

| Источник: futurism.com, Изображение

Другие новости

Новые электрические Audi Q6 и SQ6 Sportback e-tron предлагают до 509 л.с. и более 500 км запас хода за $69600 и выше

Новые электрические Audi Q6 и SQ6 Sportback e-tron предлагают до 509 л.с. и более 500 км запас хода за $69600 и выше

14.07.2025
Китайские ученые научились превращать обычных пчел в кибернетических разведчиков

Китайские ученые научились превращать обычных пчел в кибернетических разведчиков

14.07.2025

Виртуальные награды Discord Orbs вышли из стадии бета-тестирования

14.07.2025
The Witcher 3 получила мод, который открывает весь дворец Боклера с тайной комнатой

The Witcher 3 получила мод, который открывает весь дворец Боклера с тайной комнатой

14.07.2025
Крайне необычный плеер Groove Thing позволит послушать музыку «внутри» собственного тела

Крайне необычный плеер Groove Thing позволит послушать музыку «внутри» собственного тела

14.07.2025
Серверы плавят планету. Исследование Maplecroft раскрывает опасную связь ЦОД и глобального потепления

Серверы плавят планету. Исследование Maplecroft раскрывает опасную связь ЦОД и глобального потепления

14.07.2025
Next Post
BioWare обвиняют в дискриминации мужчин и найме только приверженцев идеологии руководства

BioWare обвиняют в дискриминации мужчин и найме только приверженцев идеологии руководства

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярные новости

  • Belkin прекращает поддержку устройств Wemo для умного дома — они станут хламом без официального ПО

    Belkin прекращает поддержку устройств Wemo для умного дома — они станут хламом без официального ПО

    1 shares
    Share 0 Tweet 0
  • Представлен Geely Galaxy A7 — гибридный седан с запасом хода более 2100 км и ценой от $14,5 тыс.

    1 shares
    Share 0 Tweet 0
  • Обменник криптовалют Dmoney.cc Выгодные обмены, которым можно доверять

    2 shares
    Share 1 Tweet 1
  • Японские ученые сумели создать уникальную наноуглеродную ленту Мебиуса

    1 shares
    Share 0 Tweet 0
  • Принципы оригами радикально сокращают расход бетона и стали при строительстве

    1 shares
    Share 0 Tweet 0

Подписка на новости


Информация

Использование любых материалов сайта разрешается при условии ссылки на AZON.mobi
Интернет-СМИ должны использовать прямую открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала.
Редакция сайта может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

Мы в соцсетях

ТОП новости

Новые электрические Audi Q6 и SQ6 Sportback e-tron предлагают до 509 л.с. и более 500 км запас хода за $69600 и выше

Новые электрические Audi Q6 и SQ6 Sportback e-tron предлагают до 509 л.с. и более 500 км запас хода за $69600 и выше

14.07.2025
Китайские ученые научились превращать обычных пчел в кибернетических разведчиков

Китайские ученые научились превращать обычных пчел в кибернетических разведчиков

14.07.2025
  • Разместить новости

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

No Result
View All Result
  • Новости
  • Игры
  • Криптовалюты
  • Обзоры
  • Смартфоны

© 2006-2024 AZON.mobi
Новости высоких технологий. All rights reserved.

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить