Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев

Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).

Этоинтересно

Рецензия на сериал “Девушка моего сына” / The Girlfriend

14.09.2025

Неожиданный провал BMW 1 серии: всего четыре звезды в краш-тесте Euro NCAP

14.09.2025

Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности – 42,7% и 28,9% соответственно.

Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев — Источник: Michael Dwyer / AP

Проблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.

По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.

Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.

Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.

3 ноября 2024 в 23:03

Автор: Darth Sahara

| Источник: futurism.com, Изображение

Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев

Рецензия на сериал “Девушка моего сына” / The Girlfriend

Неожиданный провал BMW 1 серии: всего четыре звезды в краш-тесте Euro NCAP

Другие новости

Рецензия на сериал “Девушка моего сына” / The Girlfriend

Неожиданный провал BMW 1 серии: всего четыре звезды в краш-тесте Euro NCAP

AirPods Pro 3, подвинься: Anker AeroFit 2 AI Assistant с ИИ и переводом стартуют в Европе

Mercedes-Benz показал первый тизер электрического седана C-класса

Фотомаркетинг Apple iPhone 17: почему три равно восьми и что такое “оптическое качество”

xAI сокращает штат на треть: 500 уволенных и новые амбиции Илона Маска

BioWare обвиняют в дискриминации мужчин и найме только приверженцев идеологии руководства

Популярные новости

Как ученые превратили обычных мышей в свирепых хищников?

Sony превратила офисную шутку в коллаборацию Ghost of Yōtei с крупнейшим японским производителем пива

До 2036 года – только автоматические: в ближайшее десятилетие Россия запустит к Луне семь станций

Прощай, Tornado Cash? В США запретят криптомикшеры

БелАЗ показал будущее — 130-тонный 1600-сильный газодизельный самосвал для России

Подписка на новости

Информация

ТОП новости

Рецензия на сериал “Девушка моего сына” / The Girlfriend

Неожиданный провал BMW 1 серии: всего четыре звезды в краш-тесте Euro NCAP