«Дыши глубже!». ChatGPT лучше отвечает на математические запросы, если его поощрять как человека

Новая методика, разработанная Google DeepMind, позволяет улучшить ответы чат-ботов, применяя словесный метод поощрения.

Этоинтересно

Стартап открыто продает конфиденциальные данные граждан за $50

23.07.2025

Этому смартфону Google придется конкурировать с хитовым Samsung Galaxy Z Fold7. Опубликованы рендеры Google Pixel 10 Pro Fold

23.07.2025

Помогаем

Детям из Мариуполя нужно 120 ноутбуков для обучения – подари старое "железо", пусть оно работает на будущее Украины

В статье, опубликованной в этом месяце на arXiv, ученые DeepMind представили свой способ улучшения продуктивности больших языковых моделей — таких, как ChatGPT OpenAI и PaLM 2 от Google. Новый подход обходит ограничение традиционных математических оптимизаторов, используя естественный (человеческий) язык для направления языковой модели к решению проблемы.

«Вместо того, чтобы формально определять задачу оптимизации и выводить шаг обновления с помощью запрограммированного решения, мы описываем задачу оптимизации на естественном языке, а затем инструктируем языковую модель итеративно генерировать новые решения на основе описания проблемы и предварительной информации», — пишут исследователи.

Как правило, в машинном обучении методы, использующие алгоритмы (такие, как оптимизаторы на основе производных), управляют улучшением продуктивности модели ИИ:

Представьте продуктивность модели как кривую на графике, где цель – найти самую низкую точку на этой кривой, потому что именно там модель совершает меньше ошибок. Используя наклон кривой для корректировки, оптимизатор помогает модели приближаться к идеальной нижней точке.

Впрочем, вместо того, чтобы полагаться на формальные математические определения для выполнения этой задачи, метод (получивший название OPRO) использует «метаподсказки» на естественном языке, чтобы подготовить основу для процесса оптимизации. Затем языковая модель генерирует варианты решений на основе описания проблемы и предыдущих решений, и проверяет их, назначая каждому оценку качества.

В OPRO действуют свои две большие языковые модели: LLM-оценщик, оценивающий целевую функцию, например точность и LLM-оптимизатор, генерирующий новые решения на основе предварительных результатов и описания на естественном языке.

«Дыши глубже и думай шаг за шагом»

Вот это, пожалуй, наиболее интригующая часть исследования DeepMind. Оказывается, некоторые конкретные фразы оказывают влияние на окончательный результат. Например, призывы типа «думай шаг за шагом» побудили каждую модель искусственного интеллекта производить более точные результаты во время тестирования с наборами данных математических задач.

А в последнем эксперименте исследователи DeepMind обнаружили, что еще более эффективной подсказкой стала фраза «Дыши глубже и думай над этим шаг за шагом». При использовании ее с Google PaLM 2 точность результата достигла 80,2% в тестах GSM8K – наборе математических текстовых задач для начальной школы. Для сравнения, PaLM 2 без каких-либо специальных подсказок набрала лишь 34% точности на GSM8K, а с классической подсказкой «Думай шаг за шагом» набрала 71,8% точности.

ПостыОгляд ноутбука ASUS K53SM або мої пригоди з ним https://secure.gravatar.com/avatar/?s=96&d=mm&r=g *** https://secure.gravatar.com/avatar/0248c5a748a2a639454bb4f47d4b972e?s=96&d=mm&r=g *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.png

Вячеслав Руденко

И почему это работает? Очевидно, что большие языковые модели не могут сделать глубокий вдох, потому что не имеют легких или тел. Они также не могут думать подобно людям. Слово «думать» для них заимствовано из огромного набора данных языковых фраз, собранных из книг и Интернета, включая форумы, где могли бы использоваться предложения «дышать глубже» или «думать шаг за шагом» перед представлением тщательно обоснованных решений.

Исследователи DeepMind считают, что наибольшим преимуществом метода OPRO является его способность просеивать многие возможные подсказки, чтобы найти ту, которая дает наилучшие результаты для конкретной проблемы. Это может позволить людям получать гораздо более полезные и точные результаты от чат-ботов в будущем.

ChatGPT «выпивает» пол-литра воды на каждые 20-50 запросов

Источник: Ars Technica

«Дыши глубже!». ChatGPT лучше отвечает на математические запросы, если его поощрять как человека

Стартап открыто продает конфиденциальные данные граждан за $50

Этому смартфону Google придется конкурировать с хитовым Samsung Galaxy Z Fold7. Опубликованы рендеры Google Pixel 10 Pro Fold

Другие новости

Стартап открыто продает конфиденциальные данные граждан за $50

Этому смартфону Google придется конкурировать с хитовым Samsung Galaxy Z Fold7. Опубликованы рендеры Google Pixel 10 Pro Fold

На Spotify появились сгенерированные ИИ песни умерших исполнителей — без разрешения владельцев прав

619-сильный флагман Chery из Казахстана. Chery Tiggo 9 получил ОТТС для стран ЕАЭС

Статистика Steam не отражает реальной популярности игры, — разработчик Test Drive с онлайном 288 игроков

«Качество покраски Lada Iskra, шагрень однако». Инсайдер показал вблизи, как окрашена новинка АвтоВАЗа

Не только эко-кожа: две альтернативные расцветки Redmi Note 13 Pro+

Популярные новости

Аккуратная проводка, надписи Renault на кузове, японская подушка безопасности. «Клубный сервис» первым в России разобрал Lada Iskra

Saber анонсировала хоррор-игру по фильму Hellraiser — с возвращением Пинхеда, культами и выживанием (трейлер)

Рецензия на сериал «Сексификация» / Sexify

Прогноз цены Биткоина: медиакомпания Трампа покупает BTC на $2 млрд – доминация BTC еще в силе?

Huawei тотально доминирует на рынке раскладушек в Китае: отчёт IDC

Подписка на новости

Информация

ТОП новости

Стартап открыто продает конфиденциальные данные граждан за $50

Этому смартфону Google придется конкурировать с хитовым Samsung Galaxy Z Fold7. Опубликованы рендеры Google Pixel 10 Pro Fold