«Дыши глубже!». ChatGPT лучше отвечает на математические запросы, если его поощрять как человека

Новая методика, разработанная Google DeepMind, позволяет улучшить ответы чат-ботов, применяя словесный метод поощрения.

Этоинтересно

Минцифры 2.0: Кабмин назначил сразу пять новых заместителей Федорова — что о них известно?

25.07.2025

В России отзывают кроссоверы Volvo XC60 и XC90 из-за риска возгорания

25.07.2025

Помогаем

Детям из Мариуполя нужно 120 ноутбуков для обучения – подари старое "железо", пусть оно работает на будущее Украины

В статье, опубликованной в этом месяце на arXiv, ученые DeepMind представили свой способ улучшения продуктивности больших языковых моделей — таких, как ChatGPT OpenAI и PaLM 2 от Google. Новый подход обходит ограничение традиционных математических оптимизаторов, используя естественный (человеческий) язык для направления языковой модели к решению проблемы.

«Вместо того, чтобы формально определять задачу оптимизации и выводить шаг обновления с помощью запрограммированного решения, мы описываем задачу оптимизации на естественном языке, а затем инструктируем языковую модель итеративно генерировать новые решения на основе описания проблемы и предварительной информации», — пишут исследователи.

Как правило, в машинном обучении методы, использующие алгоритмы (такие, как оптимизаторы на основе производных), управляют улучшением продуктивности модели ИИ:

Представьте продуктивность модели как кривую на графике, где цель – найти самую низкую точку на этой кривой, потому что именно там модель совершает меньше ошибок. Используя наклон кривой для корректировки, оптимизатор помогает модели приближаться к идеальной нижней точке.

Впрочем, вместо того, чтобы полагаться на формальные математические определения для выполнения этой задачи, метод (получивший название OPRO) использует «метаподсказки» на естественном языке, чтобы подготовить основу для процесса оптимизации. Затем языковая модель генерирует варианты решений на основе описания проблемы и предыдущих решений, и проверяет их, назначая каждому оценку качества.

В OPRO действуют свои две большие языковые модели: LLM-оценщик, оценивающий целевую функцию, например точность и LLM-оптимизатор, генерирующий новые решения на основе предварительных результатов и описания на естественном языке.

«Дыши глубже и думай шаг за шагом»

Вот это, пожалуй, наиболее интригующая часть исследования DeepMind. Оказывается, некоторые конкретные фразы оказывают влияние на окончательный результат. Например, призывы типа «думай шаг за шагом» побудили каждую модель искусственного интеллекта производить более точные результаты во время тестирования с наборами данных математических задач.

А в последнем эксперименте исследователи DeepMind обнаружили, что еще более эффективной подсказкой стала фраза «Дыши глубже и думай над этим шаг за шагом». При использовании ее с Google PaLM 2 точность результата достигла 80,2% в тестах GSM8K – наборе математических текстовых задач для начальной школы. Для сравнения, PaLM 2 без каких-либо специальных подсказок набрала лишь 34% точности на GSM8K, а с классической подсказкой «Думай шаг за шагом» набрала 71,8% точности.

ПостыОгляд ноутбука ASUS K53SM або мої пригоди з ним https://secure.gravatar.com/avatar/?s=96&d=mm&r=g *** https://secure.gravatar.com/avatar/0248c5a748a2a639454bb4f47d4b972e?s=96&d=mm&r=g *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.png

Вячеслав Руденко

И почему это работает? Очевидно, что большие языковые модели не могут сделать глубокий вдох, потому что не имеют легких или тел. Они также не могут думать подобно людям. Слово «думать» для них заимствовано из огромного набора данных языковых фраз, собранных из книг и Интернета, включая форумы, где могли бы использоваться предложения «дышать глубже» или «думать шаг за шагом» перед представлением тщательно обоснованных решений.

Исследователи DeepMind считают, что наибольшим преимуществом метода OPRO является его способность просеивать многие возможные подсказки, чтобы найти ту, которая дает наилучшие результаты для конкретной проблемы. Это может позволить людям получать гораздо более полезные и точные результаты от чат-ботов в будущем.

ChatGPT «выпивает» пол-литра воды на каждые 20-50 запросов

Источник: Ars Technica

«Дыши глубже!». ChatGPT лучше отвечает на математические запросы, если его поощрять как человека

Минцифры 2.0: Кабмин назначил сразу пять новых заместителей Федорова — что о них известно?

В России отзывают кроссоверы Volvo XC60 и XC90 из-за риска возгорания

Другие новости

Минцифры 2.0: Кабмин назначил сразу пять новых заместителей Федорова — что о них известно?

В России отзывают кроссоверы Volvo XC60 и XC90 из-за риска возгорания

Первый трейлер Battlefield 6 — таинственная Pax Armata, война на улицах и анонс мультиплеера

УАЗ «Патриот 2.0» на шаг ближе к серийному производству: стартовали всесторонние испытания обновленного внедорожника

В ZeniMax возмущены «бесчеловечными» увольнениями Microsoft — из Elder Scrolls Online ушли «абсолютно важные» люди

Starlink парализовало: масштабный сбой оставил тысячи людей без интернета

Не только эко-кожа: две альтернативные расцветки Redmi Note 13 Pro+

Популярные новости

Тест-драйв Land Rover Defender: легенда нашего времени

Ford Mustang Mach-E после трех лет — 400 тыс. км пробега, 92% ресурса батареи и $8700 экономии на топливе

Анонс Red Magic 8S Pro и 8S Pro+: первые со Snapdragon 8 Gen 2 LV

Как Lada Iskra SW Cross, но только для Европы. Рассекречен новый Dacia Sandero Stepway

Intel не догнать AMD. Самые мощные процессоры AMD для рабочих станций поступили в продажу, флагман — 96-ядерный Ryzen Threadripper PRO 9995WX за 11 700 долларов

Подписка на новости

Информация

ТОП новости

Минцифры 2.0: Кабмин назначил сразу пять новых заместителей Федорова — что о них известно?

В России отзывают кроссоверы Volvo XC60 и XC90 из-за риска возгорания