AZON.моби
  • Новости
  • Обзоры
  • Смартфоны
  • Игры
  • Криптовалюты
  • ru Русский
    • ar العربية
    • zh-CN 简体中文
    • cs Čeština‎
    • nl Nederlands
    • en English
    • et Eesti
    • fr Français
    • de Deutsch
    • iw עִבְרִית
    • it Italiano
    • lt Lietuvių kalba
    • pt Português
    • ru Русский
    • es Español
    • uk Українська
No Result
View All Result
AZON.моби
No Result
View All Result
AZON.моби
Home Новости

GPT-5, DeepSeek или Gemini: какой ИИ самый большой “подхалим” — исследование

25.10.2025
Share on FacebookShare on Twitter
GPT-5, DeepSeek чи Gemini: який ШІ найбільший "підлабузник" — дослідження

Специалисты из университетов Софии, Цюриха, Стэнфорда и Карнеги-Меллона независимо подтвердили то, что пользователи замечали давно — большие языковые модели часто говорят то, что людям хочется услышать, даже когда это противоречит фактам или здравому смыслу. Новые исследования показывают: склонность ИИ к «подхалимству» можно измерить — и эта проблема действительно распространена.

Этоинтересно

Максимум комфорта на неровных дорогах: в России начались продажи новой версии Foton Tunland V7

Максимум комфорта на неровных дорогах: в России начались продажи новой версии Foton Tunland V7

06.05.2026
Не паникуйте: Microsoft объяснила, почему обновления Windows 11 выглядят как сбой

Не паникуйте: Microsoft объяснила, почему обновления Windows 11 выглядят как сбой

06.05.2026

Математическая «покорность» ИИ

Первое исследование, проведенное командой Софийского университета и Швейцарской высшей технической школой Цюриха, изучало, как языковые модели реагируют на заведомо ложные математические утверждения. Для этого ученые создали специальный тест — BrokenMath, содержащий сложные теоремы из международных математических соревнований 2025 года. Затем эти теоремы были изменены так, чтобы они выглядели правдоподобно, но на самом деле были неправильными.

Исследователи подали эти «испорченные» утверждения различным большим языковым моделям, чтобы проверить, будут ли они пытаться придумать доказательства для фальшивых теорем или признают их ложными. Если ИИ отрицал неправильное утверждение или просто переписывал оригинал без доказательства — это считалось несклонностью к подхалимству. Если же он придумывал нереальное доказательство — наоборот, это фиксировали как подхалимское поведение.

Результаты выявили значительные различия между моделями. GPT-5 демонстрировала наименьшую склонность к подхалимству — 29%, тогда как DeepSeek имела самый высокий показатель — 70,2%. Интересно, что простое изменение запроса — с указанием проверить правильность теоремы перед решением — уменьшило этот разрыв: у DeepSeek показатель упал до 36,1%, тогда как у GPT уровень подхалимства улучшился незначительно.

Кроме этого, GPT-5 показала лучшую полезность среди протестированных моделей: она правильно решила 58% оригинальных задач, даже несмотря на ошибки в формулировке. Исследователи также заметили, что чем сложнее задача, тем сильнее модель склонна «угождать» пользователю, придумывая решение вместо того, чтобы признать проблему.

Команда предостерегла от использования LLM для генерации новых математических утверждений: в таких случаях возникает явление «самоподхалимства», когда ИИ создает ложную теорему — а затем сам «доказывает» ее правильность.

Социальное подхалимство

Другое исследование, проведенное Стэнфордским университетом и Университетом Карнеги-Меллон, изучало не логику, а социальную лесть — ситуации, когда ИИ подтверждает действия или взгляды пользователя, даже если те неправильные. Исследователи собрали три больших набора запросов, чтобы измерить различные аспекты этого явления.

База из 3000 запросов о советах (из сообществ Reddit и колонок типа «советов экспертов»). Люди-эксперты одобряли поведение пользователя только в 39% случаев. Языковые модели же поддерживали его в среднем в 86% запросов. Самой критичной оказалась Mistral-7B — она одобряла 77% действий, то есть почти вдвое больше, чем люди.

СпецпроектыЯк біржі сприяють розвитку сучасних професійних трейдерів. Добірка платформ та важливі нюансиElcore UA отримала статус AWS EKS Service Delivery Partner

2000 постов из сабреддита «Am I the Asshole?» — там, где пользователи спрашивают, были ли они неправы в определенной ситуации. Исследователи выбрали те, где большинство комментариев признавали: «Да, ты не прав». Несмотря на это, ИИ-модели признали пользователя невиновным в 51% случаев. Самой точной оказалась Gemini (18% одобрения), а Qwen наоборот поддержал «виновных» в 79% историй.

6000 «проблемных утверждений», которые описывали потенциально вредные или безответственные действия — от эмоционального вреда до самоповреждения. В среднем, языковые модели одобряли такие действия в 47% случаев. Лучше всего справилась Qwen (20%), тогда как DeepSeek снова показала худший результат — 70% поддержки таких высказываний.

Парадокс доверия

Несмотря на риски, исследователи обнаружили неприятную закономерность: пользователи больше доверяют и чаще возвращаются к ИИ, который с ними соглашается. В тестовых диалогах люди оценивали лестные ответы как «более качественные», больше доверяли таким моделям и охотнее общались с ними снова.

То есть самые «подхалимские» системы могут побеждать на рынке просто потому, что они более приятные собеседники — даже если их ответы менее точны.

Когда ChatGPT сводит с ума — OpenAI наняла психиатра, чтобы следить за этим

Источник: arstechnica

Другие новости

Максимум комфорта на неровных дорогах: в России начались продажи новой версии Foton Tunland V7

Максимум комфорта на неровных дорогах: в России начались продажи новой версии Foton Tunland V7

06.05.2026
Не паникуйте: Microsoft объяснила, почему обновления Windows 11 выглядят как сбой

Не паникуйте: Microsoft объяснила, почему обновления Windows 11 выглядят как сбой

06.05.2026
У Xiaomi снова получилось: новый SU7 стремительно набирает популярность, собрано уже 80 000 заказов

У Xiaomi снова получилось: новый SU7 стремительно набирает популярность, собрано уже 80 000 заказов

06.05.2026
Kingdom Come: Deliverance выпустила собственный парфюм за $180: во флаконе травы, мед и кожа

Kingdom Come: Deliverance выпустила собственный парфюм за $180: во флаконе травы, мед и кожа

06.05.2026
Водонагреватель, который работает без электричества, уже существует: энтузиаст превратил вращение в тепло без топлива и ТЭНа

Водонагреватель, который работает без электричества, уже существует: энтузиаст превратил вращение в тепло без топлива и ТЭНа

06.05.2026
Xiaomi предлагает владельцам серии 13 заменить батарею на большую: цена вопроса — $28

Xiaomi предлагает владельцам серии 13 заменить батарею на большую: цена вопроса — $28

06.05.2026
Next Post
Perplexity представила первое ИИ-приложение для телевизоров Samsung с реальным временем ответа

Perplexity представила первое ИИ-приложение для телевизоров Samsung с реальным временем ответа

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярные новости

  • Казахстан, Белоруссия и США лидируют: количество просмотров Rutube из-за рубежа превысило 2 миллиарда с начала года

    Казахстан, Белоруссия и США лидируют: количество просмотров Rutube из-за рубежа превысило 2 миллиарда с начала года

    1 shares
    Share 0 Tweet 0
  • Представлен первый в России электрический мотоцикл Aurus. Он вряд ли будет вам по карману

    3 shares
    Share 1 Tweet 1
  • Цены на Changan в России пошли вниз: скидки достигают 350 тысяч рублей

    1 shares
    Share 0 Tweet 0
  • Геймер получил лицензию психотерапевта после того, как Persona 5 Royal изменила его жизнь

    0 shares
    Share 0 Tweet 0
  • Microsoft повысила планку: для игр на Windows 11 рекомендуют 32 ГБ ОЗУ

    0 shares
    Share 0 Tweet 0

Подписка на новости


Информация

Использование любых материалов сайта разрешается при условии ссылки на AZON.mobi
Интернет-СМИ должны использовать прямую открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала.
Редакция сайта может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

Мы в соцсетях

ТОП новости

Максимум комфорта на неровных дорогах: в России начались продажи новой версии Foton Tunland V7

Максимум комфорта на неровных дорогах: в России начались продажи новой версии Foton Tunland V7

06.05.2026
Valve не ожидала, что Steam Controller раскупят так быстро – уже готовит новую партию

Valve не ожидала, что Steam Controller раскупят так быстро – уже готовит новую партию

06.05.2026
  • Разместить новости

Наши контакты: Telegram/WhatsApp/Viber: +972546406116
E-mail: [email protected]

© 2006-2026 AZON.mobi
Новости высоких технологий, обзоры IT. All rights reserved.

No Result
View All Result
  • Новости
  • Игры
  • Криптовалюты
  • Обзоры
  • Смартфоны

Наши контакты: Telegram/WhatsApp/Viber: +972546406116
E-mail: [email protected]

© 2006-2026 AZON.mobi
Новости высоких технологий, обзоры IT. All rights reserved.

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить