Исследователи из немецкого Hochschule München University of Applied Sciences попытались проанализировать уровень выбросов в атмосферу из-за работы популярных нейросетей. Они исходили из усредненного показателя в 480 грамм CO₂ на каждый сгенерированный кВт⋅ч.
В исследовании использовалось 14 больших языков моделей, которым задавали одинаковый набор из 1000 вопросов на разные темы. Также от них прямо требовали выдавать как можно более лаконичные ответы, но это не сработало в случае с системами, которые используют модель рассуждений. Их алгоритмы вынуждают быть «многословными», как при решении задачи, так и выдаче ответа. Например, на математический вопрос, ответ на который умещается в один токен, Deepseek-R1 7B сгенерировала 14 187 токенов.
Оказалось, что если уровень выбросов у нейросети менее эквивалента 500 грамм CO2, то точность ее ответов не превысит 80 %. Поэтому у платформы Qwen 7B от Alibaba при выбросах всего 27,7 грамм CO2 точность лишь 31,9 %. А у Deepseek R1 70B 2042 грамм CO2 при точности 79,8 %. Если задать ей всего 600 тыс. вопросов, в атмосферу попадет столько же выбросов, как при перелете из Нью-Йорка в Лондон. А ведь только в США минимум 130 млн человек на постоянной основе используют какую-либо нейросеть.
Лучший показатель точности у Deep Cogito 70B — целых 84,9 %. Однако она создает в среднем втрое больше выбросов, чем модели схожей мощности, но адаптированные под работу без рассуждений и выдачу кратких базовых ответов. Увы, такие популярные нейросети, как ChatGPT от OpenAI, Gemini от Google, Grok от X и Claude от Anthropic протестировать не удалось. Хотя исследователи уверены, что там картина аналогичная.